본문 바로가기

카테고리 없음

[python pandas 기초] DataFrame의 속성: index, columns, shape, dtypes 등

파이썬을 이용해서 코딩을 하다 보면 많이 사용하는 라이브러리 중 하나가 바로 판다스입니다. 오늘은 pandas dataframe을 활용할 때 알아두면 도움이 되는 기초 속성 9가지를 알아보겠습니다. 

 

 

코드 실습하기

# 라이브러리 불러오기
import pandas as pd
# 샘플 데이터프레임 만들기
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon','Parrot', 'Parrot'], 
                   'Max Speed': [380., 370., 24., 26.], 
                   'Weight': [1.5, 1.4, 2., 1.9]})
# 출력하기
df

"""
	Animal	Max Speed  Weight
0	Falcon	380.0	    1.5
1	Falcon	370.0	    1.4
2	Parrot	24.0	    2.0
3	Parrot	26.0	    1.9
"""

 

샘플 데이터프레임을 만들었습니다. 각각의 속성이 어떤 결과를 반환하는지 출력해 보겠습니다.

 

print(df.index)
# RangeIndex(start=0, stop=4, step=1)

 

데이터프레임의 인덱스(행 이름)를 반환합니다. 샘플 데이터프레임을 만들 때 따로 인덱스를 입력하지 않았기 때문에 0부터 시작하는 인덱스가 부여되었습니다.

 

 

print(df.columns)
# Index(['Animal', 'Max Speed', 'Weight'], dtype='object')

 

열 레이블(컬럼 이름)을 차례대로 반환합니다.

 

 

print(df.dtypes)
"""
Animal        object
Max Speed    float64
Weight       float64
dtype: object
"""

 

각 컬럼의 데이터 타입을 반환합니다. 예제의 경우 차례대로 문자열, 실수, 실수입니다.

 

 

print(df.values)
"""
[['Falcon' 380.0 1.5]
 ['Falcon' 370.0 1.4]
 ['Parrot' 24.0 2.0]
 ['Parrot' 26.0 1.9]]
 """

 

DataFrame을 Numpy 형식으로 변환해줍니다.

 

 

print(df.axes)
# [RangeIndex(start=0, stop=4, step=1), Index(['Animal', 'Max Speed', 'Weight'], dtype='object')]

 

가로축과 세로축을 나타내는 목록을 각각 반환합니다. 쉽게 표현하면 df.index의 값과 df.columns의 값을 리스트 형태로 돌려준 것과 같습니다.

 

 

print(df.ndim)
# 2

 

차원을 나타냅니다. 이 경우에는 2차원을 의미합니다.

 

 

print(df.size)
# 12

 

데이터프레임 내의 요소의 수를 알려줍니다. 가로 4개 x 세로 3개, 총 12개가 존재합니다.

 

 

print(df.shape)
# (4, 3)

 

(가로, 세로) 형태로 데이터프레임의 크기를 알려줍니다.

 

print(df.empty)
# False

 

데이터프레임이 비어 있는지를 나타냅니다. 만약 빈 데이터프레임을 만들고 싶다면 pd.DataFrame()을 이용해서 만들 수 있습니다.

 

 

df.memory_usage()
"""
Index        128
Animal        32
Max Speed     32
Weight        32
dtype: int64
"""

 

각 컬럼의 메모리 사용량을 바이트 단위로 알려줍니다.

 

 

- 이 글은 아나콘다(Anaconda3)가 설치된  주피터 노트북에서 작성되었습니다.