판다스에는 데이터 분석에 유용한 여러 가지 함수(메소드)와 속성이 미리 정의되어 있습니다. 이번 시간에는 불러온 데이터를 살펴보는 기능들에 대해서 알아보겠습니다.
데이터 불러오기
# 판다스 라이브러리 임포트
import pandas as pd
# plotly express에 내장되어있는 gapminder 데이터프레임을 사용하겠습니다.
import plotly.express as px
# plotly가 설치되어있지 않다면 아래 명령으로 설치할 수 있습니다.
# !pip install plotly
df = px.data.gapminder()
컬럼명 확인하기
.columns
속성을 이용하면 해당 데이터프레임을 구성하는 컬럼명을 확인할 수 있습니다. 이 기능은 컬럼명을 변경할 때도 유용하게 사용되니 기억해주세요.
# .columns 속성을 이용하여 데이터 df의 컬럼명을 모두 출력합니다.
df.columns
상위 N행 살펴보기
.head()
함수는 불러온 데이터의 상위 5개의 행을 출력합니다. 비슷하게 .tail()
의 경우 하위 5개의 행을 출력합니다. 괄호 () 안에 원하는 숫자를 넣으면 그 숫자만큼 행을 출력합니다.
# .head() 함수를 이용하여 상위 5행을 출력합니다.
df.head()
(행, 열) 크기를 확인하기
.shape
속성을 이용하면 데이터의 (행, 열) 크기를 확인할 수 있습니다.
# .shape 속성을 이용하여 데이터 df의 (행, 열) 크기를 출력합니다.
df.shape
정보 확인하기
.info()
함수는 데이터에 대한 전반적인 정보를 나타냅니다. df를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 등을 출력해줍니다.
In [6]:
# .info() 함수를 이용하여 데이터 df의 정보를 출력합니다.
df.info()
Out[6]:
요약 통계량 확인하기
.describe()
함수는 데이터의 컬럼별 요약 통계량을 나타냅니다. 또한 mean()
, max()
, median()
등 개별 함수를 사용하여 통계량을 계산할 수도 있습니다.
In [7]:
# .describe() 함수를 이용하여 요약 통게량을 출력합니다.
df.describe()
# .median() 함수를 이용하여 gdpPercap 컬럼의 중앙값(median)을 출력합니다
df['gdpPercap'].median()
시리즈 내에 각각의 값 세기
.value_counts()
함수를 이용하면 개별 컬럼 내에 각각의 값이 나온 횟수를 셀 수 있습니다.
In [9]:
# .value_counts()를 사용하면
# year 컬럼 내에 존재하는 각각의 값의 개수를 알 수 있습니다.
df['year'].value_counts()
normalize 옵션을 사용하면 % 로도 표현이 가능합니다.
In [10]:
df['year'].value_counts(normalize=True)
시리즈 내에 유일한 값 확인하기
.unique()
함수를 이용하면 개별 컬럼 내에 유일한 값을 확인할 수 있습니다.
In [11]:
# .unique()를 사용하면
# year 컬럼 내에 존재하는 각각의 값의 종류를 알 수 있습니다.
df['year'].unique()