판다스에는 데이터 분석에 유용한 여러 가지 함수(메소드)와 속성이 미리 정의되어 있습니다. 이번 시간에는 불러온 데이터를 살펴보는 기능들에 대해서 알아보겠습니다.
데이터 불러오기
In [1]:
# 판다스 라이브러리 임포트
import pandas as pd
# plotly express에 내장되어있는 gapminder 데이터프레임을 사용하겠습니다.
import plotly.express as px
# plotly가 설치되어있지 않다면 아래 명령으로 설치할 수 있습니다.
# !pip install plotly
In [2]:
df = px.data.gapminder()
컬럼명 확인하기
.columns
속성을 이용하면 해당 데이터프레임을 구성하는 컬럼명을 확인할 수 있습니다. 이 기능은 컬럼명을 변경할 때도 유용하게 사용되니 기억해주세요.
In [3]:
# .columns 속성을 이용하여 데이터 df의 컬럼명을 모두 출력합니다.
df.columns
Out[3]:
상위 N행 살펴보기
.head()
함수는 불러온 데이터의 상위 5개의 행을 출력합니다. 비슷하게 .tail()
의 경우 하위 5개의 행을 출력합니다. 괄호 () 안에 원하는 숫자를 넣으면 그 숫자만큼 행을 출력합니다.
In [4]:
# .head() 함수를 이용하여 상위 5행을 출력합니다.
df.head()
Out[4]:
(행, 열) 크기를 확인하기
.shape
속성을 이용하면 데이터의 (행, 열) 크기를 확인할 수 있습니다.
In [5]:
# .shape 속성을 이용하여 데이터 df의 (행, 열) 크기를 출력합니다.
df.shape
Out[5]:
정보 확인하기
.info()
함수는 데이터에 대한 전반적인 정보를 나타냅니다. df를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 등을 출력해줍니다.
In [6]:
# .info() 함수를 이용하여 데이터 df의 정보를 출력합니다.
df.info()
Out[6]:
요약 통계량 확인하기
.describe()
함수는 데이터의 컬럼별 요약 통계량을 나타냅니다. 또한 mean()
, max()
, median()
등 개별 함수를 사용하여 통계량을 계산할 수도 있습니다.
In [7]:
# .describe() 함수를 이용하여 요약 통게량을 출력합니다.
df.describe()
Out[7]:
# .median() 함수를 이용하여 gdpPercap 컬럼의 중앙값(median)을 출력합니다
df['gdpPercap'].median()
Out[8]:
시리즈 내에 각각의 값 세기
.value_counts()
함수를 이용하면 개별 컬럼 내에 각각의 값이 나온 횟수를 셀 수 있습니다.
In [9]:
# .value_counts()를 사용하면
# year 컬럼 내에 존재하는 각각의 값의 개수를 알 수 있습니다.
df['year'].value_counts()
Out[9]:
normalize 옵션을 사용하면 % 로도 표현이 가능합니다.
In [10]:
df['year'].value_counts(normalize=True)
Out[10]:
시리즈 내에 유일한 값 확인하기
.unique()
함수를 이용하면 개별 컬럼 내에 유일한 값을 확인할 수 있습니다.
In [11]:
# .unique()를 사용하면
# year 컬럼 내에 존재하는 각각의 값의 종류를 알 수 있습니다.
df['year'].unique()
Out[11]: