판다 스는 크게 두 가지 자료 구조로 이루어졌습니다. 첫 번째는 Series, 두 번째는 DataFrame 입니다. 오늘은 Series에 대해서 다루겠습니다.
판다스 불러오기
import pandas as pd
Series 생성하기
s = pd.Series(data, index=index, name=name)
시리즈를 직관적으로 이해하는 가장 좋은 예시는 엑셀 시트의 열 하나를 떠올리는 겁니다. 엑셀과 달리 시리즈는 행의 이름(index)과 열의 이름(name)을 원하는 대로 입력할 수 있습니다. 별도로 입력하지 않는다면 index는 0부터 시작하는 정수 값이, name은 빈 값(None)이 입력됩니다.
또한 시리즈는 모든 데이터 유형(정수, 실수, 문자 등)을 담을 수 있습니다. 행 이름을 총칭하여 Index라고 하며, name 속성을 가질 수도 있습니다.
시리즈 생성하기: list
s = pd.Series(['Kim', 'Lee', 'Park'])
s
# 0 Kim
# 1 Lee
# 2 Park
# dtype: object
시리즈 생성하기: dict
s = pd.Series({'Kim': 20, 'Lee': 28, 'Park': 36})
s
# Kim 20
# Lee 28
# Park 36
# dtype: int64
시리즈의 속성: index와 values
index와 values 속성을 이용해서 해당 시리즈의 값과 인덱스를 출력할 수 있습니다.
s.index
# >>> Index(['Kim', 'Lee', 'Park'], dtype='object')
s.values
# >>> array([20, 28, 36], dtype=int64)
시리즈 인덱싱
인덱스 값을 사용해 인덱싱할 수 있습니다. 예를 들어 아래와 같이 문자 인덱스 값을 통해 데이터에 접근할 수 있습니다. 또한 이를 이용해 데이터 값을 변경할 수도 있습니다.
s['Kim']
# >>> 20
s['Kim'] = 55
s
# Kim 55
# Lee 28
# Park 36
# dtype: int64
- 이 글의 코드는 아나콘다(Anaconda3)가 설치된 주피터 노트북에서 작성되었습니다.