본문 바로가기

카테고리 없음

[파이썬] pandas 자료 구조: Series 기초

판다 스는 크게 두 가지 자료 구조로 이루어졌습니다. 첫 번째는 Series, 두 번째는 DataFrame 입니다. 오늘은 Series에 대해서 다루겠습니다.

 

판다스 불러오기

import pandas as pd

 

Series 생성하기

s = pd.Series(data, index=index, name=name)

 

시리즈를 직관적으로 이해하는 가장 좋은 예시는 엑셀 시트의 열 하나를 떠올리는 겁니다. 엑셀과 달리 시리즈는 행의 이름(index)과 열의 이름(name)을 원하는 대로 입력할 수 있습니다. 별도로 입력하지 않는다면 index는 0부터 시작하는 정수 값이, name은 빈 값(None)이 입력됩니다.

 

또한 시리즈는 모든 데이터 유형(정수, 실수, 문자 등)을 담을 수 있습니다. 행 이름을 총칭하여 Index라고 하며, name 속성을 가질 수도 있습니다.

 

 

시리즈 생성하기: list

s = pd.Series(['Kim', 'Lee', 'Park'])
s

#	0     Kim
#	1     Lee
#	2    Park
#	dtype: object

 

 

시리즈 생성하기: dict

s = pd.Series({'Kim': 20, 'Lee': 28, 'Park': 36})
s

#	Kim     20
#	Lee     28
#	Park    36
#	dtype: int64

 

시리즈의 속성: index와 values

index와 values 속성을 이용해서 해당 시리즈의 값과 인덱스를 출력할 수 있습니다. 

s.index
# >>> Index(['Kim', 'Lee', 'Park'], dtype='object')

s.values
# >>> array([20, 28, 36], dtype=int64)

 

시리즈 인덱싱

인덱스 값을 사용해 인덱싱할 수 있습니다. 예를 들어 아래와 같이 문자 인덱스 값을 통해 데이터에 접근할 수 있습니다. 또한 이를 이용해 데이터 값을 변경할 수도 있습니다.

s['Kim']
# >>> 20

s['Kim'] = 55
s

#	Kim     55
#	Lee     28
# 	Park    36
# dtype: int64

 

 

- 이 글의 코드는 아나콘다(Anaconda3)가 설치된 주피터 노트북에서 작성되었습니다.