본문 바로가기

판다스

[파이썬] Pandas 데이터 정렬하기: sort_index(), sort_values() 이번에는 데이터를 정렬하는 방법을 알아보겠습니다. 데이터를 정렬하는 기준은 크게 두가지가 있습니다. 1) .sort_index()를 사용하는 방법과 2) .sort_values()를 사용하는 방법입니다. 이름에서 유추할 수 있듯이 .sort_index()는 인덱스(index)를 기준으로, .sort_values()는 컬럼의 값을 기준으로 데이터를 정렬합니다. .sort_index()를 사용하여 데이터 정렬하기 In [1]: # 판다스 라이브러리 임포트 import pandas as pd # plotly express에 내장되어있는 gapminder 데이터프레임을 사용하겠습니다. import plotly.express as px df = px.data.gapminder() # 데이터 df를 인덱스를 기준으.. 더보기
[파이썬] Pandas 불러온 데이터 살펴보기: head(), shape(), info(), describe(), value_counts(), unique() 판다스에는 데이터 분석에 유용한 여러 가지 함수(메소드)와 속성이 미리 정의되어 있습니다. 이번 시간에는 불러온 데이터를 살펴보는 기능들에 대해서 알아보겠습니다. 데이터 불러오기 In [1]: # 판다스 라이브러리 임포트 import pandas as pd # plotly express에 내장되어있는 gapminder 데이터프레임을 사용하겠습니다. import plotly.express as px # plotly가 설치되어있지 않다면 아래 명령으로 설치할 수 있습니다. # !pip install plotly In [2]: df = px.data.gapminder() 컬럼명 확인하기 .columns 속성을 이용하면 해당 데이터프레임을 구성하는 컬럼명을 확인할 수 있습니다. 이 기능은 컬럼명을 변경할 때도 .. 더보기
[파이썬] Pandas의 자료구조 Series와 DataFrame 판다스(Pandas)는 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터 분석 라이브러리입니다. 판다스를 이용하면 표로 정리된 다양한 데이터(excel, csv, sql 등)를 자유자재로 다룰 수 있습니다. 엑셀에서 데이터를 다루는 것과 유사하지만 더 빠르고 효율적으로 처리할 수 있습니다. Pandas를 사용하면 무슨 장점이 있을까 1. 대용량 데이터(GB 단위 이상)를 다룰 수 있습니다. 엑셀은 데이터 용량이 100MB을 넘어가거나, 데이터가 100만 행이 넘어가면 정상적으로 작동하지 않는 현상을 겪기도 합니다. 2. 복잡한 처리 작업들을 비교적 손쉽게 할 수 있습니다. 소위 말하는 엑셀 노가다를 할 필요가 없습니다. 3. 손쉽게 데이터를 결합하고 분리할 수 있습니다. SQL처럼 데이터를 합치고 관계 연.. 더보기