본문 바로가기

판다스

[파이썬 pandas 기초] 데이터프레임 결측 값 확인하는 방법: isna(), notna() pandas dataframe으로 데이터를 다루다 보면 데이터 중 일부가 누락되어있는 경우가 종종 있습니다. 오늘은 누락된 데이터가 존재하는지 확인하는 방법을 알아보겠습니다. dataframe.isna() 이 메서드는 데이터프레임 내에 결측 값을 확인하여, 그 결과를 True 또는 False로 반환합니다. NA, None, numpy.nan은 True 값에 해당하고, 그 외 나머지는 False에 해당합니다. 샘플 데이터프레임을 만들어서 확인해 보겠습니다. df = pd.DataFrame({'name': ['Anne', 'Olaf', 'Ralph'], 'age': [4, 7, np.nan], 'hobby': [None, 'swimming', 'dance']}) df """ nameagehobby 0Anne.. 더보기
[파이썬 pandas 기초] 데이터프레임의 데이터 타입 바꾸기: astype() pnadas dataframe을 다루다 보면 데이터 타입을 변경해야 할 때가 있습니다. 오늘은 그 방법을 알아보겠습니다. DataFrame 데이터 타입을 바꾸는 두가지 방법 코드를 보면서 어떤 결과가 나오는지 살펴보겠습니다. 우선 데이터프레임을 만들어줍니다. # 라이브러리를 불러옵니다. import pandas as pd # 샘플 데이터프레임을 생성합니다. df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) df """ col1col2 013 124 """ df의 데이터타입을 확인하겠습니다. int 정수 타입인 것을 알 수 있습니다. print(df.dtypes) """ col1 int64 col2 int64 dtype: object """ float로 바꿔보겠습.. 더보기
[python pandas 기초] DataFrame의 속성: index, columns, shape, dtypes 등 파이썬을 이용해서 코딩을 하다 보면 많이 사용하는 라이브러리 중 하나가 바로 판다스입니다. 오늘은 pandas dataframe을 활용할 때 알아두면 도움이 되는 기초 속성 9가지를 알아보겠습니다. 코드 실습하기 # 라이브러리 불러오기 import pandas as pd # 샘플 데이터프레임 만들기 df = pd.DataFrame({'Animal': ['Falcon', 'Falcon','Parrot', 'Parrot'], 'Max Speed': [380., 370., 24., 26.], 'Weight': [1.5, 1.4, 2., 1.9]}) # 출력하기 df """ AnimalMax Speed Weight 0Falcon380.0 1.5 1Falcon370.0 1.4 2Parrot24.0 2.0 3Par.. 더보기
파이썬 웹 크롤링 comp.fnguide 재무 데이터 가져오기: pd.read_html() 전업 개발자가 아닌 분들도 파이썬 웹 스크래핑/크롤링에 관심 많은 것 같습니다. 아무래도 다른 분야보다 활용할 수 있는 곳이 다양하기 때문이 아닌가 싶습니다. 그중에서도 특히 개인 투자자 분들이 더 적극적이라는 느낌을 받습니다. 최근에 지인으로부터 재무제표를 수집할 수 있는 방법에 대해서 질문을 받았고, 관련해서 해당 내용을 좀 찾아봤습니다. 네이버 블로그에 이미 해당 내용이 잘 정리된 글이 있어서, 그 코드에 pd.read_html()을 덧붙여 보았습니다. 종목코드만 입력하고 코드를 실행하면 해당 기업의 재무 정보를 판다스 데이터프레임 형태로 가져올 수 있습니다. https://blog.naver.com/htk1019/221266979613 파이썬 웹 스크레이퍼 만들기 8편. Fnguide 데이터가져오.. 더보기
[파이썬 pandas] 주식 전 종목 코드(코스피, 코스닥) 구해서 데이터프레임으로 읽어오기 파이썬을 활용해서 계랑 투자를 해 볼까 고민하는 개인 투자자라면 필요한 것 중에 하나가 바로 종목 코드입니다. 다행히도 종목 코드 데이터는 한국 거래소에서 손쉽게 엑셀로 다운로드할 수 있습니다. http://marketdata.krx.co.kr/mdi#document=040601 한국거래소 홈페이지에서 [시장정보] > [상장현황] > [상장회사 검색]을 선택하면 됩니다. 아래와 같은 화면이 보인다면, 원하는 조건에 맞게 조회 버튼을 누른 후 엑셀로 다운로드하면 됩니다. 이제 이 데이터를 판다스에서 불러오겠습니다. 판다스에서 엑셀 데이터 읽어오기 판다스에는 엑셀 파일을 읽을 수 있는 read_excel()이라는 메서드를 제공하고 있습니다. 매개변수로 파일명(파일 경로)을 전달하면 엑셀 데이터를 불러옵니다... 더보기
[파이썬 pandas] 데이터프레임 컬럼 순서 변경, 추가, 이름 바꾸기 판다스를 사용하다 보면 생각보다 자주 필요한 기능이 칼럼의 순서를 바꾸고, 새 컬럼을 추가하고, 이름을 변경하는 것입니다. 사용법이 어려운 기능들은 아니지만 아직 pandas가 익숙하지 않은 분들은 종종 헷갈려하십니다. 이번 시간에는 칼럼을 다루는 세 가지 방법을 알아보겠습니다. 컬럼 순서 바꾸기 우선 오늘 예제로 사용할 데이터프레임을 만들겠습니다. # 라이브러리를 불러옵니다. import pandas as pd import numpy as np # 데이터프레임을 생성합니다. df = pd.DataFrame( {'name': ['KIM', 'LEE', 'SMITH','BROWN', 'MILLER'], 'age': [24, 32, 43, 24, np.nan], 'height': [178, 168, 171,.. 더보기
[파이썬 pandas] 판다스 매개변수 axis의 의미를 알아보자 판다스를 사용하다 보면 평균 계산, 데이터프레임 열이나 행 삭제 작업등을 할 때 axis(축)을 지정해야 합니다. 축을 넣어야 할 때면 0을 넣어야 하는지 1을 넣어야 하는지 헷갈릴 수 있습니다. 이번 시간에는 바로 이 axis에 대해서 알아보겠습니다. ① aixs=0(index)은 행을 따라 동작합니다. 각 컬럼의 모든 행에 대해서 작용합니다. ② aixs=1(columns)은 열을 따라 동작합니다. 각 행의 모든 컬럼에 대해서 작동합니다. 그림으로 직관적으로 이해해 보겠습니다. 예제로 사용할 데이터프레임을 만들겠습니다. df = pd.DataFrame( {'name': ['KIM', 'LEE', 'SMITH','BROWN', 'MILLER'], 'age': [24, 32, 43, 24, np.nan].. 더보기
[파이썬 pandas] 데이터의 순위를 구하는 rank() 함수 엑셀에 Rank 함수가 있는 것처럼 판다스에도 rank 함수가 존재합니다. 이 함수를 이용하면 수 목록 내에서 개별 수의 크기 순위를 손쉽게 계산할 수 있습니다. 이번에는 rank 함수를 사용하는 방법을 알아보겠습니다. 코드 DataFrame.rank(self, axis = 0, # 기본값 0(index)으로, index 축을 기준으로 랭크가 계산됩니다. method = 'average', # 동점을 가진 데이터들의 순위를 매기는 방법입니다. numeric_only = None, # True로 설정된 경우 숫자 열만 순위를 매깁니다. na_option = 'keep', # NaN 값 순위를 매기는 방법입니다. ascending = True, # 오름차순, 내림차순 정렬인지 정합니다. pct = False.. 더보기