본문 바로가기

전체 글

[파이썬] Jupyter Notebook에서 PDF 변환 설정 주피터 노트북은 .ipynb 파일 형식 외에도 다양한 저장 방식을 지원합니다. 오늘은 그중에서도 .pdf 파일 형식으로 저장할 때 발생할 수 있는 오류에 대해서 알아보겠습니다. .pdf 저장하기 File - Download as - .pdf를 선택하시면 됩니다. 다만 이때 내 컴퓨터에 TeX 환경이 설치되어 있지 않다면 아래와 같은 오류 메시지를 보게 됩니다. nbconver failed 에러와 해결 방법 이 에러의 해결 방법은 매우 간단합니다. 위에 에러 메시지가 가리키는 웹 페이지에 가서, 본인의 OS에 맞는 TeX 환경을 설치하면 됩니다. 설치 파일의 안내에 따라 설치가 끝났다면 주피터 노트북을 다시 실행시켜 .pdf 파일 형식으로 저장하면 됩니다. window 환경의 예시 MiKTeX를 다운 받아.. 더보기
[파이썬] Pandas 행과 열로 데이터 추출하기: loc[ ], iloc[ ] 판다스에서 데이터를 행과 열로 데이터를 추출하는 방법을 살펴보겠습니다. 몇 가지 기본 문법만 숙지하면 다양한 방식으로 응용할 수 있습니다. 먼저 컬럼 데이터를 추출하는 방법을 알아보겠습니다. 데이터 불러오기 In [1]: # 판다스 라이브러리 임포트 import pandas as pd # plotly express에 내장되어있는 gapminder 데이터프레임을 사용하겠습니다. import plotly.express as px # plotly가 설치되어있지 않다면 아래 명령으로 설치할 수 있습니다. # !pip install plotly # 데이터 불러오기 df = px.data.gapminder() 컬럼 데이터 추출하기 데이터프레임에서 컬럼 데이터를 추출하려면 대괄호([ ])와 컬럼명을 사용해야 합니다... 더보기
[파이썬] Pandas 데이터 정렬하기: sort_index(), sort_values() 이번에는 데이터를 정렬하는 방법을 알아보겠습니다. 데이터를 정렬하는 기준은 크게 두가지가 있습니다. 1) .sort_index()를 사용하는 방법과 2) .sort_values()를 사용하는 방법입니다. 이름에서 유추할 수 있듯이 .sort_index()는 인덱스(index)를 기준으로, .sort_values()는 컬럼의 값을 기준으로 데이터를 정렬합니다. .sort_index()를 사용하여 데이터 정렬하기 In [1]: # 판다스 라이브러리 임포트 import pandas as pd # plotly express에 내장되어있는 gapminder 데이터프레임을 사용하겠습니다. import plotly.express as px df = px.data.gapminder() # 데이터 df를 인덱스를 기준으.. 더보기
[파이썬] Pandas 불러온 데이터 살펴보기: head(), shape(), info(), describe(), value_counts(), unique() 판다스에는 데이터 분석에 유용한 여러 가지 함수(메소드)와 속성이 미리 정의되어 있습니다. 이번 시간에는 불러온 데이터를 살펴보는 기능들에 대해서 알아보겠습니다. 데이터 불러오기 In [1]: # 판다스 라이브러리 임포트 import pandas as pd # plotly express에 내장되어있는 gapminder 데이터프레임을 사용하겠습니다. import plotly.express as px # plotly가 설치되어있지 않다면 아래 명령으로 설치할 수 있습니다. # !pip install plotly In [2]: df = px.data.gapminder() 컬럼명 확인하기 .columns 속성을 이용하면 해당 데이터프레임을 구성하는 컬럼명을 확인할 수 있습니다. 이 기능은 컬럼명을 변경할 때도 .. 더보기
[파이썬] Pandas의 자료구조 Series와 DataFrame 판다스(Pandas)는 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터 분석 라이브러리입니다. 판다스를 이용하면 표로 정리된 다양한 데이터(excel, csv, sql 등)를 자유자재로 다룰 수 있습니다. 엑셀에서 데이터를 다루는 것과 유사하지만 더 빠르고 효율적으로 처리할 수 있습니다. Pandas를 사용하면 무슨 장점이 있을까 1. 대용량 데이터(GB 단위 이상)를 다룰 수 있습니다. 엑셀은 데이터 용량이 100MB을 넘어가거나, 데이터가 100만 행이 넘어가면 정상적으로 작동하지 않는 현상을 겪기도 합니다. 2. 복잡한 처리 작업들을 비교적 손쉽게 할 수 있습니다. 소위 말하는 엑셀 노가다를 할 필요가 없습니다. 3. 손쉽게 데이터를 결합하고 분리할 수 있습니다. SQL처럼 데이터를 합치고 관계 연.. 더보기
[파이썬] 웹 크롤링: 파이썬으로 웹 사이트 읽어오기 웹 스크래핑을 하기 위해서는 우선 내가 원하는 웹 사이트를 읽어올 수 있어야 합니다. 웹의 동작 방식 브라우저에 원하는 페이지의 주소를 입력하고 엔터를 치면 다음과 같은 일이 일어납니다. 브라우저는 서버에게 html 파일 요청하고 서버는 이를 반환해줍니다. 이때 필요에 따라서 css, javajavascript가 포함되기도 합니다. 웹 브라우저는 이 파일들을 한데 모아 우리가 보는 화면 위에 그려줍니다. 파이썬 코드로 페이지 읽기 파이썬에서는 단 세줄의 코드로 똑같은 일을 할 수 있습니다. 매우 간단합니다. import requests html = requests.get('https://www.google.com/') print(html.text) 위의 코드를 실행해보면 페이지의 HTML 코드가 출력되는.. 더보기