정구리의 우주정복

Python 공공데이터 다뤄보기 1. Pandas 써보기 (csv파일 읽기 , 행과 열 출력 , 유니코드 에러) 본문

PYTHON/STUDY

Python 공공데이터 다뤄보기 1. Pandas 써보기 (csv파일 읽기 , 행과 열 출력 , 유니코드 에러)

Jungry_ 2020. 4. 13. 15:23
반응형

 

데이터 분석쪽이 궁금해서 공공데이터 다뤄보기를 시작으로 데이터 분석 공부를 해보려고 한당 

 

https://www.data.go.kr/dataset/3035522/fileData.do

 

공공데이터포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다.

www.data.go.kr

 

판다스를 import 해서 read_csv 를 해줬는데 
UnicodeDecodeError 에러가 나왔다 한글을 불러오지 못해서 이런 에러가 나온듯

pandas 는 read_  . . 해서 불러오는 애들은 기본적으로 utf-8 로 불러오게 된다 

쨋든 해결 방법은

 

pd.read_csv("data/주택도시보증공사_전국 평균 분양가격(2020년 2월).csv",encoding = "cp949")

 

맨 뒤에 encoding = 'cp949' 로 인코딩을 해주면 된다 ! (utf-8 이나 다른 애들보다 cp949 가 더 많은 글자들을 가지고 있어서 깨지는 글자가없다)

 

이렇게 하면 해결 완료 !

 

 

read 해온걸 df_last 라는 변수에 담고 그

.shape 를 이용해서 행과 열을 출력해보았따 (4505행 , 5열)

 

 

.head() 를 이용하면 위의 5개를 출력 (shift +tab 을 누르면 함수의 자세한 설명을 볼 수 있다)

.tail() 을 이용하면 아래 5개를 출력해준다 

반응형
Comments