정구리의 우주정복

Python 공공데이터 다뤄보기 3. Pandas 칼럼 이름 바꾸기 , 칼럼 지우기 , groupby와 pivot_table 의 차이점 , 사용해보기 본문

PYTHON/STUDY

Python 공공데이터 다뤄보기 3. Pandas 칼럼 이름 바꾸기 , 칼럼 지우기 , groupby와 pivot_table 의 차이점 , 사용해보기

Jungry_ 2020. 4. 14. 20:42
반응형

*1,2번 게시글에서 쓴 변수를 그대로 사용하는 중입니당 (df_last)

**정보전달용이 아닌 기록용 게시글이기 때문에 두서없을 수 있습니다 (댓글달면 아는한에서 알랴드림)

 

 

1. 칼럼의 이름과 내용 바꾸기 

df_last 안의 규모구분 칼럼에 있는 내용을 조금씩 수정해서 전용면석이라는 새로운 칼럼을 만들어줄거임

pandas 의 str.replace('문자열','바꿀 문자열') 이걸 써줄거임

규모구분 안에있는 전용면적 이라는 문자열을 공백으로 바꾸고 , 초과 -> - , 이하 -> 공백 , 띄어쓰기과 앞뒤의 띄어쓰기 -> 공백

으로 바꿔준걸 전용면적이라는 새로운 칼럼을 만들어서 저장을 해준거다 !

 

2. 칼럼 삭제하기 

규모구분의 내용을 전처리한걸 전용면적에 저장했기 때문에 이제 필요없는 규모구분을 삭제해줄거다

df_last.drop 을 통해서 규모구분과 , 분양가격(m) 두개를 없애준거다 뒤에 axis 에는 0이 들어가면 행을 삭제하는거고 1이 들어가면 열을 삭제하기 때문에 나는 열 삭제를 위해 axis = 1을 사용해 주었다 !

 

이후에 .info 를 써서 확인해보면 메모리가 줄어든걸 볼 수 있다 (2개를 지워줬으니까 그만큼 줄어듬)

 

3. groupby 사용해보기

groupby 는 칼럼안의 친구들을 계산해주기 위해서 사용했다 . 

변수.groupby(['계산하고싶은 칼럼'])['뭐계산할지'].어떤 결과값 원하는지

이게 말로 하니까 뭔말인지 모르겠네 

 

이렇게 있으면 '전용면적에 따른 평당 분양가격의 평균' 을 구하는거다 !

 

mean 이 평균값을 구하는거고 그 밖에도 std(표준편차) min(최소) 25%(1사분위) 50% 75% max(최대)

 

이렇게 여러가지가 있고 .describe() 를 이용해서 확인할 수 있다 . 

 

4. pivot_table 사용해보기

소문으로만 듣던 피봇테이블을 오늘 첨 써봤다 

기능은 groupby 랑 거의 똑같고 pivot 과 pivot_table 이렇게 두개가 있는데 둘의 차이는 연산을 하냐 안하냐의 차이다

 

pd.pivot_table(df_last,index = '' , columms = '' ,value = '', aggfunc = '')이렇게 있는데 말로 설명하기가 힘들어서 그냥 사용하는걸 보고 

groupby 랑 비교해보면서 확인하는게 더 쉬울거다 ! aggfunc 에는 연산을 해야하는 (mean, sub ... 이 온다)

 

피봇테이블 사용한 모습

 

pivot_table 과 groupby 의 차이점 : pivot_table 은 보기 쉬운 데이터프레임형태로 나오고 groupby 는 결과물이 덜 깔끔하게 나온다 

그렇다고 무조건 pivot_table 이 좋은건 아닌게 아무래도 데이터프레임으로 정리가 되어서 나오는거라 실행시간이 조금 더 걸린다 !

 

pivot 과 pivot_table 의 차이 : 연산을 하냐 안하냐의 차이  pivot 은 데이터의 형태만 바꾸고 pivot_table 은 aggfunc을 통해 연산도 한다 !

 

반응형
Comments