파이썬(Python)

파이썬(python) 데이터분석 라이브러리[2] : pandas - 데이터 분석용 함수들

알통몬_ 2018. 1. 22. 11:18
반응형


공감 및 댓글은 포스팅 하는데

 아주아주 큰 힘이 됩니다!!

포스팅 내용이 찾아주신 분들께 

도움이 되길 바라며

더 깔끔하고 좋은 포스팅을 

만들어 나가겠습니다^^

 


이번 포스팅에서는 pandas 의 데이터 분석용 함수들에 대해서 공부합니다.


항상 그렇듯 먼저 필요한 라이브러리를 임포트합니다.

numpy 와 pandas 임포트하고, data 라는 2차원 리스트를 말들고

data 리스트를 기반으로 컬럼과 인덱스 명을 가지는 2차원 배열을 만들었습니다.

sum() : 행 또는 열 방향의 합을 구하는 함수입니다.

컬럼 이름을 가지고 특정 컬럼의 합만을 구할 수도 있습니다.


mean() : 평균을 구하는 함수,

var() 분산을 구하는 함수 / 분산이란? https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0

배열의 요소에 NaN 요소가 있을 때 평균을 구하는 방법입니다.

In[15] : skipna = False 일 경우

In[16] : skipna = True 인 경우

df.mean(axis=0)["컬럼이름"] : 행 방향 + 특정 컬럼의 평균을 구합니다.

df["컬럼이름"].fillna(value=값) : 요소 값이 NaN 인 요소를 값으로 변경합니다.

아래 코드의 경우 평균 값과, 최솟값으로 변경했습니다.


새로운 2차원 배열을 만듭니다.

corr() 라는 함수는 상관계수를 산출해주고,

cov() 라는 함수는 공분산을 산출해주는데요.

상관계수 : http://math7.tistory.com/112

공분산 : https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0

In[12], In[13] 처럼 사용하면, 특정 컬럼들 끼리의 값을 산출합니다.

In[14], In[15] 처럼 사용하면, 해당 2차원 배열 전체로

각 요소끼리 의 값을 산출합니다.

A <-> A, A <-> B, A <-> C, A <-> D, .... 이런 식으로


정렬하는 방법에 대해 알아보기 전 df2 배열을 다시 인덱싱합니다.


sort_index() 함수를 사용하면 인덱스 기준 정렬(행 기준, 열 기준)을 할 수 있습니다.

In[17] : 날짜로 오름차순정렬

In[18] : 알파벳 순으로 정렬

정렬의 기본 값은 오름차순인데요. 내림차순으로 정렬하고 싶을 경우

In[19] : 알파벳 역순으로 정렬


sort_values() 를 사용하면 인덱스 기준이 아닌 값 기준으로 정렬이 가능합니다.

In[20] : 열 D 의 값 기준으로 오름차순 정렬이 됩니다.

2개 이상의 값을 기준으로 정렬하는 방법에 대해 알아봅니다.

In[24] : 열 E를 기준으로 오름차순 정렬을 하고, E의 값이 같을 경우 F를 기준으로 

오름차순 정렬합니다.

unique() : 해당 열의 중복을 제외한 요소 값을 보여줍니다.

value_counts() : 해당 열에 요소들의 갯수를 알려줍니다.


apply() 를 사용하면 배열에 함수를 적용시킨 결과를 얻을 수도 있습니다.


이상입니다.

다음 포스팅에서는 pandas 를 이용해서 간단한 데이터 분석을 공부합니다.

감사합니다.

반응형