공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!! 포스팅 내용이 찾아주신 분들께 도움이 되길 바라며 더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^
|
이번 포스팅에서는 pandas 의 데이터 분석용 함수들에 대해서 공부합니다.
항상 그렇듯 먼저 필요한 라이브러리를 임포트합니다.
numpy 와 pandas 임포트하고, data 라는 2차원 리스트를 말들고
data 리스트를 기반으로 컬럼과 인덱스 명을 가지는 2차원 배열을 만들었습니다.
sum() : 행 또는 열 방향의 합을 구하는 함수입니다.
컬럼 이름을 가지고 특정 컬럼의 합만을 구할 수도 있습니다.
mean() : 평균을 구하는 함수,
var() 분산을 구하는 함수 / 분산이란? : https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0
배열의 요소에 NaN 요소가 있을 때 평균을 구하는 방법입니다.
In[15] : skipna = False 일 경우
In[16] : skipna = True 인 경우
df.mean(axis=0)["컬럼이름"] : 행 방향 + 특정 컬럼의 평균을 구합니다.
df["컬럼이름"].fillna(value=값) : 요소 값이 NaN 인 요소를 값으로 변경합니다.
아래 코드의 경우 평균 값과, 최솟값으로 변경했습니다.
새로운 2차원 배열을 만듭니다.
corr() 라는 함수는 상관계수를 산출해주고,
cov() 라는 함수는 공분산을 산출해주는데요.
상관계수 : http://math7.tistory.com/112
공분산 : https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0
In[12], In[13] 처럼 사용하면, 특정 컬럼들 끼리의 값을 산출합니다.
In[14], In[15] 처럼 사용하면, 해당 2차원 배열 전체로
각 요소끼리 의 값을 산출합니다.
A <-> A, A <-> B, A <-> C, A <-> D, .... 이런 식으로
정렬하는 방법에 대해 알아보기 전 df2 배열을 다시 인덱싱합니다.
sort_index() 함수를 사용하면 인덱스 기준 정렬(행 기준, 열 기준)을 할 수 있습니다.
In[17] : 날짜로 오름차순정렬
In[18] : 알파벳 순으로 정렬
정렬의 기본 값은 오름차순인데요. 내림차순으로 정렬하고 싶을 경우
In[19] : 알파벳 역순으로 정렬
sort_values() 를 사용하면 인덱스 기준이 아닌 값 기준으로 정렬이 가능합니다.
In[20] : 열 D 의 값 기준으로 오름차순 정렬이 됩니다.
2개 이상의 값을 기준으로 정렬하는 방법에 대해 알아봅니다.
In[24] : 열 E를 기준으로 오름차순 정렬을 하고, E의 값이 같을 경우 F를 기준으로
오름차순 정렬합니다.
unique() : 해당 열의 중복을 제외한 요소 값을 보여줍니다.
value_counts() : 해당 열에 요소들의 갯수를 알려줍니다.
apply() 를 사용하면 배열에 함수를 적용시킨 결과를 얻을 수도 있습니다.
이상입니다.
다음 포스팅에서는 pandas 를 이용해서 간단한 데이터 분석을 공부합니다.
감사합니다.
'파이썬(Python)' 카테고리의 다른 글
파이썬(python) 데이터 시각화 라이브러리 : matplotlib, matplotlib.pyplot (2) | 2018.01.22 |
---|---|
파이썬(python) 데이터분석 라이브러리[2] : pandas - 간단한 데이터 분석 해보기 (0) | 2018.01.22 |
파이썬(python) 데이터분석 라이브러리[2] : pandas - date_range(), dropna(), fillna(), isnull(), drop() (0) | 2018.01.20 |
파이썬(python) 데이터분석 라이브러리[2] : pandas - DataFrame 인덱싱 (2) | 2018.01.19 |
파이썬(python) 데이터분석 라이브러리[2] : pandas - Series 와 DataFrame 알아보기 (0) | 2018.01.19 |