공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!! 포스팅 내용이 찾아주신 분들께 도움이 되길 바라며 더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^
|
이번 포스팅에서는 pandas 를 이용해서 간단한 데이터 분석을 해봅시다!
먼저 분석할 데이터는
https://www.kaggle.com/wendykan/lending-club-loan-data/data
위 사이트에서 회원가입 후 loan.csv 파일을 다운로드 받으시면 됩니다.
먼저 numpy 와 pandas를 임포트해주고,
다운로드 받은 loan.csv 파일을 불러옵니다.
sep="," 는 csv 파일이 콤마를 구분자로 사용하기 때문에 ,(콤마)를 넣어주면 됩니다.
그리고 파일을 잘 불러왔는지 확인하기 위해
df.shape를 사용해서 확인합니다.
887379행 74열 데이터를 잘 불러왔습니다.
컬럼이 너무 많기 때문에 필요한 몇 가지만 가져와서 새로운 데이터 프레임을 만듭니다.
대출 금액, 대출 상태, 대출 등급, 이자율, 상관 기간정보만 가져와
새로운 df2 데이터 프레임을 만들었습니다.
head() 또는 tail() 함수를 이용해서 처음부터 5개 또는 끝에서 5개의 정보를 확인할 수 있습니다.
아래 코드를 통해서는 요소들 중에 결치값(NaN) 값이 있는지 확인할 수 있습니다.
분석해 볼 데이터는 대출 등급 별 대출 상태가 안 좋은 사람들의 수 입니다.
그러면 먼저 대출 상태의 요소가 어떻게 되는지 확인부터 해봐야겠죠?
아래 요소들 중에서 2,4,6,7,9 번째 요소들이 대출 상태가 안 좋을 때의 값들입니다.
In[22] : 코드의 결과로는 loan_status 값이 bas_status_category의 값에 있는 값들이면
True, 없는 값들이면 False로해서 bad_loan_status 컬럼이 추가됩니다.
아래처럼 간단히 데이터를 분석해 보았습니다.
In[28] : 대출금과 이자율 간의 상관계수도 구해봤는데요.
큰 관계는 없는 것 같네요 ㅎㅎ
분석한 결과를 바로 csv 파일로 추출할 수도 있습니다.
다음 포스팅에서는 matplotlib 의 플로팅 함수에 대해 공부합니다.
'파이썬(Python)' 카테고리의 다른 글
파이썬(python) 데이터 시각화 라이브러리 : matplotlib 여러 그래프 그려보기 (0) | 2018.01.23 |
---|---|
파이썬(python) 데이터 시각화 라이브러리 : matplotlib, matplotlib.pyplot (2) | 2018.01.22 |
파이썬(python) 데이터분석 라이브러리[2] : pandas - 데이터 분석용 함수들 (1) | 2018.01.22 |
파이썬(python) 데이터분석 라이브러리[2] : pandas - date_range(), dropna(), fillna(), isnull(), drop() (0) | 2018.01.20 |
파이썬(python) 데이터분석 라이브러리[2] : pandas - DataFrame 인덱싱 (2) | 2018.01.19 |