python pandas 4

파이썬(python) : pandas DataFrame 병합과 연결 merge, concat

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 데이터의 특성 상 하나의 파일로 표현하기에 양이 많기에 분석 과정에서는필요에 따라 파일들을 DataFrame으로 읽어들인 뒤에 하나의 DataFrame으로종합하여 분석해야 하는 경우가 종종 발생하는데요. 서로 다른 2개의 DataFrame을 하나로 합치는 작업을 두 가지로 구분할 수 있는데요.연결 :하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법두 DataFrame에 서로 동일한 인덱스나 컬럼을 가지는 경우가 많음. 병합 : 두 DataFrame에 공통적으로 포함되어 있는 하나의 열을 기준으로 삼아해당 열의 값이 동일한 두 ..

파이썬(Python) 2018.01.23

파이썬(python) 데이터분석 라이브러리[2] : pandas - 간단한 데이터 분석 해보기

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 이번 포스팅에서는 pandas 를 이용해서 간단한 데이터 분석을 해봅시다! 먼저 분석할 데이터는 https://www.kaggle.com/wendykan/lending-club-loan-data/data 위 사이트에서 회원가입 후 loan.csv 파일을 다운로드 받으시면 됩니다.먼저 numpy 와 pandas를 임포트해주고,다운로드 받은 loan.csv 파일을 불러옵니다.sep="," 는 csv 파일이 콤마를 구분자로 사용하기 때문에 ,(콤마)를 넣어주면 됩니다.그리고 파일을 잘 불러왔는지 확인하기 위해df.shape를 사용해서 확인합니다.887379..

파이썬(Python) 2018.01.22

파이썬(python) 데이터분석 라이브러리[2] : pandas - 데이터 분석용 함수들

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 이번 포스팅에서는 pandas 의 데이터 분석용 함수들에 대해서 공부합니다. 항상 그렇듯 먼저 필요한 라이브러리를 임포트합니다.numpy 와 pandas 임포트하고, data 라는 2차원 리스트를 말들고data 리스트를 기반으로 컬럼과 인덱스 명을 가지는 2차원 배열을 만들었습니다.sum() : 행 또는 열 방향의 합을 구하는 함수입니다.컬럼 이름을 가지고 특정 컬럼의 합만을 구할 수도 있습니다. mean() : 평균을 구하는 함수,var() 분산을 구하는 함수 / 분산이란? : https://ko.wikipedia.org/wiki/%EB%B6%84%..

파이썬(Python) 2018.01.22

파이썬(python) 데이터분석 라이브러리[2] : pandas - date_range(), dropna(), fillna(), isnull(), drop()

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 이번 포스팅에서는 DataFrame을 여러가지 방법으로 조작해보도록 하겠습니다. pandas 를 이용해 읽어들인 DataSet 파일에 NaN 형태의 빠진 값(missing value)이나, 정상 범주에서 벗어난 값(이상치)이 얼마든지 존재할 수 있습니다. 이런 값들을 제거하거나 다른 값으로 수정하는 방법에 대해 공부하겠습니다. 패키지 임포트 + 크기가 (5,3)인 DataFrame 생성 및 인덱스와 컬럼 값 설정In[7] : date_range()는 pandas 에서 제공하는 dateTime 과 관련된 기능입니다.첫 번째 인자에는 문자열 타입의 시작할..

파이썬(Python) 2018.01.20