공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!! 포스팅 내용이 찾아주신 분들께 도움이 되길 바라며 더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^
|
지난 포스팅까지 numpy에 대해서 알아보았는데요.
이번 포스팅부터는 pandas에 대해서 공부합니다.
pandas 는 파이썬 데이터 분석의 핵심 라이브러리입니다.
pandas 에는 고유한 자료구조가 있습니다.
Series와 DataFrame인데요.
Series : 동일한 데이터 형에 복수 개의 성분으로 구성된 자료구조입니다.
DataFrame : 서로 같거나, 다른 데이터 형, 여러가지 열에 대해 복수 개의
성분으로 구성된 표와 같은 자료입니다.
Series 와 DataFrame을 사용하기 위해서는 numpy 와 pandas를 import 해주어야 합니다.
Series 알아보기
In[2] : Series 를 만듭니다.
값만 넣어줬는데 0, 1, 2, 3 이라는 인덱스가 같이 추가되었습니다.
values, index, dtype 각 멤버 변수를 사용해서 Series 가 가지는 값, index, 타입을
확인할 수 있습니다.
사용자가 index 값까지 같이 추가해 줄 수 있습니다.
Series의 형태를 보면 Dictionary 와 유사합니다.
때문에 Series 자료형을 만들 때 dictionary 타입의 변수를 넣어서 만들어 줄 수도 있습니다.
Series 자체의 이름과 Series의 index에 대해 이름을 지정해 줄 수도 있습니다.
기존에 정의된 Series에 대해 index를 새로운 index로 재정의 할 수 있습니다.
DataFrame 알아보기
DataFrame을 만들 때 인자로는 Dictionary 형태나, numpy 형태의 자료가 들어가야 합니다.
마찬가지로 index 를 따로 지정해주지 않으면 0부터 하나씩 증가하면서 index가 지정됩니다.
DataFrame 의 표에서 행 방향의 index는 index, 열 방향의 index는 columns 이라고 합니다.
그리고 values 멤버변수를 사용하면, 값에 해당 하는 부분들을2차원 numpy array 형태로
얻을 수 있습니다.
index 와 columns 의 이름을 부여할 수도 있습니다.
DataFrame을 정의할 때 index 와 columns 값을 지정해 줄 수 있습니다.
아래 같은 경우는 기존에 있는 Dictionary 자료형 변수를 받아서 만들었기 때문에
columns 선언 시 Dictionary의 key 값과 같은 순서, 같은 이름으로 써주어야 합니다.
penalty 같은 경우는 기존에 없기 때문에 NaN 값이 들어간 것을 볼 수 있습니다.
describe() 라는 함수를 실행하면, 계산이 가능한 컬럼에 대해 여러가지 값들을
계산해서 표로 보여줍니다.
count : 갯수
mean : 평균
std : 표준편차
min : 최솟값
25% : 하위 25% 값
50% : 중간 값
75% : 상위 25% 값
max : 최댓값
이상입니다.
다음 포스팅에서는 DataFrame에서 indexing 에 대해 공부합니다.
감사합니다.
'파이썬(Python)' 카테고리의 다른 글
파이썬(python) 데이터분석 라이브러리[2] : pandas - date_range(), dropna(), fillna(), isnull(), drop() (0) | 2018.01.20 |
---|---|
파이썬(python) 데이터분석 라이브러리[2] : pandas - DataFrame 인덱싱 (2) | 2018.01.19 |
파이썬(python) 데이터분석 라이브러리[1] : numpy 로 간단한 데이터 분석 해보기 (feat. MovieLens) (1) | 2018.01.19 |
파이썬(python) 데이터분석 라이브러리[1] : numpy array 관련 함수 알아보기 (2) | 2018.01.18 |
파이썬(python) 데이터분석 라이브러리[1] : numpy array 인덱싱 알아보기 (0) | 2018.01.18 |