파이썬(Python)

파이썬(python) 데이터분석 라이브러리[2] : pandas - Series 와 DataFrame 알아보기

알통몬_ 2018. 1. 19. 11:33
반응형


공감 및 댓글은 포스팅 하는데

 아주아주 큰 힘이 됩니다!!

포스팅 내용이 찾아주신 분들께 

도움이 되길 바라며

더 깔끔하고 좋은 포스팅을 

만들어 나가겠습니다^^

 


지난 포스팅까지 numpy에 대해서 알아보았는데요.


이번 포스팅부터는 pandas에 대해서 공부합니다.

pandas 는 파이썬 데이터 분석의 핵심 라이브러리입니다.

pandas 에는 고유한 자료구조가 있습니다.

Series와 DataFrame인데요.


Series : 동일한 데이터 형에 복수 개의 성분으로 구성된 자료구조입니다.


DataFrame : 서로 같거나, 다른 데이터 형, 여러가지 열에 대해 복수 개의

성분으로 구성된 표와 같은 자료입니다.


Series 와 DataFrame을 사용하기 위해서는 numpy 와 pandas를 import 해주어야 합니다.


Series 알아보기

In[2] : Series 를 만듭니다.

값만 넣어줬는데  0, 1, 2, 3 이라는 인덱스가 같이 추가되었습니다.

values, index, dtype 각 멤버 변수를 사용해서 Series 가 가지는 값, index, 타입을

확인할 수 있습니다.

사용자가 index 값까지 같이 추가해 줄 수 있습니다.

Series의 형태를 보면 Dictionary 와 유사합니다.

때문에 Series 자료형을 만들 때 dictionary 타입의 변수를 넣어서 만들어 줄 수도 있습니다.


Series 자체의 이름과 Series의 index에 대해 이름을 지정해 줄 수도 있습니다.


기존에 정의된 Series에 대해 index를 새로운 index로 재정의 할 수 있습니다.


DataFrame 알아보기

DataFrame을 만들 때 인자로는 Dictionary 형태나, numpy 형태의 자료가 들어가야 합니다.

마찬가지로 index 를 따로 지정해주지 않으면 0부터 하나씩 증가하면서 index가 지정됩니다.

DataFrame 의 표에서 행 방향의 index는 index, 열 방향의 index는 columns 이라고 합니다.

그리고 values 멤버변수를 사용하면, 값에 해당 하는 부분들을2차원 numpy array 형태로

얻을 수 있습니다.


index 와 columns 의 이름을 부여할 수도 있습니다.


DataFrame을 정의할 때 index 와 columns 값을 지정해 줄 수 있습니다.

아래 같은 경우는 기존에 있는 Dictionary 자료형 변수를 받아서 만들었기 때문에

columns 선언 시 Dictionary의 key 값과 같은 순서, 같은 이름으로 써주어야 합니다.

penalty 같은 경우는 기존에 없기 때문에 NaN 값이 들어간 것을 볼 수 있습니다.


describe() 라는 함수를 실행하면, 계산이 가능한 컬럼에 대해 여러가지 값들을

계산해서 표로 보여줍니다.

count : 갯수

mean : 평균

std : 표준편차

min : 최솟값

25% : 하위 25% 값

50% : 중간 값

75% : 상위 25% 값

max : 최댓값


이상입니다.

다음 포스팅에서는 DataFrame에서 indexing 에 대해 공부합니다.

감사합니다.

반응형