파이썬(Python)

파이썬(python) 데이터분석 라이브러리[2] : pandas - DataFrame 인덱싱

알통몬_ 2018. 1. 19. 14:00
반응형


공감 및 댓글은 포스팅 하는데

 아주아주 큰 힘이 됩니다!!

포스팅 내용이 찾아주신 분들께 

도움이 되길 바라며

더 깔끔하고 좋은 포스팅을 

만들어 나가겠습니다^^

 


지난 포스팅에서 pandas 의 Series와 DataFrame에 대해서 공부했습니다.

2018/01/19 - [파이썬(Python)] - 파이썬(python) 데이터분석 라이브러리[2] : pandas - Series 와 DataFrame 알아보기


이번 포스팅에서는 DataFrame 인덱싱에 대해 공부합니다.


DataFrame 인덱싱

먼저 numpy 와 pandas 를 import 해주고, dataFrame을 만들었습니다.

dataFrame의 형태는 위와 같이 되었습니다.


dataFrame의 특정 컬럼에 대해서 확인하고 싶을 경우에는 두 가지 방법으로

확인이 가능합니다.

In[4] 와 In[5] 의 방법인데요.

Out[4] 와 Out[5]를 보면 완전히 같은 것을 확인할 수 있습니다.

형태를 보면 지난 포스팅에서 공부했던 Series 의 형태와 같죠?


복수 개의 열을 확인하고 싶을 때는 아래처럼, 두 개의 대괄호 안에 원하는 컬럼 값들을

콤마를 기준으로 선언하면 됩니다.

In[8] :특정 컬럼의 값들을 변경하고 싶을 때는 일괄적으로 변경하거나,

In[10] : 리스트 값을 넣어서 각 값들을 변경해 줄 수 있습니다.

새로운 컬럼을 추가할 수도 있는데요, 

값을 확인할 때는 df.year, df["year"] 처럼 두 방법이 다 가능했지만,

추가할 때는 df["zeros"] 같은 방법만 가능합니다.

Series 를 만들어서 컬럼을 추가해줄 수도 있습니다.

기존 컬럼들을 이용해서도 추가할 수 있습니다.

이렇게 True, False 마스크를 추가할 수도 있습니다.

컬럼을 삭제할 때는 del 키워드를 사용합니다.


인데스와 컬럼에 이름도 추가해 주었습니다.(복습!)


DataFrame 에서 인덱싱 방법에는 위에서 사용한 방법 뿐 아니라 여러가지가 있습니다.

리스트에서 인덱싱처럼 index 번호로 인덱싱을 하거나,

인덱스 값들로 범위 인덱싱도 할 수 있습니다.


인덱싱을 할 때는 loc 와 iloc 함수를 많이 사용합니다.

, 를 이용해 인덱스와 컬럼의 범위를 정하면 원하는 값만을 가져올 수도 있습니다.

새로운 행을 추가할 수도 있습니다.

In[42] : 새로운 index를 만들고 해당 index에 들어가 컬럼 값들을 리스트로 만들어

넣어줍니다.


iloc()를 사용하면, 인덱스 번호를 가지고 원하는 행의 값을 가져올 수 있습니다.

loc[3] 처럼 사용하면 에러가 발생합니다.


DataFrame에서도 Boolean 인덱싱이 가능합니다.

그리고 인덱싱을 할 때 인덱스나 컬럼을 거를 때 사용할 수 도 있습니다.


이상입니다.

다음 포스팅에서 이어집니다.

반응형