공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!! 포스팅 내용이 찾아주신 분들께 도움이 되길 바라며 더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^
|
지난 포스팅에서 pandas 의 Series와 DataFrame에 대해서 공부했습니다.
2018/01/19 - [파이썬(Python)] - 파이썬(python) 데이터분석 라이브러리[2] : pandas - Series 와 DataFrame 알아보기
이번 포스팅에서는 DataFrame 인덱싱에 대해 공부합니다.
DataFrame 인덱싱
먼저 numpy 와 pandas 를 import 해주고, dataFrame을 만들었습니다.
dataFrame의 형태는 위와 같이 되었습니다.
dataFrame의 특정 컬럼에 대해서 확인하고 싶을 경우에는 두 가지 방법으로
확인이 가능합니다.
In[4] 와 In[5] 의 방법인데요.
Out[4] 와 Out[5]를 보면 완전히 같은 것을 확인할 수 있습니다.
형태를 보면 지난 포스팅에서 공부했던 Series 의 형태와 같죠?
복수 개의 열을 확인하고 싶을 때는 아래처럼, 두 개의 대괄호 안에 원하는 컬럼 값들을
콤마를 기준으로 선언하면 됩니다.
In[8] :특정 컬럼의 값들을 변경하고 싶을 때는 일괄적으로 변경하거나,
In[10] : 리스트 값을 넣어서 각 값들을 변경해 줄 수 있습니다.
새로운 컬럼을 추가할 수도 있는데요,
값을 확인할 때는 df.year, df["year"] 처럼 두 방법이 다 가능했지만,
추가할 때는 df["zeros"] 같은 방법만 가능합니다.
Series 를 만들어서 컬럼을 추가해줄 수도 있습니다.
기존 컬럼들을 이용해서도 추가할 수 있습니다.
이렇게 True, False 마스크를 추가할 수도 있습니다.
컬럼을 삭제할 때는 del 키워드를 사용합니다.
인데스와 컬럼에 이름도 추가해 주었습니다.(복습!)
DataFrame 에서 인덱싱 방법에는 위에서 사용한 방법 뿐 아니라 여러가지가 있습니다.
리스트에서 인덱싱처럼 index 번호로 인덱싱을 하거나,
인덱스 값들로 범위 인덱싱도 할 수 있습니다.
인덱싱을 할 때는 loc 와 iloc 함수를 많이 사용합니다.
, 를 이용해 인덱스와 컬럼의 범위를 정하면 원하는 값만을 가져올 수도 있습니다.
새로운 행을 추가할 수도 있습니다.
In[42] : 새로운 index를 만들고 해당 index에 들어가 컬럼 값들을 리스트로 만들어
넣어줍니다.
iloc()를 사용하면, 인덱스 번호를 가지고 원하는 행의 값을 가져올 수 있습니다.
loc[3] 처럼 사용하면 에러가 발생합니다.
DataFrame에서도 Boolean 인덱싱이 가능합니다.
그리고 인덱싱을 할 때 인덱스나 컬럼을 거를 때 사용할 수 도 있습니다.
이상입니다.
다음 포스팅에서 이어집니다.