파이썬(Python) 36

파이썬(python) 데이터분석 라이브러리[2] : pandas - 간단한 데이터 분석 해보기

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 이번 포스팅에서는 pandas 를 이용해서 간단한 데이터 분석을 해봅시다! 먼저 분석할 데이터는 https://www.kaggle.com/wendykan/lending-club-loan-data/data 위 사이트에서 회원가입 후 loan.csv 파일을 다운로드 받으시면 됩니다.먼저 numpy 와 pandas를 임포트해주고,다운로드 받은 loan.csv 파일을 불러옵니다.sep="," 는 csv 파일이 콤마를 구분자로 사용하기 때문에 ,(콤마)를 넣어주면 됩니다.그리고 파일을 잘 불러왔는지 확인하기 위해df.shape를 사용해서 확인합니다.887379..

파이썬(Python) 2018.01.22

파이썬(python) 데이터분석 라이브러리[2] : pandas - 데이터 분석용 함수들

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 이번 포스팅에서는 pandas 의 데이터 분석용 함수들에 대해서 공부합니다. 항상 그렇듯 먼저 필요한 라이브러리를 임포트합니다.numpy 와 pandas 임포트하고, data 라는 2차원 리스트를 말들고data 리스트를 기반으로 컬럼과 인덱스 명을 가지는 2차원 배열을 만들었습니다.sum() : 행 또는 열 방향의 합을 구하는 함수입니다.컬럼 이름을 가지고 특정 컬럼의 합만을 구할 수도 있습니다. mean() : 평균을 구하는 함수,var() 분산을 구하는 함수 / 분산이란? : https://ko.wikipedia.org/wiki/%EB%B6%84%..

파이썬(Python) 2018.01.22

파이썬(python) 데이터분석 라이브러리[2] : pandas - date_range(), dropna(), fillna(), isnull(), drop()

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 이번 포스팅에서는 DataFrame을 여러가지 방법으로 조작해보도록 하겠습니다. pandas 를 이용해 읽어들인 DataSet 파일에 NaN 형태의 빠진 값(missing value)이나, 정상 범주에서 벗어난 값(이상치)이 얼마든지 존재할 수 있습니다. 이런 값들을 제거하거나 다른 값으로 수정하는 방법에 대해 공부하겠습니다. 패키지 임포트 + 크기가 (5,3)인 DataFrame 생성 및 인덱스와 컬럼 값 설정In[7] : date_range()는 pandas 에서 제공하는 dateTime 과 관련된 기능입니다.첫 번째 인자에는 문자열 타입의 시작할..

파이썬(Python) 2018.01.20

파이썬(python) 데이터분석 라이브러리[2] : pandas - DataFrame 인덱싱

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 지난 포스팅에서 pandas 의 Series와 DataFrame에 대해서 공부했습니다.2018/01/19 - [파이썬(Python)] - 파이썬(python) 데이터분석 라이브러리[2] : pandas - Series 와 DataFrame 알아보기 이번 포스팅에서는 DataFrame 인덱싱에 대해 공부합니다. DataFrame 인덱싱먼저 numpy 와 pandas 를 import 해주고, dataFrame을 만들었습니다.dataFrame의 형태는 위와 같이 되었습니다. dataFrame의 특정 컬럼에 대해서 확인하고 싶을 경우에는 두 가지 방법으로확인..

파이썬(Python) 2018.01.19

파이썬(python) 데이터분석 라이브러리[2] : pandas - Series 와 DataFrame 알아보기

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 지난 포스팅까지 numpy에 대해서 알아보았는데요. 이번 포스팅부터는 pandas에 대해서 공부합니다.pandas 는 파이썬 데이터 분석의 핵심 라이브러리입니다.pandas 에는 고유한 자료구조가 있습니다.Series와 DataFrame인데요. Series : 동일한 데이터 형에 복수 개의 성분으로 구성된 자료구조입니다. DataFrame : 서로 같거나, 다른 데이터 형, 여러가지 열에 대해 복수 개의성분으로 구성된 표와 같은 자료입니다. Series 와 DataFrame을 사용하기 위해서는 numpy 와 pandas를 import 해주어야 합니다...

파이썬(Python) 2018.01.19

파이썬(python) 데이터분석 라이브러리[1] : numpy 로 간단한 데이터 분석 해보기 (feat. MovieLens)

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 지난 포스팅까지해서 numpy에 대해 알아보았습니다.numpy 알아보기numpy array 인덱싱 알아보기numpy array 관련 함수 알아보기 이번 포스팅에서는 MovieLens 라는 곳에서 100만 DataSet을 받아서 분석해보겠습니다. 1. DataSet 다운로드먼저 구글에 MovieLens 라고 검색을 하면 아래처럼 나오는데요.저는 1M Dataset을 받았습니다. 다운로드 받은 압축파일의 압축을 풀면 저 같은 경우는 ml-1m 이라는 폴더가 나오는데,그 안에 3개의 .dat 파일과 readme.txt 파일이 존재합니다.그리고 jupyter..

파이썬(Python) 2018.01.19

파이썬(python) 데이터분석 라이브러리[1] : numpy array 관련 함수 알아보기

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 지난 두 번의 포스팅을 통해 numpy, numpy array, numpy array indexing 에 대해 공부했습니다.2018/01/18 - [파이썬(Python)] - 파이썬(python) 데이터분석 라이브러리[1] : numpy 알아보기2018/01/18 - [파이썬(Python)] - 파이썬(python) 데이터분석 라이브러리[1] : numpy array 인덱싱 알아보기 이번 포스팅에서는 numpy array와 관련된 함수들에 대해 공부합니다.제곱근 구하기log10 값 구하기두 array를 가지고 최댓값, 최솟값으로만 이루어진 array ..

파이썬(Python) 2018.01.18

파이썬(python) 데이터분석 라이브러리[1] : numpy array 인덱싱 알아보기

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 지난 포스팅에서는 numpy array에 대해서 알아보았습니다. 2018/01/18 - [파이썬(Python)] - 파이썬(python) 데이터분석 라이브러리[1] : numpy 알아보기 이번 포스팅에서는 numpy array 인덱싱에 대해 알아보겠습니다.numpy array 인덱싱은 리스트의 인덱싱과 굉장히 유사합니다. 1차원 array 인덱싱지난 포스팅에서 공부한 arange() 함수를 통해 0부터 6까지 간격이 1인 array를 생성했습니다.arr[4] : 인덱스가 4인 성분 값을 가져옵니다.arr[2:5] : 인덱스가 2, 3, 4 인 성분 값..

파이썬(Python) 2018.01.18

파이썬(python) 데이터분석 라이브러리[1] : numpy 알아보기

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 이번 포스팅에서는 numpy 라이브러리에 대해 공부합니다. 이번 포스팅부터는 지난 포스팅에서 설치한 jupyter 를 사용합니다.그 전에 numpy 가 무엇인지 알아야겠죠? NumPy : Numerical Python 의 약자로Python 을 사용한 과학 컴퓨팅의 기본 패키지입니다.NumPy는 다음을 포함하는데요.- 파워풀한 N 차원의 배열 객체- 정교한(broadcasting) 기능- C 와 C++ 그리고 포트란 코드 통합 도구- 유요한 선형 대수학, 푸리에 변환, 난수 기능 주피터 실행하기jupyter notebook 명령어를 실행하면 아래처럼 페..

파이썬(Python) 2018.01.18

파이썬(python) 을 이용한 데이터 분석을 위한 원도우 os 환경 구성하기 for Windows

공감 및 댓글은 포스팅 하는데 아주아주 큰 힘이 됩니다!!포스팅 내용이 찾아주신 분들께 도움이 되길 바라며더 깔끔하고 좋은 포스팅을 만들어 나가겠습니다^^ 이전 포스팅까지 파이썬의 문법등 기초에 대해서 공부했습니다. 이제부터는 데이터 분석을 공부해보려고 하는데요.환경을 구성해주어야 합니다. 설치 순서 및 방법1. Anaconda 설치 아래 사이트에 가셔서 본인 운영체제에 맞는 아나콘다를 설치하시면 됩니다.저는 Windows, Python 3.6 Version, 64-bit를 다운로드 받았습니다.https://www.anaconda.com/download/.exe 설치파일 다운로드가 완료되면 설치하시면 됩니다. 설치과정 중에 체크 박스 2개가 있는 단계가 있는데,거기서 위에꺼만 체크하거나 둘 다 체크하시면..

파이썬(Python) 2018.01.18