pandas 정리1
Pandas 정리1
데이터를 분석 할 때 pandas library을 통해 데이터를 정제한다.
이때 많이 쓰이고 헷갈리는 것들에 대해 정리해보았다.
Pandas는 데이터를 가공하여 테이블 형태로 만들어주는 라이브러리
판다스는 주로 numpy와 함께 쓰인다.
from pandas import Series, DataFrame
import pandas as pd
import numpy as np
판다스의 자료구조는 Series와 DataFrame이 있다.
1) Series 자료형
- Series는 data를 담을 수 있는 1차원 배열
- index라는 배열의 키를 갖고 있다.
- numpy array를 이용하여 간단한 Series를 바로 만들 수 있다
obj = Series([2,4, 6, 8]) obj 0 2 1 4 2 6 3 8 dtype: int64
여기서 왼쪽 열은 index, 오른쪽 열은 index의 값(values)을 보여준다.
obj2 = Series([2,4, 6, 8], index=['d', 'b', 'a', 'c'])
위와 같은 방식으로 index을 고칠 수 있다.
2) DataFrame 자료형
DataFrame은 표와 같은 자료형이다.
여러 개의 칼럼(열)을 담을수 있는데, 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다.
DataFrame은 로우(행)와 칼럼(열)에 대한 색인(index)이 있어서, 값을 찾거나 지정할수 있다.
- 자주 쓰는 method
# frame2 데이터 프레임의 apple이름 index에는 무슨 값이 있는가 frame2.loc['apple'] # reindex하고 NaN 인경우 0으로 채워넣는다. frame2.reindex(['b','c','d','e'],fill_value=0.0) #data라는 데이터프레임의 'three' 라는 칼럼 값이 5 이상인것만을 row들만 print하라 data[data['three'] > 5] # 기술통계 df.describe() #상관과 공분산 df.corr() df.cov() #누락된 값 찾기 string_data.isnull()
다음 글은 kaggle의 titanic 문제를 통해 pandas가 어떻게 활용되는지 직접 데이터를 다뤄보면서 알아보겠습니다.