pandas 정리1


Pandas 정리1

데이터를 분석 할 때 pandas library을 통해 데이터를 정제한다.

이때 많이 쓰이고 헷갈리는 것들에 대해 정리해보았다.

  • Pandas는 데이터를 가공하여 테이블 형태로 만들어주는 라이브러리

  • 판다스는 주로 numpy와 함께 쓰인다.

from pandas import Series, DataFrame 
import pandas as pd 
import numpy as np
  • 판다스의 자료구조는 Series와 DataFrame이 있다.

    1) Series 자료형

    • Series는 data를 담을 수 있는 1차원 배열
    • index라는 배열의 키를 갖고 있다.
    • numpy array를 이용하여 간단한 Series를 바로 만들 수 있다
    obj = Series([2,4, 6, 8])
    obj
      
    0    2 
    1    4 
    2    6
    3    8 
    dtype: int64 
    

    여기서 왼쪽 열은 index, 오른쪽 열은 index의 값(values)을 보여준다.

    obj2 = Series([2,4, 6, 8], index=['d', 'b', 'a', 'c'])
    

    위와 같은 방식으로 index을 고칠 수 있다.

    2) DataFrame 자료형

    • DataFrame은 표와 같은 자료형이다.

    • 여러 개의 칼럼(열)을 담을수 있는데, 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다.

    • DataFrame은 로우(행)와 칼럼(열)에 대한 색인(index)이 있어서, 값을 찾거나 지정할수 있다.

      • 자주 쓰는 method
      # frame2 데이터 프레임의 apple이름 index에는 무슨 값이 있는가
          
      frame2.loc['apple'] 
          
      # reindex하고 NaN 인경우 0으로 채워넣는다.
          
      frame2.reindex(['b','c','d','e'],fill_value=0.0)
          
      #data라는 데이터프레임의 'three' 라는 칼럼 값이 5 이상인것만을 row들만 print하라
          
      data[data['three'] > 5]
          
      # 기술통계
      df.describe()
          
      #상관과 공분산
      df.corr()
      df.cov()
          
      #누락된 값 찾기
          
      string_data.isnull()
      

다음 글은 kaggle의 titanic 문제를 통해 pandas가 어떻게 활용되는지 직접 데이터를 다뤄보면서 알아보겠습니다.




© 2018. by Gangmin

Powered by zzsza