Machine Learning/Pandas

    [kaggle courses] Pandas - Renaming and Combining

    [kaggle courses] Pandas - Renaming and Combining

    https://www.kaggle.com/residentmario/renaming-and-combining 이름 바꾸기 - rename, rename_axis rename()은 인덱스나 열의 이름을 바꿀 때 사용한다. 아래의 예제처럼 dictionary 안에 key 값은 기존 이름, value 값은 바꾸고자 하는 이름을 넣어 columns 파라미터에 할당하면 된다. rename()은 다양한 방법의 입력 포맷을 지원하지만, 보통 dictionary를 사용하는 게 가장 편하다. reviews.rename(columns={'points':'score'}) 인덱스 이름을 바꾸는 방법은 열 이름을 바꾸는 방법처럼 dictionary에 기존 이름과 바꾸고자 하는 이름의 쌍을 만든 뒤 index 파라미터에 할당하면 ..

    [kaggle courses] Pandas - Data Types and Missing Values

    [kaggle courses] Pandas - Data Types and Missing Values

    https://www.kaggle.com/residentmario/data-types-and-missing-values Dtypes - dtype, dtypes, astype DataFrame이나 Series의 각 column의 데이터 타입을 가리켜 dtype이라고 부른다. 특정 column의 타입을 가져오기 위해 dtype 속성을 사용할 수 있다. 예를 들어, reviews DataFrame의 price 열의 데이터 타입을 알고 싶다면, 아래와 같이 작성하면 된다. reviews.price.dtype # output: dtype('float64') DataFrame 전체 columns의 데이터 타입 또한 알 수 있다. reviews의 dtypes 속성을 찍어보면, DataFrame의 각 column의 ..

    [kaggle courses] Pandas - Grouping and Sorting

    [kaggle courses] Pandas - Grouping and Sorting

    https://www.kaggle.com/residentmario/grouping-and-sorting 그룹별 분석 - groupby, agg groupby()로 같은 값끼리 하나의 인덱스로 묶을 수 있다. reviews.groupby('points').points.count() points 80 397 81 692 ... 99 33 100 19 Name: points, Length: 21, dtype: int64 groupby()로 같은 포인트 값을 갖는 와인 리뷰끼리 그룹을 생성한 뒤, points column으로 묶고 count()로 각 그룹별 빈도수를 체크했다. 위 결과는 value_counts()와 동일한 결과이기도 하다. groupby()는 기준에 따라 같은 값을 갖는 레코드끼리 DataFra..

    [kaggle courses] Pandas - Summary Functions and Maps

    [kaggle courses] Pandas - Summary Functions and Maps

    https://www.kaggle.com/residentmario/summary-functions-and-maps 0. 데이터의 개요 알아보기 Pandas는 데이터를 재구조화하여 보여주는 간단한 개요 함수들을 제공한다. describe() 메서드같은 경우는 주어진 열에 대해 높은 수준의 정보를 제공한다. describe()는 데이터의 타입마다 각기 다른 식의 개요를 보여준다. 여기서 사용하는 예시 DataFrame인 reviews는 아래와 같다. reviews.points.describe() count 129971.000000 mean 88.447138 ... 75% 91.000000 max 100.000000 Name: points, Length: 8, dtype: float64 위의 결과는 데이터 타..

    [kaggle courses] Pandas - Indexing, Selecting & Assigning (iloc, loc)

    [kaggle courses] Pandas - Indexing, Selecting & Assigning (iloc, loc)

    https://www.kaggle.com/residentmario/indexing-selecting-assigning 0. Python 기본 접근자 DataFrame의 각 column에 접근할 수 있는 방법은 여러가지가 있다. 그 중, 파이썬이 기본적으로 제공하는 2가지 방법에 대해서 먼저 알아보자. 첫번째 방법으로, DataFrame의 column index를 하나의 attribute로서 접근하는 방법이다. 이 방법으로 위의 DataFrame의 country column에 reviews.country 코드를 통해 접근할 수 있다. reviews.country 0 Italy 1 Portugal ... 129969 France 129970 France Name: country, Length: 129971,..

    [kaggle courses] Pandas - Creating, Reading and Writing

    [kaggle courses] Pandas - Creating, Reading and Writing

    0. Pandas 시작하기 천리길도 임포트부터 import pandas as pd 1. 데이터 생성하기 Pandas에는 DataFrame과 Series라는 핵심 객체들이 있다. DataFrame Dataframe은 특정 값을 담고 있는 개별 엔트리들의 배열을 포함한 테이블이다. 각 항목은 1개의 행, 1개의 열과 상응한다. pd.DataFrame() 구조체를 통해 DataFrame을 생성할 수 있다. 열 이름('Yes', 'No')을 key로, 엔트리 리스트를 value로 하는 딕셔너리를 통해 새 DataFrame을 정의할 수 있다. pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]}) 아래의 표는 위와 같은 코드를 입력했을 때의 결과다. Yes No 0 50 131 1 ..