데이터사이언스
[kaggle courses] Pandas - Renaming and Combining
https://www.kaggle.com/residentmario/renaming-and-combining 이름 바꾸기 - rename, rename_axis rename()은 인덱스나 열의 이름을 바꿀 때 사용한다. 아래의 예제처럼 dictionary 안에 key 값은 기존 이름, value 값은 바꾸고자 하는 이름을 넣어 columns 파라미터에 할당하면 된다. rename()은 다양한 방법의 입력 포맷을 지원하지만, 보통 dictionary를 사용하는 게 가장 편하다. reviews.rename(columns={'points':'score'}) 인덱스 이름을 바꾸는 방법은 열 이름을 바꾸는 방법처럼 dictionary에 기존 이름과 바꾸고자 하는 이름의 쌍을 만든 뒤 index 파라미터에 할당하면 ..
[kaggle courses] Pandas - Data Types and Missing Values
https://www.kaggle.com/residentmario/data-types-and-missing-values Dtypes - dtype, dtypes, astype DataFrame이나 Series의 각 column의 데이터 타입을 가리켜 dtype이라고 부른다. 특정 column의 타입을 가져오기 위해 dtype 속성을 사용할 수 있다. 예를 들어, reviews DataFrame의 price 열의 데이터 타입을 알고 싶다면, 아래와 같이 작성하면 된다. reviews.price.dtype # output: dtype('float64') DataFrame 전체 columns의 데이터 타입 또한 알 수 있다. reviews의 dtypes 속성을 찍어보면, DataFrame의 각 column의 ..
[kaggle courses] Pandas - Grouping and Sorting
https://www.kaggle.com/residentmario/grouping-and-sorting 그룹별 분석 - groupby, agg groupby()로 같은 값끼리 하나의 인덱스로 묶을 수 있다. reviews.groupby('points').points.count() points 80 397 81 692 ... 99 33 100 19 Name: points, Length: 21, dtype: int64 groupby()로 같은 포인트 값을 갖는 와인 리뷰끼리 그룹을 생성한 뒤, points column으로 묶고 count()로 각 그룹별 빈도수를 체크했다. 위 결과는 value_counts()와 동일한 결과이기도 하다. groupby()는 기준에 따라 같은 값을 갖는 레코드끼리 DataFra..
[kaggle courses] Pandas - Summary Functions and Maps
https://www.kaggle.com/residentmario/summary-functions-and-maps 0. 데이터의 개요 알아보기 Pandas는 데이터를 재구조화하여 보여주는 간단한 개요 함수들을 제공한다. describe() 메서드같은 경우는 주어진 열에 대해 높은 수준의 정보를 제공한다. describe()는 데이터의 타입마다 각기 다른 식의 개요를 보여준다. 여기서 사용하는 예시 DataFrame인 reviews는 아래와 같다. reviews.points.describe() count 129971.000000 mean 88.447138 ... 75% 91.000000 max 100.000000 Name: points, Length: 8, dtype: float64 위의 결과는 데이터 타..