Machine Learning

    [kaggle courses] Pandas - Summary Functions and Maps

    [kaggle courses] Pandas - Summary Functions and Maps

    https://www.kaggle.com/residentmario/summary-functions-and-maps 0. 데이터의 개요 알아보기 Pandas는 데이터를 재구조화하여 보여주는 간단한 개요 함수들을 제공한다. describe() 메서드같은 경우는 주어진 열에 대해 높은 수준의 정보를 제공한다. describe()는 데이터의 타입마다 각기 다른 식의 개요를 보여준다. 여기서 사용하는 예시 DataFrame인 reviews는 아래와 같다. reviews.points.describe() count 129971.000000 mean 88.447138 ... 75% 91.000000 max 100.000000 Name: points, Length: 8, dtype: float64 위의 결과는 데이터 타..

    [kaggle courses] Pandas - Indexing, Selecting & Assigning (iloc, loc)

    [kaggle courses] Pandas - Indexing, Selecting & Assigning (iloc, loc)

    https://www.kaggle.com/residentmario/indexing-selecting-assigning 0. Python 기본 접근자 DataFrame의 각 column에 접근할 수 있는 방법은 여러가지가 있다. 그 중, 파이썬이 기본적으로 제공하는 2가지 방법에 대해서 먼저 알아보자. 첫번째 방법으로, DataFrame의 column index를 하나의 attribute로서 접근하는 방법이다. 이 방법으로 위의 DataFrame의 country column에 reviews.country 코드를 통해 접근할 수 있다. reviews.country 0 Italy 1 Portugal ... 129969 France 129970 France Name: country, Length: 129971,..

    [kaggle courses] Pandas - Creating, Reading and Writing

    [kaggle courses] Pandas - Creating, Reading and Writing

    0. Pandas 시작하기 천리길도 임포트부터 import pandas as pd 1. 데이터 생성하기 Pandas에는 DataFrame과 Series라는 핵심 객체들이 있다. DataFrame Dataframe은 특정 값을 담고 있는 개별 엔트리들의 배열을 포함한 테이블이다. 각 항목은 1개의 행, 1개의 열과 상응한다. pd.DataFrame() 구조체를 통해 DataFrame을 생성할 수 있다. 열 이름('Yes', 'No')을 key로, 엔트리 리스트를 value로 하는 딕셔너리를 통해 새 DataFrame을 정의할 수 있다. pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]}) 아래의 표는 위와 같은 코드를 입력했을 때의 결과다. Yes No 0 50 131 1 ..

    [2021 논문 리뷰 스터디] Understanding the difficulty of training deep feedforward neural networks

    2021 GDSC Sookmyung 3분기 스터디: DeepSleep팀 논문 리뷰 스터디 3주차 제목: Understanding the difficulty of training deep feedforward neural networks 링크: http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf 주제: 딥러닝에서의 weight 초기화의 중요성 배경 왜 랜덤 초기화에 따른 표준 경사하강법이 Deep neural network 학습에서 좋지 못한 성능을 보이는지에 대해 이해 Deep neural network에서의 비선형 활성함수의 (부정적인) 영향력 발견 내용 sigmoid, tanh, softsign을 사용한 네트워크의 각 레이어의 포화도 실험, 분석 활성함..

    [2021 논문 리뷰 스터디] ImageNet classification with deep convolutional neural networks

    2021 GDSC Sookmyung 3분기 스터디: DeepSleep팀 논문 리뷰 스터디 1주차 주제: Imagenet classification with deep convolutional neural networks (AlexNet) 링크: http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 배경 현재 MNIST 분류기의 인식 능력(에러 발생률 0.3% 이하)은 인간의 성능만큼 뛰어나지만, 현실의 사물들은 훨씬 더 다양성을 갖추고 있으므로 더 큰 크기의 학습 데이터가 필요 LabelMe, ImageNet 등 매우 큰 규모의 이미지 데이터베이스의 등장 이미지의 특성에 대해 강력..

    [ML Study Jam in DSC Sookmyung] Intro to Machine Learning(Kaggle)

    [ML Study Jam in DSC Sookmyung] Intro to Machine Learning(Kaggle)

    2021.03.28(일) 작성 www.kaggle.com/learn/intro-to-machine-learning Basic Data Exploration 데이터 탐색을 위해 pandas 라이브러리 이용. read_csv() 를 통해 csv 파일을 읽어들일 수 있으며, describe() 메서드로 각 attribute에 대한 통계값을 확인할 수 있다. import pandas as pd file_path = '../input/melbourne-housing-snapshot/melb_data.csv' data = pd.read_csv(file_path) data.describe() 실행 결과는 다음과 같다. 데이터로부터 subset 추출 한 column만 가져오기 dot-notation으로 해당 colum..