word2vec
Stanford cs224n (Winter 2019) | Lecture 2: Word Vectors and Word Senses
Stochastic Gradient Descent 경사하강법(Gradient Descent)을 사용해 10억개의 단어를 가진 말뭉치에 크기 5의 윈도우를 사용해서 word2vec 모델을 만든다고 하면, 10억개의 중심 언어와 100억개의 주변 언어를 가질 것이다. softmax를 100억번이 넘게 계산해야 기울기를 구할 수 있는데, 그래이디언트 계산에서 작은 부분을 차지하는 연산에 어마어마한 시간이 걸리므로 학습이 느리게 진행될 거다. 따라서 사람들은 모든 파라미터를 한 번에 다 업데이트하는 경사하강법 대신 윈도우를 반복적으로 샘플링하고 업데이트하는, mini-batch를 사용하는 확률적 경사하강법(Stochastic Gradient Descent, SGD)를 사용한다. 보통 32 혹은 64개의 작은 묶..
Stanford CS224N (Winter 2019) | Lecture 1: Introduction and Word Vectors
2021.11.29-31 @청파맨션 이 강의의 학습 목표 딥러닝을 위한 효과적이고 현대적인 방법에 대한 이해 인간의 언어에 대한 큰 그림과 언어를 이해하고 생산하는 것에 대한 난관들 이해 PyTorch로 대부분의 NLP 문제를 해결할 수 있는 능력 우리가 언어의 의미를 표현하는 방법 언어학자들이 '의미'에 대해 생각하는 일반적인 방식은 denotational sementics, 표시론적 의미론으로, 의미를 사물이 나타내는 것으로 생각한다는 것이다. '의자'라는 단어는 의자와 같은 모든 것을 가리킨다. '달리기'라는 단어를 생각했을 때 떠오르는 일련의 행동이 '달리기'의 의미다. 이 '의미'에 대해 계산적으로(컴퓨터 상으로) 접근하는 ..