스터디 기록/구글 BERT의 정석

    [NLP] Sentence-BERT 살펴보기

    [NLP] Sentence-BERT 살펴보기

    Sentence-BERT Sentence-BERT는 vanila BERT/RoBERTa를 fine-tuning하여 문장 임베딩 성능을 우수하게 개선한 모델이다. BERT/RoBERTa는 STS 태스크에서도 좋은 성능을 보여주었지만 매우 큰 연산 비용이 단점이었는데, Sentence-BERT는 학습하는 데 20분이 채 걸리지 않으면서 다른 문장 임베딩보다 좋은 성능을 자랑한다. 등장 배경 기존의 BERT로는 large-scale의 유사도 비교, 클러스터링, 정보 검색 등에 많은 시간 비용이 들어간다. BERT로 유사한 두 문장을 찾으려면 두 개의 문장을 한 개의 BERT 모델에 넣어야 유사도가 평가된다. 따라서 문장이 10000개 있으면 10C2 번의 연산 후에 유사도 랭킹을 얻을 수 있다. 클러스터링이나..

    [구글 BERT의 정석] Chapter 6: 텍스트 요약을 위한 BERTSUM 탐색

    [구글 BERT의 정석] Chapter 6: 텍스트 요약을 위한 BERTSUM 탐색

    텍스트 요약 NLP 분야의 주요 연구 분야 중 하나로, 주어진 긴 텍스트를 요약하는 것. 긴 문서, 뉴스 기사, 법률 문서, 블로그 게시물 등 다양한 영역에서 널리 사용됨. 텍스트 요약 방식 이해하기 아래와 같은 텍스트를 요약해야 한다고 해보자. 나는 어제 신촌에서 동아리 운영진 동기 언니와 10시간 내내 먹었다. 점심으로 진돈부리를 가려고 했지만 딱 어제 휴업하는 바람에 반서울에 갔는데 엄청 맛있었다. 다음에 또 와야겠다고 생각했다. 후식으로 파이홀에 가서 오레오말차가나슈파이와 얼그레이가나슈파이를 먹었다. 역시 다음에 또 와야겠다고 생각했다. 저녁으로 돈우마미에 가서 사케동을 먹었다. 가라아게 4조각을 시켰는데 서비스로 한 조각을 더 주셔서 돈우마미는 참 좋은 가게라는 생각이 들었다. 마지막으로 아워즈..

    [NLP] ALBERT: A Lite BERT

    [NLP] ALBERT: A Lite BERT

    구부정 스터디 4주차 발제 슬라이드입니다. GitHub - Gubuzeong/Getting-Started-with-Google-BERT Contribute to Gubuzeong/Getting-Started-with-Google-BERT development by creating an account on GitHub. github.com References ALBERT: A Lite BERT for Self-supervised Learning of Language Representations y-rok님 블로그 jeonsworld님 블로그 Myung Ha Kwon님 블로그

    [NLP] Google의 BERT 이해하기

    [NLP] Google의 BERT 이해하기

    BERT란 무엇인가 BERT(Bidirectional Encoder Representation from Transformer) : Google에서 만든 문맥을 고려한 Transformer 기반 고성능 텍스트 임베딩 모델. 임베딩 모델이 문맥을 고려할 때의 장점 👉🏻 다의어∙동음이의어를 구분할 수 있다. A: He got bit by Python(파이썬이 그를 물었다). B: Python is my favorite programming language(내가 제일 좋아하는 프로그래밍 언어는 파이썬이다). Word2Vec: 정적 임베딩, A에서의 'Python' 임베딩 == B에서의 'Python' 임베딩 BERT: 동적 임베딩, 트랜스포머 모델 기반이므로 문장의 각 단어를 문장 내 모든 단어들과 연결시켜 문..