본문 바로가기

NLP28

[논문 Review] 03. (GPT-1) Improving Language Understanding by Generative Pre-Training universal-domain에 적용할 수 있도록 범용적 사전학습 모델을 구축하자 Abstract NLU는 매우 다양한 작업으로 구성된다. 현실 세계에서 레이블링되지 않은 데이터는 풍부하지만 레이블링 된 데이터는 부족하기 때문에 지도 학습 모델의 한계가 존재하며, 특정 데이터에서 학습된 모델이 다른 태스크에서 좋은 성능을 발휘하기 어렵다. 따라서 레이블링되지 않은 텍스트 데이터를 통해 언어 모델을 생성적으로 사전학습한 후 특정 세부 작업에 대해 파인튜닝 (Fine-tuning) 을 진행하며 좋은 성능을 보일 수 있도록 했다. 이전 접근 방식과 달리 파인 튜닝 과정 중에 작업에 따른 입력 변환을 사용해 모델 아키텍처를 최소한으로 변경하며 효과적인 전이 학습 효과를 보였다. 즉, 특정 작업에 구애받지 않는 .. 2023. 3. 26.
[논문 Review] 02. Attention is All you need https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org Abstract 여태껏 진행해왔던 시퀀스 변환 모델 (sequence transduction model) 들은 인코더와 디코더를 포.. 2023. 3. 26.
[논문 Review] 01. Batch Normalization https://arxiv.org/abs/1502.03167 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Training Deep Neural Networks is complicated by the fact that the distribution of each layer's inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful param arxiv.org 노션에 정.. 2023. 3. 25.
[논문 Review] 00. 개요 & 로드맵 목적 NLP 및 딥러닝 기초 지식을 탄탄히 하기 위해 관련 논문을 읽고, 번역하며 이해하는 것이 본 포스팅의 목적이다. 로드맵 https://www.notion.so/c3b3474d18ef4304b23ea360367a5137?v=5d763ad5773f44eb950f49de7d7671bd Papers You Must Read (PYMR) Data Science & Business Analytics Lab School of Industrial Management Engineering Korea University www.notion.so https://www.dropbox.com/s/5x9u0rnsxos8qm1/DSBA%20Research%20Paper%20Reading%20Roadmap.pdf?dl=0 D.. 2022. 12. 31.