본문 바로가기

NLP/논문리뷰18

[논문 Review] 05. (GPT-2) Language Models are Unsupervised Multitask Learners 학습시킨 범용적 사전학습 모델의 성능을 보다 높여보자! Abstract QA, 기계 번역, 독해, 요약과 같은 자연어 처리 작업은 일반적으로 task-specific 데이터셋을 통한 지도학습으로 접근한다. 본 논문에서는 언어 모델이 WebText (몇백만 개의 웹페이지로 구성된 데이터) 를 학습할 때 명시적인 지도학습 없이도 이러한 작업을 학습하기 시작했다는 사실을 입증했다. 또한 (Document + Questions) pair를 기반으로 답변을 생성하는 태스크 (CoQA 데이터셋) 에서 55 F1 score에 도달해서 127,000개 이상의 sample을 사용하지 않고도 Baseline system 4개 중 3개의 성능과 일치하거나 이를 능가하는 성능을 보였다. 언어 모델의 용량은 zero-shot .. 2023. 12. 6.
[논문 Review] 04. Overview of Gradient Descent algorithms Gradient Descent를 활용한 Optimizer가 어떻게 발전했는지 알아보자 Abstract 본 논문에서는 각 Gradient Descent Algorithms의 장단점을 알아보고, 다양한 알고리즘의 동작에 대한 직관을 가질 수 있게 한다. 수식적인 부분은 증명보다는 대략적인 동작 과정을 이해하는 정도로 쓰일 것이고, 자세한 증명은 원본 논문을 참고하면 좋을 것 같다. Introduction What is Gradient Descent? Gradient Descent는 모델의 파라미터 \(\theta \in R^d\) 에 의해 파라미터화된 목적 함수인 \(J(\theta\)) 를 최소화하는 방법으로, 파라미터를 기준으로 목적 함수에 대한 그래디언트 \(\nabla_{\theta}J(\theta).. 2023. 11. 29.
[논문 Review] 03. (GPT-1) Improving Language Understanding by Generative Pre-Training universal-domain에 적용할 수 있도록 범용적 사전학습 모델을 구축하자 Abstract NLU는 매우 다양한 작업으로 구성된다. 현실 세계에서 레이블링되지 않은 데이터는 풍부하지만 레이블링 된 데이터는 부족하기 때문에 지도 학습 모델의 한계가 존재하며, 특정 데이터에서 학습된 모델이 다른 태스크에서 좋은 성능을 발휘하기 어렵다. 따라서 레이블링되지 않은 텍스트 데이터를 통해 언어 모델을 생성적으로 사전학습한 후 특정 세부 작업에 대해 파인튜닝 (Fine-tuning) 을 진행하며 좋은 성능을 보일 수 있도록 했다. 이전 접근 방식과 달리 파인 튜닝 과정 중에 작업에 따른 입력 변환을 사용해 모델 아키텍처를 최소한으로 변경하며 효과적인 전이 학습 효과를 보였다. 즉, 특정 작업에 구애받지 않는 .. 2023. 3. 26.
[논문 Review] 02. Attention is All you need https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org Abstract 여태껏 진행해왔던 시퀀스 변환 모델 (sequence transduction model) 들은 인코더와 디코더를 포.. 2023. 3. 26.
[논문 Review] 01. Batch Normalization https://arxiv.org/abs/1502.03167 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Training Deep Neural Networks is complicated by the fact that the distribution of each layer's inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful param arxiv.org 노션에 정.. 2023. 3. 25.
[논문 Review] 00. 개요 & 로드맵 목적 NLP 및 딥러닝 기초 지식을 탄탄히 하기 위해 관련 논문을 읽고, 번역하며 이해하는 것이 본 포스팅의 목적이다. 로드맵 https://www.notion.so/c3b3474d18ef4304b23ea360367a5137?v=5d763ad5773f44eb950f49de7d7671bd Papers You Must Read (PYMR) Data Science & Business Analytics Lab School of Industrial Management Engineering Korea University www.notion.so https://www.dropbox.com/s/5x9u0rnsxos8qm1/DSBA%20Research%20Paper%20Reading%20Roadmap.pdf?dl=0 D.. 2022. 12. 31.