본문 바로가기

NLP28

[논문 Review] 09. FiD : Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering 논문의 핵심 내용 한줄 요약 디코더에서 여러 문서를 효율적으로 결합해서 생성 모델의 성능을 향상시키자! GitHub - facebookresearch/FiD: Fusion-in-Decoder Fusion-in-Decoder. Contribute to facebookresearch/FiD development by creating an account on GitHub. github.com Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering Generative models for open domain question answering have proven to be competitive, without r.. 2024. 1. 24.
[논문 Review] 08. T5 : Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 논문의 핵심 내용 한줄 요약 모든 NLP task를 text to text 형식으로 바꿔서 해결해보자! Abstract 풍부한 데이터를 통해 모델을 Pre training하고, 다운스트림 작업에서 Fine tuning을 진행하는 전이학습은 NLP에서 강력한 기술로 쓰여왔다. 이번 논문에서는 모든 텍스트 기반 언어 문제를 Text to Text 형식으로 변환하는 프레임워크를 도입할 것이다. 새로운 프레임워크 (이하 T5) 에서 탐색을 통해 얻은 인사이트와 새로운 "Colossal Clean Crawled Corpus (이하 "C4") 를 결합해서 다양한 벤치마크에서 SOTA를 달성했다. 1. Introduction 모델이 NLP task를 수행하기 위해서는 다운스트림 태스크에 적용 가능한 방식으로 텍스트를.. 2024. 1. 3.
[논문 Review] 07. LLAMA : Open and Efficient Foundation Language Models 공개 데이터셋만으로도 SOTA 모델을 만들 수 있다! Abstract 7B - 65B개의 파라미터로 구성된 모델 LLaMA는 수조 개의 토큰으로 모델을 훈련하고, 공개적으로 이용 가능한 데이터셋만 사용해서 SOTA 모델을 훈련할 수 있다는 것을 보여준다. 특히 LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)보다 성능이 뛰어나며 LLaMA-65B는 최고의 모델인 Chinchilla-70B, PaLM-540B와도 비견해볼만하다. 모델은 모든 연구 커뮤니티에 공개되었다. 1. Introduction 대규모 텍스트 코퍼스로 훈련된 LLM은 instruction이나 few shot으로도 새로운 작업을 구성할 수 있는 능력을 보여주었다. 이러한 few-shot ability는 모델을 충분한 크기로 확.. 2023. 12. 19.
[논문 Review] 06. REALM : Retrieval-Augmented Language Model Pre-Training retriever - encoder 모델 구조를 통해 QA task에서의 성능을 높이자! https://arxiv.org/abs/2002.08909 REALM: Retrieval-Augmented Language Model Pre-Training Language model pre-training has been shown to capture a surprising amount of world knowledge, crucial for NLP tasks such as question answering. However, this knowledge is stored implicitly in the parameters of a neural network, requiring ever-larger networ arx.. 2023. 12. 13.
[논문 Review] 05. (GPT-2) Language Models are Unsupervised Multitask Learners 학습시킨 범용적 사전학습 모델의 성능을 보다 높여보자! Abstract QA, 기계 번역, 독해, 요약과 같은 자연어 처리 작업은 일반적으로 task-specific 데이터셋을 통한 지도학습으로 접근한다. 본 논문에서는 언어 모델이 WebText (몇백만 개의 웹페이지로 구성된 데이터) 를 학습할 때 명시적인 지도학습 없이도 이러한 작업을 학습하기 시작했다는 사실을 입증했다. 또한 (Document + Questions) pair를 기반으로 답변을 생성하는 태스크 (CoQA 데이터셋) 에서 55 F1 score에 도달해서 127,000개 이상의 sample을 사용하지 않고도 Baseline system 4개 중 3개의 성능과 일치하거나 이를 능가하는 성능을 보였다. 언어 모델의 용량은 zero-shot .. 2023. 12. 6.
[논문 Review] 04. Overview of Gradient Descent algorithms Gradient Descent를 활용한 Optimizer가 어떻게 발전했는지 알아보자 Abstract 본 논문에서는 각 Gradient Descent Algorithms의 장단점을 알아보고, 다양한 알고리즘의 동작에 대한 직관을 가질 수 있게 한다. 수식적인 부분은 증명보다는 대략적인 동작 과정을 이해하는 정도로 쓰일 것이고, 자세한 증명은 원본 논문을 참고하면 좋을 것 같다. Introduction What is Gradient Descent? Gradient Descent는 모델의 파라미터 \(\theta \in R^d\) 에 의해 파라미터화된 목적 함수인 \(J(\theta\)) 를 최소화하는 방법으로, 파라미터를 기준으로 목적 함수에 대한 그래디언트 \(\nabla_{\theta}J(\theta).. 2023. 11. 29.