[논문 Review] 07. LLAMA : Open and Efficient Foundation Language Models

공개 데이터셋만으로도 SOTA 모델을 만들 수 있다!

Abstract

7B - 65B개의 파라미터로 구성된 모델 LLaMA는 수조 개의 토큰으로 모델을 훈련하고, 공개적으로 이용 가능한 데이터셋만 사용해서 SOTA 모델을 훈련할 수 있다는 것을 보여준다.

특히 LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)보다 성능이 뛰어나며 LLaMA-65B는 최고의 모델인 Chinchilla-70B, PaLM-540B와도 비견해볼만하다. 모델은 모든 연구 커뮤니티에 공개되었다.

1. Introduction

대규모 텍스트 코퍼스로 훈련된 LLM은 instruction이나 few shot으로도 새로운 작업을 구성할 수 있는 능력을 보여주었다. 이러한 few-shot ability는 모델을 충분한 크기로 확장할 때 처음 나타났으며, 그 결과 모델 사이즈를 더욱 키우는 데 초점을 맞추어 연구가 진행되었다. ^[각주:1]

이러한 연구 방향성은 더 많은 파라미터가 모델의 더 나은 성능으로 이어질 것이라는 가정에 기반하고 있었으나, Chinchilla 논문^[각주:2]에 따르면 가장 큰 모델이 아니라 더 많은 데이터로 훈련된 더 작은 모델에 의해 최고 성능이 달성된다는 결론이 도출되었다.

Scaling Laws for Neural Language Models
- 성능은 모델의 형태(width, depth)보다는 크기에 의존한다.
- 성능은 다른 두 항목에 의해 병목 현상이 발생하지 않는 경우 세 가지 척도 요소 N, D, C 각각과 power-law를 가진다.
- N와 D를 같이 키우면 성능은 예측 가능하게 증가하지만, 한쪽을 고정하면 어느 시점에서 성능이 향상되지 않는다. → 큰 모델은 더 많은 데이터를 필요로 한다.
- 모델 크기에 임베딩 레이어를 포함하면, 모델 크기 증가에 따른 성능향상이 적어보인다. 임베딩 레이어를 모델 크기에서 빼면, 레이어 개수와 모델 크기에 따른 성능 향상이 하나의 트렌드를 보이는 것을 알 수 있다. → 실제로 임베딩 레이어가 모델에서 꽤 큰 크기를 차지하기 때문이다.
- 큰 모델은 작은 모델에 비해 동일한 성능에 더 적은 데이터로 도달한다. → 데이터 대비 학습 효과가 좋다(Test Loss 기준).

Training compute-optimal large language models
- 기존 Kaplan의 Scaling Laws 결과와 달리 모델 퍼포먼스를 위한 model size 와 training tokens 와의 관계는 거의 1:1 의 weight 를 가짐 (기존: 0.73:0.27 로 model size 가 가장 영향력이 큼)
- 즉, Kaplan 의 Scaling Laws 기반으로 학습된 현재의 LLM 모델들은 대부분 undertrained 되었음

또한 이전 연구들은 추론 시에 들어가는 컴퓨팅 자원을 무시하고 있다. 실제 사용 시 선호되는 모델은 가장 빠른 '학습' 을 진행하는 모델이 아닌 가장 빠른 '추론'을 진행하는 모델이며, 특정 수준의 성능에 도달하기 위해 큰 모델을 학습하는 것이 더 저렴할 수 있지만 궁극적으로는 더 오래 학습된 작은 모델이 추론 비용이 더 저렴할 것이다.

추론 컴퓨팅 비용은 모델 파라미터에 비례하기 때문에 성능은 유지하면서 모델 파라미터의 사이즈를 줄이는 것이 무엇보다 필요하다. 따라서 일반적으로 사용되는 토큰 수보다 더 많은 토큰을 학습시켜서 다양한 inference budget에서 가능한 최고의 성능을 달성하는 언어 모델을 학습시키는 것이 이번 연구의 목표이다.

결과적으로 이번에 구축한 모델 LLaMA는 7B ~ 65B의 파라미터로 구성되어 있으며 현존하는 SOTA 모델들과 비교했을 때에도 경쟁력 있는 성능을 자랑한다.

예를 들어 LLaMA-13B는 GPT-3보다 모델 크기가 10배 더 작음에도 불구하고 대부분의 벤치마크에서 GPT-3보다 성능이 뛰어나고, LLaMA-65B는 Chinchilla, PaLM-540B와 같은 LLM과 비교했을 때도 경쟁력이 있다. 특히 13B 모델은 단일 GPU에서 실행할 수 있기 때문에 LLM에 대한 연구와 대중화에 도움이 될 것으로 기대된다.

추가적인 장점으로 Chinchilla, PaLM, GPT-3와 같은 모델과 다르게 LLaMA는 공개 데이터만 활용하므로 오픈소스 공개가 가능했다.

2. Approach

훈련 접근 방식은 이전에 설명한 Chinchilla, PaLM과 유사하며, 표준 옵티마이저를 활용해 많은 양의 텍스트 데이터로 대규모의 Transformer 모델을 훈련시킨다.

2.1 Pre-training data

학습 데이터는 표 1에 나와 있는 여러 가지 데이터 소스를 혼합한 것이다.

English CommonCrawl (67%)

2017-2020년 사이의 CommonCrawl 데이터를 CCNet pipeline^[각주:3] 으로 전처리한다.

줄 수준에서 데이터를 중복 제거
fastText 선형 분류기를 통해 영어가 아닌 페이지를 제거
ngram 언어 모델로 저품질 컨텐츠를 필터링
선형 모델을 학습시켜서 Wikipedia reference 페이지와 무작위로 샘플링된 페이지로 분류하고, Wikipedia reference 가 아닌 페이지는 폐기

C4 (15%)

실험을 하는 동안 사전 처리된 다양한 CommonCrawl 데이터셋을 사용하면 성능이 향상되는 것을 확인했다. 따라서 공개적으로 사용 가능한 C4 dataset을 데이터에 포함시켰다.

C4의 전처리도 중복 제거 및 언어 식별을 포함하고 있으며, CCNet^[각주:4]과의 주요 차이점은 구두점 유무나 웹페이지 단어 & 문장 수와 같은 휴리스틱에 의존하는 품질 필터링이다.

이외 데이터셋

GitHub (4.5%) : Google BigQuery에서 제공되는 공개 깃허브 데이터셋을 사용했다. 줄 길이, 영숫자 비율에 기반한 휴리스틱으로 품질이 낮은 파일을 필터링하고 헤더와 같은 상용구는 정규식으로 제거했으며, 파일 수준에서 정확히 일치하는 데이터셋을 찾아내 중복을 제거했다.
Wikipedia (4.5%) : 2022년 6월 ~ 8월 기간의 Wikipedia 데이터 수집. 20개의 언어를 포함하고 데이터 전처리를 거쳐 하이퍼링크, 주석 등을 제거했다.
Gutenberg and Books3 (4.5%) : 2개의 책 코퍼스를 포함 (Gutenberg project, Books3). 책 수준에서 중복 제거를 수행해 컨텐츠가 90% 이상 겹치는 책을 제거했다.
ArXiv (2.5%) : 데이터셋에 과학 데이터를 추가하기 위해 LaTeX 파일을 처리하고 첫 번째 섹션 앞 부분과 참고 문헌을 모두 제거했다.
Stack Exchange (2%) : 가장 규모가 큰 28개 웹사이트 데이터를 보관하고, 텍스트에서 HTML 태그를 다시 옮긴 다음 답변을 점수별로 (최고점 ~ 최저점) 정렬한다.

Tokenizer

BPE 알고리즘으로 토큰화
Sentence-Piece 사용
모든 숫자를 개별 숫자로 분할
알 수 없는 UTF-8 문자를 분해하기 위해 bytes-decompose

전체 훈련 데이터셋에는 토큰화 이후 약 1.4T의 토큰이 포함된다.

대부분의 학습 데이터에서 각 토큰은 학습 중 한 번만 사용되며, Wikipedia, Books domain을 제외한 대부분의 학습 데이터는 약 2 epochs에 걸쳐 학습에 사용된다.

2.2 Architecture

Transformer architecture를 기반으로 한다.

https://ll2ll.tistory.com/23

[논문 Review] 02. Attention is All you need

https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder an

ll2ll.tistory.com

Transformer 모델을 기반으로 한 후속 연구들에서 제시된 다양한 개선 사항을 활용했다.

Pre-normalization (GPT3)

Training 과정에서의 안정성을 향상시키기 위해서 output을 정규화하는 대신, sub-layer에 입력되는 input을 normalize
- On Layer Normalization in the Transformer Architecture Pre-LN Transformer

Post-LN Transformer (=기존 transformer)	Pre-LN Transformer
Post-LN Transformer (기존 Transformer)
attention 연산 이후에 layer normalization 진행됨	attention 연산 이전에 layer normalization 진행

Pre-LN 진행 시 Gradient scale이 다양한 레이어에 대해서 거의 동일하게 유지된다.

normalizing function은 RMSNorm^[각주:5]을 활용

SwiGLU activation function (PaLM)

activation function을 ReLU에서 SwiGLU^[각주:6]로 대체

SwiGLU^[각주:7]

SwiGLU = Swish + GLU

최근 공개되는 LLM, foundation model에서 상당수 채택하고 있는 activation function

Swish
- 모든 양수 값 살림
- 음수 값에서는 값의 상한이 존재하며 0으로 수렴
- 모든 구간에서 도함수가 연속 함수
- 입력의 정보량을 조절하는 기능
GLU (Gated Linear Units)

Rotary Embeddings (GPTNeo)

각 레이어마다 존재하는 absolute positional embeddings 제거 후 RoPE (rotary positional embeddings)^[각주:10] 로 대체함

RoPE^[각주:11]

Transformer에서 쓰이던 sin, cos positional embedding 대신 사용됨

Relative Positional Embeddings
- position m - n 사이의 relative distance 정의
- key - query - value 에 대해 trainable positional embeddings 정의

RoPE는 이러한 RPE를 기반으로 한 방법!

2.3 Optimizer

AdamW 옵티마이저를 사용해서 훈련
하이퍼파라미터는 \(\beta_1 = 0.9, \beta_2 = 0.95\)
최종 학습률이 최대 학습률의 10%가 되도록 cosine learning rate schedule 사용
weight decay = 0.1
gradient clipping = 1.0
warmup steps = 2,000
모델에 따라 learning rate, batch size 차이를 둠 (표 2)

2.4 Efficient implementation

모델의 훈련 속도를 향상시키기 위해 몇 가지 최적화를 수행했다.

multi-head attention (by xformers library)^[각주:12]
- 기존 attention은 \(O(n^2)\) 시간 및 메모리 복잡도를 가짐
- 이를 개선해서 O(n), O(log n) 시간 복잡도를 가지는 attention 제안
backward pass 수행 시 linear layer output과 같이 계산 비용이 많이 드는 작업이 재계산되는 것을 줄임^[각주:13]
- 얕은 구조를 통해 모델의 학습 및 추론 속도를 높임
- pytorch autograd를 사용하지 않고, transformer layer에 대한 backward 함수를 수동으로 구현
모델, 시퀀스 병렬 처리 -> 모델의 메모리 사용량 줄임^[각주:14]
- Backpropagation을 위해 activations을 재계산하는 과정에서 메모리는 절약되지만 중복 계산 추가되므로 실행시간이 길어짐
- sequence parallelism, selective activation recomputation을 통해 재계산하는 과정(=실행 시간)을 줄이면서도 메모리 소비를 줄일 수 있음

3. Main results

20개 가량의 벤치마크를 통해 zero-shot, few-shot task를 테스트했다.

Zero-shot setting : 태스크에 대한 텍스트 설명과 테스트 예시를 제공
Few-shot setting : 태스크에 대한 몇 가지 예시 (1~64개) 와 테스트 예시를 제공

-> 답을 생성하거나 (free-form generation task) 제공된 답변의 순위를 매김 (multiple-choice task)

3.1 Common Sense Reasoning

Zero-shot setting으로 총 8개의 벤치마크 (BoolQ, PIQA, SIQA, HellaSwag,WinoGrande, ARC easy and challenge, OpenBookQA) 에서 평가를 진행한다.

LLaMA-65B는 BoolQ를 제외한 모든 벤치마크에서 Chinchilla-70B를 능가
LLaMA-65B는 BoolQ, Winograd를 제외한 모든 벤치마크에서 PaLM-540B를 능가
LLaMA-13B도 10배 더 작음에도 불구하고 대부분의 벤치마크에서 GPT-3보다 성능이 뛰어남

3.2 Closed-book QA

총 2개의 벤치마크 (Natural Questions, TriviaQA) 에서 평가를 진행한다.

Natural Questions, TriviaQA : closed book setting에서 exact match로 평가

LLaMA-65B는 두 벤치마크 모두에서 SOTA 달성
LLaMA-13B는 GPT-3, Chinchilla보다 5~10배 더 작음에도 불구하고 경쟁력 있음

3.3 Reading Comprehension

RACE 벤치마크를 기준으로 평가를 진행했다.

RACE : 중고등학생 대상으로 설계된 영어 독해 이해력 평가

LLaMA-65B 모델이 PaLM-540B 과 경쟁력 있음
LLaMA의 모든 모델이 GPT-3 성능을 뛰어넘음

3.4 Mathematical reasoning

총 2개의 벤치마크 (MATH, GSM8k) 로 평가를 진행했다.

MATH, GSM8k : LaTEX로 작성된 중고등학교 수학 문제 데이터셋

Minerva는 Arxiv와 수학 웹페이지에서 추출된 데이터로 fine-tuning된 모델
PaLM, LLaMA는 fine-tuning X
각 문제에 대해 k개의 sample을 생성하고 majority voting을 진행하는 maj1@k 방법을 추가한 것도 함께 비교
LLaMA에서는 fine-tuning이 진행되지 않았음에도 불구하고 GSM8k에서 LLaMA-65B가 Minerva-62B보다 우수한 성능을 보이는 것을 확인

3.5 Code generation

총 2개의 벤치마크 (HumanEval, MBPP) 에서 평가를 진행했다.

HumanEval, MBPP : 자연어 설명을 통해 코드를 작성하는 모델의 능력을 평가
n개의 문장으로 된 프로그램 설명 + n개의 테스트 케이스가 주어짐
= 모델은 설명에 맞고, 테스트 케이스를 만족하는 python 프로그램을 생성해야 함

pass@k^[각주:15] : 문제당 k개의 코드 샘플이 생성되는 경우, 샘플이 test case를 통과하면 문제가 해결된 것으로 간주하고 해결된 문제의 총 비율을 보고
pass@1 : temperature 0.1 / pass@100, pass@80 : temperature 0.8
비슷한 수의 파라미터를 가진 다른 모델에 비해 LLaMA에서의 성능이 뛰어나다
PaLM-coder에서와 같이 Code-specific tokens로 fine-tuning하면 더욱 성능 효과를 얻을 수 있다

3.6 Massive Multitask Language Understanding

MMLU 벤치마크에서 평가를 진행했다.

MMLU (massive multitask language understanding) : 인문학, STEM(과학, 기술, 공학, 수학), 사회과학 등 다양한 지식 영역을 포괄하는 객관식 문항

5-shot setting에서 평가 진행
LLaMa-65B는 대부분의 영역에서 Chinchilla-70B, PaLM-540B보다 몇 퍼센트 떨어짐
pre-training 단계에서 사용된 책, 학술 논문 데이터가 제한적이기 때문 (PaLM에서는 2TB 데이터로 학습한 반면, LLaMA에서는 177GB)
특히 Gopher 가 해당 벤치마크에서 GPT-3을 능가하는 성능을 보이는 것도 이를 방증한다.

3.7 Evolution of performance during training

[그림 2] QA 및 common sense 벤치마크에서 모델 성능을 도식화한 결과 그래프

SIQA, WinoGrande 이외의 벤치마크에서 성능이 꾸준히 향상되는 것을 보인다.

4. Instruction Finetuning

instruction을 간단하게 fine-tuning하면 MMLU에서의 성능이 빠르게 향상된다는 것을 증명했다.

[표 9, 표 10] Instruction Finetuning model in MMLU

LLaMA-I는 LLaMA의 instruct model로, 선행 연구 ^[각주:16] 에 따라 학습을 진행했다.

Instuction finetuning을 간단하게 진행했음에도 불구하고 다른 instruction model을 능가하는 성능을 보였다.

5. Bias, Toxicity and Misinformation

LLM은 학습 데이터에 존재하는 bias를 다시 생성하고 증폭시키며, 유해하고 공격적인 컨텐츠를 생성할 가능성 존재
특히 웹에서 수집한 데이터의 경우 유해 컨텐츠를 포함할 가능성이 높음
LLaMA의 잠재적 유해성 평가를 위해 다양한 벤치마크를 통해 평가
RealToxicityPrompts, CrowS-pairs를 통해 Toxic prompt 생성 여부와 모델이 bias를 어느 정도 담고 있는지 평가

RealToxictyPrompts

PerspectiveAPI를 통해 prompt 당 toxicity score (0 : non-toxic, 1 : toxic) 평가

Respectful : 프롬프트 시작에 "Complete the following sentence in a polite, respectful, and
unbiased manner:" 삽입
Basic : 그냥 생성함
점수가 높을수록 toxic generation이 많았다는 것을 의미

CrowS-pairs

성별, 종교, 인종 등 9가지 범주에서 편견을 측정 가능. stereotype, anti-stereotype으로 구성된 예시에서 stereotype 예시에 대한 모델의 선호도를 평가

WinoGender

성별 범주에서의 모델 편향성 더 자세히 조사

TruthfulQA

어떤 주장이 진실인지 식별하는 모델의 능력을 측정

8. Conclusions

LLaMA는 기존에 나왔던 모델들(GPT-3, Chinchilla, PaLM...) 보다 파라미터 수가 더 작음에도 불구하고, 그에 비견하거나 더 우수한 성능을 보였다.

또한 이전 연구와 달리 공개적으로 사용 가능한 데이터셋으로만 훈련하여 오픈 소스로 공개가 가능했다. 이를 통해 LLM 개발이 가속화되고, 후속 연구가 활발히 진행될 것을 기대할 수 있다.

참고 문헌

https://heegyukim.medium.com/large-language-model%EC%9D%98-scaling-law%EC%99%80-emergent-ability-6e9d90813a87

Large Language Model의 scaling law와 emergent ability

거대한 언어모델(Large Language Model, LLM)을 학습할 때, 우리는 한정적인 리소스로 최적의 모델을 학습해야 한다. 한 번 학습에 큰 비용이 들기 때문에 여러번 실험하기 어렵다. 공개된 문헌을 바탕

heegyukim.medium.com

https://velog.io/@wkshin89/Paper-Review-Training-Compute-Optimal-Large-Language-Models-NeurIPS-2022

[Paper Review] Training Compute-Optimal Large Language Models (NeurIPS 2022)

Transformer 구조의 LM 에서 주어진 compute budget (FLOPs 로 표현) 에 대한 optimal model size 와 tokens 간의 관계에 대한 실험 연구

velog.io

https://sh-tsang.medium.com/review-pre-ln-transformer-on-layer-normalization-in-the-transformer-architecture-b6c91a89e9ab

Review — Pre-LN Transformer: On Layer Normalization in the Transformer Architecture

Pre-LN Transformer, Warm-Up Stage is Skipped

sh-tsang.medium.com

https://thecho7.tistory.com/entry/SwiGLU-Activation-Function-%EC%84%A4%EB%AA%85

SwiGLU Activation Function 설명

안녕하세요, 오늘은 SwiGLU Activation Function에 대해 리뷰해볼까 합니다. 얼마 전에 Meta에서 발표한 LLAMA 2나 비전에서 최근 좋은 성능을 보여준 EVA-02를 포함한 많은 논문에서 SwiGLU를 채택하고 있습니

thecho7.tistory.com

https://www.slideshare.net/taeseonryu/roformer-enhanced-transformer-with-rotary-position-embedding

RoFormer: Enhanced Transformer with Rotary Position Embedding

RoFormer: Enhanced Transformer with Rotary Position Embedding - Download as a PDF or view online for free

www.slideshare.net

https://dajeblog.co.kr/flashattention-v2-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-%EA%B8%B0%EC%A1%B4-attention%EB%B3%B4%EB%8B%A4-59%EB%B0%B0-%EB%B9%A0%EB%A5%B8-%EB%8C%80%ED%99%94%EC%B1%97%EB%B4%87-%EB%AA%A8%EB%8D%B8/

FlashAttention v2, [논문 리뷰] 기존 Attention보다 5~9배 빠른 대화(챗봇) 모델을 소개합니다. - NLP AI

1년 만에 Stanford University-FlashAttention이 제안한 새로운 Attention 알고리즘이 진화를 완료했습니다. 이번에는 알고리즘, 병렬화, 작업 분할에서 상당한 개선이 있었고 대형 모델에 대한 적용 가능성

dajeblog.co.kr

Language models are few-shot learners. (GPT-2), Palm: Scaling language modeling with pathways. (PaLM), Training compute-optimal large language models. (Gopher) [본문으로]
Training compute-optimal large language models.(Chinchilla) [본문으로]
CCNet: Ex- tracting high quality monolingual datasets from web crawl data [본문으로]
CCNet: Ex- tracting high quality monolingual datasets from web crawl data [본문으로]
Biao Zhang and Rico Sennrich. 2019. Root mean square layer normalization. Advances in Neural Information Processing Systems, 32 [본문으로]
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine
Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1):5485–5551. [본문으로]
Noam Shazeer. 2020. Glu variants improve transformer. arXiv preprint arXiv:2002.05202. [본문으로]
https://medium.com/@tariqanwarph/activation-function-and-glu-variants-for-transformer-models-a4fcbe85323f [본문으로]
https://medium.com/@tariqanwarph/activation-function-and-glu-variants-for-transformer-models-a4fcbe85323f [본문으로]
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, and Yunfeng Liu. 2021. Roformer: Enhanced
transformer with rotary position embedding. arXiv preprint arXiv:2104.09864. [본문으로]
RoFormer: Enhanced Transformer with Rotary Position Embedding [본문으로]
Markus N Rabe and Charles Staats. 2021. Self-attention
does not need o(n2) memory. arXiv preprint arXiv:2112.05682. [본문으로]
Tri Dao, Daniel Y Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. 2022. Flashattention: Fast and
memory-efficient exact attention with io-awareness. arXiv preprint arXiv:2205.14135. [본문으로]
Vijay Korthikanti, Jared Casper, Sangkug Lym,
Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, and Bryan Catanzaro. 2022. Reducing activation
recomputation in large transformer models. arXiv preprint arXiv:2205.05198. [본문으로]
Evaluating large language models trained on code. Chen et al., 2021 [본문으로]
Hyung Won Chung et al., 2022. Scaling
instruction-finetuned language models. arXiv preprint arXiv:2210.11416. [본문으로]

저작자표시 (새창열림)

'NLP > 논문리뷰' 카테고리의 다른 글

[논문 Review] 09. FiD : Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering (1)	2024.01.24
[논문 Review] 08. T5 : Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (3)	2024.01.03
[논문 Review] 06. REALM : Retrieval-Augmented Language Model Pre-Training (0)	2023.12.13
[논문 Review] 05. (GPT-2) Language Models are Unsupervised Multitask Learners (2)	2023.12.06
[논문 Review] 04. Overview of Gradient Descent algorithms (2)	2023.11.29

그냥이것저것

[논문 Review] 07. LLAMA : Open and Efficient Foundation Language Models

Abstract

1. Introduction