본문 바로가기

NLP28

[AI Math] 기본 확률론 정리 네이버 부스트코스에서 제공하는 임성빈 님의 강의를 참고하여 작성된 포스팅입니다. 딥러닝에서 확률론은 왜 필요한가? 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 둔다. 손실함수는 예측이 틀릴 위험을 최소화하도록 데이터를 학습하는 데, 이는 데이터 공간을 통계적으로 해석해서 유도하는 방식이다. 회귀 (L2 norm) : 예측 오차의 분산을 최소화 분류 (Cross-Entropy) : 모델 예측의 불확실성을 최소화 확률분포 확률분포는 데이터를 나타내는, 일종의 초상화라고 볼 수 있다. 파란색 점 : 실제 관측된 데이터 포인트 P(X, y) : 데이터 공간 D : 데이터 공간에서 데이터를 추출하는 분포 (x,y) ~ D : 데이터 표기 빨간 격자선의 의미는 밑에서 다시 설명하겠다. 확률변수 확률변수는 확률분포.. 2024. 4. 16.
[AI Math] 딥러닝 수식 뽀개기 네이버 부스트코스에서 제공하는 임성빈 님의 강의를 참고하여 작성된 포스팅입니다. 신경망 (neural network) 지난 번에 다룬 포스팅에서는 선형회귀 분석에 대해 간략하게 다뤘었다. 신경망은 이와 달리 비선형적인 모델이다. 선형모델 : 계수들이 선형결합의 관계에 있을 때의 모델 비선형 모델 : 어떤 변형을 거쳐도 파라미터를 선형 결합으로 표현할 수 없는 모델 ex. sigmoid를 거친 값은 선형 결합으로 표현 불가 sigmoid는 이후 activation function에서 따로 다룰 예정이다 비선형 모델은 어떤 이점을 가지는가? 신경망의 표현력을 높일 수 있다 현실 세계 대부분의 문제는 비선형이므로, 문제 풀이에 더 유리하다 심층 신경망 선형 함수의 경우 여러 개의 레이어를 통과해도 결국 하나의.. 2024. 4. 16.
LLM Quantization - by llama.cpp 최종 프로젝트를 위해 LLM Quantization을 진행하여 Chat agent backbone model의 성능을 테스트해보고자 한다. 눈물의 troubleshooting.. 개요 우리의 목표는 다음과 같다! LLM을 gguf 파일 형식으로 변환 LLM quantize Langchain으로 inference를 쉽게 뽑을 수 있게 하기 gguf convert, quantization 모두 llama.cpp를 활용해 쉽게 할 수 있다. https://github.com/ggerganov/llama.cpp GitHub - ggerganov/llama.cpp: LLM inference in C/C++ LLM inference in C/C++. Contribute to ggerganov/llama.cpp de.. 2024. 3. 11.
[논문 Review] 11. G-EVAL : NLG Evaluation using GPT-4 with Better Human Alignmen GPT-4를 사용해서 NLG system을 정량적 평가해보자!AbstractNLG는 정량적으로 측정하기 어렵다. 특히 창의성이나 다양성이 요구되는 작업의 경우 BLEU, ROUGE와 같은 기존의 지표는 사람의 판단과 상대적으로 상관관계가 낮은 것으로 나타났다.이번 연구에서는 CoT와 form-filling paradigm이 적용된 LLM (=GPT-4) 을 사용해 NLG 태스크를 평가하는 프레임워크 G-EVAL을 소개하며, 3가지 벤치마크를 통해서 인간 평가와의 유사도를 측정해본다. 1. IntroductionNLG에 전통적으로 쓰이던 지표들인 BLEU, ROUGE, METEOR는 Evaluation에 널리 사용되어 왔지만 사람의 평가와는 낮은 상관계수를 보였고, 이는 특히 open-ended gener.. 2024. 2. 28.
[논문 Review] 10. PeaCoK : Persona Commonsense Knowledge for Consistent and Engaging Narratives 페르소나의 특징을 유형화하고, 그 페르소나가 가질 수 있는 특징을 Knowledge Graph 형태로 연결하자https://aclanthology.org/2023.acl-long.362/ PeaCoK: Persona Commonsense Knowledge for Consistent and Engaging NarrativesSilin Gao, Beatriz Borges, Soyoung Oh, Deniz Bayazit, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Lon.. 2024. 2. 14.
[AI Math] 경사하강법 네이버 부스트코스에서 제공하는 임성빈 님의 강의를 참고하여 작성된 포스팅입니다. 미분이란? 미분 : 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구 함수 f의 주어진 점 (x, f(x)) 에서의 접선 기울기 미분을 계산하려면 함수 모양이 매끄러워야 한다 = 함수가 연속적이어야 한다 in numpy import sympy as sym from sympy.abc import x sym.diff(sym.poly(x**2 + 2*x + 3), x) 경사상승법 / 경사하강법 접선의 기울기를 알면 어느 방향으로 점을 움직여야 함수값이 증가/감소하는지 알 수 있음 (특히 고차원일 때!!!) 함수 값이 증가하는 경우 (미분값 더하기) = 경사상승법 함수의 극대값 위치를 구할 때 = 목적함수를 최대화할 때 사용.. 2024. 1. 28.