728x90
반응형
Auto-Regressive Large Language Models (AR-LLMs)
- 하나의 텍스트 토큰 다음에 다른 토큰을 출력
- 토큰은 단어나 하위단어를 나타냄
- 인코더/예측기는 수십억 개의 매개변수를 가진 트랜스포머 아키텍처
- 일반적으로 10억 ~ 5,000억 개의 매개변수
- 훈련 데이터: 1조 ~ 2조 개의 토큰 사용
- 대화/텍스트 생성 LLM 종류
- Open Source : BlenderBot, Galactica, LlaMa, Llama-2, Code Llama (FAIR), Mistral-7B, Mixtral-4x7 B (Mistral), Falcon (UAE), Alpaca (Stanford), Yi (01.AI), OLMo (AI2), Gemma (Google)
- Proprietary : Meta AI (Meta), LaMDA/Bard, Gemini (Google), ChatGPT (OpenAI)
성능 및 한계
- 성능은 놀라움 하지만 stupid mistakes (사실적 오류, 논리적 오류, 일관성 부족)
- LLM은 제한된 추론 능력을 가짐 또한 기본 현실에 대한 제한된 지식, 기억력 부족, 답변 계획 능력 부족
Llama-2: https://ai.meta.com/llama/
(짤막하게 Meta LLAMA 소개)
SeamlessM4T
(Meta의 새로운 STT(Speech-to-text) 모델, 가능한 task(speech-to-speech translation, speech-to-text translation, text-to-text translation, speech recognition))
- 100가지 언어 음성, text 학습
- 100가지 언어 text output
- 35개 국어 음성 output
- 실시간 음성과 표현 가능
https://github.com/facebookresearch/seamless_communication
Auto-Regressive Generative Models Suck!.
(Auto-Regressive Generative 모델은 구리다!)
- Auto-Regressive Generative Model은 망할 운명이었다. (리소스 최악)
- 통제가 불가능하다. (non-toxic, factual etc)
- 생성된 토큰이 정답 집합을 벗어날 확률 e(error)가 있다.
- 길이가 n인 답변의 정확활 확률(P)일 때 P=(1-e)^n으로 발산
- 길이가 긴 문장일수록 답변의 퀄리티가 떨어짐 (ArXiv:2305.18654)
Limitations of LLMs: no planning!
(LLM은 무계획이다. 추론 능력 0)
- 뇌의 Wernike(베르니케)와 Broca(브로카) 영역을 모방할 뿐 (대뇌 피질의 두 부분 중 하나 주로 언어 생성에 관여하는 브로카, 문자 및 음성 언어 이해는 베르니케)
- 현재의 LLM은 두 부분의 영역을 제대로 모델링하지 못해 planning이 불가능
그럼에도 좋은 점
- 작문 도우미, 초안 생성, 스타일 다듬기, 코드 생성
안 좋은 점
- 사실에 관한 일관된 답변 생성 (hallucinations!)
- 최신 정보 반영(마지막 학습 이후 정보 답변 불가)
- 적절한 행동(훈련 데이터셋에서 모방)
- reasoning, planning, math
- 검색 엔진, 계산기, 데이터 베이스 쿼리 등의 도구로 사용
우리는 LLM이 이해하고 올바른 지시를 해줄 것으로 생각하나 LLM은 단하나도 세상을 이해하지 못함
정리하자면 지금의 LLM은 정적이다. 새로운 지식의 습득이 바로바로 이루어질 수 없고 reasoning(이해), planning(계획)이 불가능해 항상 옳은 답변을 하지 못한다. 따라서 자연어 처리 모델이 완벽해지려면 (1)에서 설명한 세상을 배워야 한다. 그러려면 Auto-Regressive 방식에서 탈피하고 사람의 자연어 처리 기관인 (음성, 텍스트) Broca, Wernicke의 구조와 같이 두 가지 감각 기관을 모두 수용할 수 있는 모델이 필요.
반응형
'Routine' 카테고리의 다른 글
[Challenge] 생성형 AI 레드팀 챌린지 (0) | 2024.04.13 |
---|---|
[CMSA] Yann Lecun | Objective-Driven AI (1) (0) | 2024.04.06 |
[Network] 304 Not Modified (0) | 2024.03.13 |
[Network] WSL 네트워크 이해 돕기 (0) | 2024.01.31 |
나라별 대통령 신년사 (0) | 2024.01.01 |