[CMSA] Yann Lecun | Objective-Driven AI (2)

728x90

Auto-Regressive Large Language Models (AR-LLMs)

하나의 텍스트 토큰 다음에 다른 토큰을 출력
토큰은 단어나 하위단어를 나타냄
인코더/예측기는 수십억 개의 매개변수를 가진 트랜스포머 아키텍처
- 일반적으로 10억 ~ 5,000억 개의 매개변수
- 훈련 데이터: 1조 ~ 2조 개의 토큰 사용
대화/텍스트 생성 LLM 종류
- Open Source : BlenderBot, Galactica, LlaMa, Llama-2, Code Llama (FAIR), Mistral-7B, Mixtral-4x7 B (Mistral), Falcon (UAE), Alpaca (Stanford), Yi (01.AI), OLMo (AI2), Gemma (Google)
- Proprietary : Meta AI (Meta), LaMDA/Bard, Gemini (Google), ChatGPT (OpenAI)

성능 및 한계

성능은 놀라움 하지만 stupid mistakes (사실적 오류, 논리적 오류, 일관성 부족)
- LLM은 제한된 추론 능력을 가짐 또한 기본 현실에 대한 제한된 지식, 기억력 부족, 답변 계획 능력 부족

Llama-2: https://ai.meta.com/llama/

(짤막하게 Meta LLAMA 소개)

SeamlessM4T

(Meta의 새로운 STT(Speech-to-text) 모델, 가능한 task(speech-to-speech translation, speech-to-text translation, text-to-text translation, speech recognition))

100가지 언어 음성, text 학습
100가지 언어 text output
35개 국어 음성 output
실시간 음성과 표현 가능

https://github.com/facebookresearch/seamless_communication

GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

Foundational Models for State-of-the-Art Speech and Text Translation - facebookresearch/seamless_communication

github.com

Auto-Regressive Generative Models Suck!.

(Auto-Regressive Generative 모델은 구리다!)

Auto-Regressive Generative Model은 망할 운명이었다. (리소스 최악)
통제가 불가능하다. (non-toxic, factual etc)
생성된 토큰이 정답 집합을 벗어날 확률 e(error)가 있다.
- 길이가 n인 답변의 정확활 확률(P)일 때 P=(1-e)^n으로 발산
- 길이가 긴 문장일수록 답변의 퀄리티가 떨어짐 (ArXiv:2305.18654)

Limitations of LLMs: no planning!

(LLM은 무계획이다. 추론 능력 0)

뇌의 Wernike(베르니케)와 Broca(브로카) 영역을 모방할 뿐 (대뇌 피질의 두 부분 중 하나 주로 언어 생성에 관여하는 브로카, 문자 및 음성 언어 이해는 베르니케)
현재의 LLM은 두 부분의 영역을 제대로 모델링하지 못해 planning이 불가능

그럼에도 좋은 점

작문 도우미, 초안 생성, 스타일 다듬기, 코드 생성

안 좋은 점

사실에 관한 일관된 답변 생성 (hallucinations!)
최신 정보 반영(마지막 학습 이후 정보 답변 불가)
적절한 행동(훈련 데이터셋에서 모방)
reasoning, planning, math
검색 엔진, 계산기, 데이터 베이스 쿼리 등의 도구로 사용

우리는 LLM이 이해하고 올바른 지시를 해줄 것으로 생각하나 LLM은 단하나도 세상을 이해하지 못함

https://www.bing.com/images/create/a-man-is-solving-a-problem-inside-a-room2c-and-anot/1-66165e67d0a54033ae24b5cf8f3c7ab7?id=I2%2bgKaAyjcWhiX5w0efoCg%3d%3d&view=detailv2&idpp=genimg&thId=OIG4.ovF_1zf58tUVcPVbSZLN&FORM=GCRIDP&mode=overlay

정리하자면 지금의 LLM은 정적이다. 새로운 지식의 습득이 바로바로 이루어질 수 없고 reasoning(이해), planning(계획)이 불가능해 항상 옳은 답변을 하지 못한다. 따라서 자연어 처리 모델이 완벽해지려면 (1)에서 설명한 세상을 배워야 한다. 그러려면 Auto-Regressive 방식에서 탈피하고 사람의 자연어 처리 기관인 (음성, 텍스트) Broca, Wernicke의 구조와 같이 두 가지 감각 기관을 모두 수용할 수 있는 모델이 필요.

저작자표시

'🏃 Routine' 카테고리의 다른 글

[Challenge] 생성형 AI 레드팀 챌린지 (0)	2024.04.13
[CMSA] Yann Lecun \| Objective-Driven AI (1) (0)	2024.04.06
[Network] 304 Not Modified (0)	2024.03.13
[Network] WSL 네트워크 이해 돕기 (0)	2024.01.31
나라별 대통령 신년사 (0)	2024.01.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[CMSA] Yann Lecun | Objective-Driven AI (2)

Auto-Regressive Large Language Models (AR-LLMs)

성능 및 한계

Llama-2: https://ai.meta.com/llama/

SeamlessM4T

Auto-Regressive Generative Models Suck!.

Limitations of LLMs: no planning!

'🏃 Routine' 카테고리의 다른 글

Auto-Regressive Large Language Models (AR-LLMs)

성능 및 한계

Llama-2: https://ai.meta.com/llama/

SeamlessM4T

Auto-Regressive Generative Models Suck!.

Limitations of LLMs: no planning!

'🏃 Routine' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

성능 및 한계

'🏃 Routine' 카테고리의 다른 글

성능 및 한계

'🏃 Routine' 카테고리의 다른 글

개인정보

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역