
LIMA : Less is More for Alignment
ยท
๐ฃ๏ธ Natural Language Processing
Large language model์ ๋ ๋จ๊ณ ์คํ
์ผ๋ก ํ์ต ๋น๊ต (1) raw text์์ ๋น์ง๋ ํ์ต์ ํตํด ์ผ๋ฐ์ ์ธ ๋ํ ๋ฌธ์ฅ(general-purpose) ํ์ต (2) large scale instruction tuning๊ณผ ๊ฐํ ํ์ต์ ํตํด human preference modeling [Experiment] ํ
์คํธ๋ฅผ ์ํด 1000๊ฐ์ ์ค์ ์ ์ ํ๋กฌํํธ์ high-quality ์๋ต์ ์ ๋ณ. 750๊ฐ์ ์ง๋ฌธ๊ณผ ๋ต๋ณ์ Community forum์์ ์ ๋ณ(Stack Exchang, wikiHow) ์ถ๊ฐ๋ก 250๊ฐ์ ์ง๋ฌธ๊ณผ ๋ต๋ณ์ ์๋์ผ๋ก ์์ฑ (Alignment style) LLaMa [Touvron et al., 2023] 65B parameter model์ fine-tuning [Resu..