728x90

CM3leon: Multi-modal Generative AI 


์ตœ๊ทผ ๋ช‡ ๋‹ฌ ๋™์•ˆ ์ƒ์„ฑ AI ๋ชจ๋ธ ๋ถ„์•ผ์—์„œ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์™€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ์ค‘์‹ฌ์œผ๋กœ ์ƒ๋‹นํ•œ ๋ฐœ์ „์ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๊ทธ ์ค‘ ํ•˜๋‚˜์ธ CM3leon์€ ์ด๋ฏธ์ง€์—์„œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ํ…์ŠคํŠธ์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. CM3leon์— ๋Œ€ํ•œ 3๊ฐ€์ง€ ์ฃผ์š” ์ธ์‚ฌ์ดํŠธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. CM3leon์€ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋ชจ๋ธ๋กœ์„œ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋‹ค์žฌ๋‹ค๋Šฅํ•˜๊ณ  ํšจ์œจ์ ์ธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด์ „์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ์ ์€ ์ปดํ“จํŒ… ํŒŒ์›Œ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , CM3leon์€ ํ’ˆ์งˆ๊ณผ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  2. CM3leon์€ ๋งˆ์Šคํฌ๋œ ํ˜ผํ•ฉ ๋ชจ๋‹ฌ(CM3) ๋ชจ๋ธ๋กœ, ๋‹ค๋ฅธ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์ฝ˜ํ…์ธ ์˜ ์ž„์˜์˜ ์‹œํ€€์Šค์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ๋ชจ๋‘ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋˜๋Š” ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์ƒ์„ฑ์— ํŠนํ™”๋œ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜์—ฌ ๊ธฐ๋Šฅ์„ฑ์„ ํ™•์žฅํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  3. CM3leon์€ ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ, ์‹œ๊ฐ์  ์งˆ๋ฌธ ์‘๋‹ต, ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํŽธ์ง‘ ๋“ฑ ๋‹ค์–‘ํ•œ ์‹œ๊ฐ-์–ธ์–ด ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๊ตฌ์„ฑ ๊ฐ์ฒด๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๋”ฐ๋ฅด๋Š” ์ผ๊ด€๋œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, CM3leon์€ ์ƒ์„ฑ AI ๋ชจ๋ธ ๋ถ„์•ผ์—์„œ ์ƒ๋‹นํ•œ ๋ฐœ์ „์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋†’์€ ํ’ˆ์งˆ๊ณผ ํšจ์œจ์„ฑ์œผ๋กœ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์€ ์ฐฝ์˜์ ์ธ ์‘์šฉ ๋ถ„์•ผ์— ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ฃผ๋ฉฐ, ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋” ๋‚˜์€ ๋ฐœ์ „์„ ์œ„ํ•œ ๊ธธ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. CM3leon์˜ ์ €์ž๋Š” ์ž‘์—… ๋‚ด์šฉ์„ ๋…ผ๋ฌธ์œผ๋กœ ๊ณต๊ฐœํ•จ์œผ๋กœ์จ ์ƒ์„ฑ AI ๋ถ„์•ผ์—์„œ์˜ ๋ฐœ์ „์— ๊ธฐ์—ฌ ํ•ฉ๋‹ˆ๋‹ค.

 

Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images

CM3leon is the first multimodal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multitask supervised fine-tuning (SFT) stage. This recipe is simple, produces a

ai.meta.com

 

 

 

๋ฐ˜์‘ํ˜•
๋‹คํ–ˆ๋‹ค