728x90

  Conditional VAE (์กฐ๊ฑด๋ถ€ VAE)

 ์กฐ๊ฑด๋ถ€VAE(Conditional VAE)๋Š” ์ž ์žฌ ๋ณ€์ˆ˜๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ ˆ์ด๋ธ”๋„ ๋””์ฝ”๋”์— ์ž…๋ ฅํ•˜์—ฌ ๋ ˆ์ด๋ธ”์„ ์ง€์ •ํ•˜๋Š” ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ํ•„๊ธฐ์ฒด ์ˆซ์ž ์ด๋ฏธ์ง€๋ณ„๋กœ ๊ฐ€๋กœ์™€ ์„ธ๋กœ์˜ ์ž ์žฌ ๋ณ€์ˆ˜ 2๊ฐœ๋ฅผ ๋ณ€ํ™”์‹œํ‚ค๋ฉฐ ๊ฐ™์€ ์ˆซ์ž๋ผ๋„ ํ•„๊ธฐ์ฒด ์ˆซ์ž ์ด๋ฏธ์ง€๊ฐ€ ๋ฐ”๋€Œ๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

https://ijdykeman.github.io/ml/2016/12/21/cvae.html

 VAE๋Š” ๋ณดํ†ต ๋น„์ง€๋„ํ•™์Šต์ด์ง€๋งŒ ์ง€๋„ํ•™์Šต ์š”์†Œ๋ฅผ ์ถ”๊ฐ€ํ•ด ๋น„์ง€๋„ ํ•™์Šต์„ ์‹คํ–‰ํ•˜๋ฉด ๋ณต์›ํ•  ๋ฐ์ดํ„ฐ๋ฅผ ์ง€์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

  ฮฒ-VAE

 ฮฒ-VAE๋Š” ์ด๋ฏธ์ง€์˜ 'disentanglement', ์–ฝํžŒ ๊ฒƒ์„ ํ‘ธ๋Š” ๊ฒƒ์ด ํŠน์ง•์ด๋‹ค. ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ๋ถ„๋ฆฌํ•˜๋Š” ์‘์šฉ ๊ธฐ์ˆ ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ผ๊ตด ์ด๋ฏธ์ง€๋Š” ์ฒซ ๋ฒˆ์จฐ ์ž ์žฌ ๋ณ€์ˆ˜์—์„œ ๋ˆˆ์˜ ๋ชจ์–‘, ๋‘ ๋ฒˆ์งธ ์ž ์žฌ ๋ณ€์ˆ˜์—์„œ ์–ผ๊ตด ๋ฐฉํ–ฅ์˜ ํŠน์ง•์„ ๋‹ด๋Š”๋‹ค. ์ž ์žฌ ๋ณ€์ˆ˜๋กœ ๋ˆˆ์˜ ๋ชจ์–‘์„ ์กฐ์ •ํ•˜๊ณ  ๋‘ ๋ฒˆ์งธ ์ž ์žฌ ๋ณ€์ˆ˜๋กœ ์–ผ๊ตด์˜ ๋ฐฉํ–ฅ์„ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

https://www.semanticscholar.org/paper/beta-VAE%3A-Learning-Basic-Visual-Concepts-with-a-Higgins-Matthey/a90226c41b79f8b06007609f39f82757073641e2/figure/0

                ์ฒซ๋ฒˆ์งธ ์—ด์˜ ์‚ฌ์ง„์€ ์–ผ๊ตด์˜ ๋ฐฉํ–ฅ์ด ๋ฐ”๋€Œ๊ฒŒ ์กฐ์ •๋˜์–ด ๊ฐ€๊ณ ์žˆ๋‹ค.
                ๋‘๋ฒˆ์งธ ์—ด์˜ ์‚ฌ์ง„์€ ๊ฐ์ •์— ๋Œ€ํ•œ ํ‘œ์ •์ด ๋ฐ”๋€Œ๊ฒŒ ์กฐ์ •๋˜์–ด ๊ฐ€๊ณ ์žˆ๋‹ค.
                ์„ธ๋ฒˆ์งธ ์—ด์˜ ์‚ฌ์ง„์€ ๋จธ๋ฆฌ ์Šคํƒ€์ผ์ด ๋ฐ”๋€Œ๊ฒŒ ์กฐ์ •๋˜์–ด ๊ฐ€๊ณ ์žˆ๋‹ค.

  VAE๋Š” ํ‘œ์ •๊ณผ ์–ผ๊ตด์˜ ๋ฐฉํ–ฅ์ด ๋ชจ๋‘ ๋ณ€ํ™” ํ•œ๋‹ค. ฮฒ-VAE๋Š” ์–ผ๊ตด ๋ฑกํ–ฅ๊ณผ ํ‘œ์ • ์ด์™ธ์—๋Š” ๋ณ€ํ™”ํ•˜๋Š” ์š”์†Œ๊ฐ€ ์—†๋‹ค. ์ด์ฒ˜๋Ÿผ
ฮฒ-VAE๋Š” ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด ์ด๋ฏธ์ง€ ๋“ฑ์˜ ํŠน์ง•์„ ์š”์†Œ ๊ธฐ์ค€์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ˆ ์ด๋‹ค.

  VQ-VAE

 VAE๋Š” ์ž ์žฌ ๋ณ€์ˆ˜๊ฐ€ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ์ •ํ™•ํ•˜๊ฒŒ ํŒŒ์•…ํ•˜์ง€ ๋ชปํ•˜๋Š” '์‚ฌํ›„ ๋ถ•๊ดด(posterior collapse)'๋ผ๋Š” ํ˜„์ƒ์œผ๋กœ ์ธํ•ด, ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๊ฐ€ ํ๋ฆฟํ•œ ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค. ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ ๊ฒƒ์ด '๋ฒกํ„ฐ ์–‘์žํ™”๋œ ๋ณ€์ดํ˜• ์˜คํ† ์ธ์ฝ”๋”(Vector Quantised-VAE)' VQ-VAE ์ด๋‹ค. ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ์ด์‚ฐ ๊ฐ’ ์ฆ‰ 0,1,2 ๋“ฑ ์—ฐ์†๋˜์ง€ ์•Š์€ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ์ด๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ธ์ฝ”๋”์— ์ž…๋ ฅํ•˜๊ณ  ์ถœ๋ ฅ์ธ ์ž ์žฌ ๋ณ€์ˆ˜์˜ ๋ฒกํ„ฐ๋ฅผ ์ฝ”๋“œ๋ถ์— mappingํ•ด ๊ตฌํ˜„ํ•œ๋‹ค.

  VQ-VAE-2

 VQ-VAE-2๋Š” VQ-VAE๋ฅผ ๊ณ„์ธต ๊ตฌ์กฐ๋กœ ๋งŒ๋“ค์–ด ๋” ๋†’์€ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“  ๊ธฐ์ˆ ์ด๋‹ค. ์ด ์ž ์žฌ ํ‘œํ˜„์€ ์›๋ž˜ ์ด๋ฏธ์ง€๋ณด๋‹ค ํ›จ์”ฌ ์ž‘์ง€๋งˆ๋А ๋””์ฝ”๋”์— ์ž…๋ ฅํ•˜๋ฉด ๋” ์„ ๋ช…ํ•˜๊ณ  ์‚ฌ์‹ค์ ์ธ ์ด๋ฏธ์ง€๋ฅผ ์žฌ๊ตฌํ˜„ ๊ฐ€๋Šฅํ•˜๋‹ค.



 

๋ฐ˜์‘ํ˜•
๋‹คํ–ˆ๋‹ค