์ ๋ฌธ ๊ฒ์
ํน์ ๋จ์ด๋ ๋ฌธ๊ตฌ๊ฐ ์๋ ๋ฌธ์๋ฅผ ๊ฒ์ํ๋ ๊ฒ์ ์ ๋ฌธ ๊ฒ์(full text search)์ด๋ผ๊ณ ํ๋ค. ๊ฒ์ ์์ง์ด ํ๋ ๊ธฐ๋ฅ์ด๋ค. ๊ฒ์ ์์ง๋ค์ ๋ฌธ์๋ฅผ ์ฌ๋ฌ ์กฐ๊ฐ์ผ๋ก ๋๋๊ณ , ๊ฐ ์กฐ๊ฐ๋ค์ด ๋ฌธ์์ ์๋์ง ์ญ์์ธ(inversed index)์ ์์ฑํ๋ค. ์ฑ
๋ท๋ฉด์ keyword๋ฅผ ์ ๋ฆฌํด๋ ํ์ด์ง์ ๋น์ทํ ์ญํ ์ด๋ค.
์๋ฏธ ๊ธฐ๋ฐ ๊ฒ์(semantic search)
์ง์๋ฌธ์ ๊ตฌ์ฑํ๋ ๋จ์ด๋ค์ ์๋ฏธ๋ฅผ ๊ณ ๋ คํด์ ๋ฌธ์๋ฅผ ์ฐพ๋๋ค. LSA์ LDiA๋ฅผ ์ฌ์ฉํด ์ฃผ์ ๋ฒกํฐ๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ฐพ๋๋ค. ์ด ๊ธฐ๋ฒ์ด BOW๋ TF-IDF ๋ฒกํฐ ๊ฐ์ ์์น๋ค์ '์์ธ'์ ์ด์ฉํ ์๋ฏธ ๊ธฐ๋ฐ ๊ฒ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ทธ๋ฌ๋ BOW๋ TF-IDF๋ฒกํฐ์ ๋ฌ๋ฆฌ ์๋ฏธ ๋ฒกํฐ๋ค์ ํ
์ด๋ธ์ ์ ํต์ ์ธ ์ญ์์ธ ๊ธฐ๋ฒ๋ค๋ก ์ฝ๊ฒ ์ด์ฐํํ๊ณ ์์ธํํ ์ ์๋ค. ์ด์ ์์ธํ ์ ๊ทผ ๋ฐฉ์์ ์ฃผ๋ก BOW, ์ด์ฐ๋ฒกํฐ, TF-IDF ๋ฒกํฐ ๊ฐ์ ํฌ์ ์ฐ์ ๋ฒกํฐ, 3์ฐจ์ GIS ๋ฐ์ดํฐ ๊ฐ์ ์ ์ฐจ์ ์ฐ์์ ๋์์ผ๋ก ํ๋ค. LSA, LDiA ๊ฐ์ ๊ณ ์ฐจ์ ๋ฒกํฐ๋ ๊ทธ๋ฐ ์ ๊ทผ ๋ฐฉ์์ผ๋ก ์์ธํํ๊ธฐ ์ด๋ ต๋ค. ์ฐ์ํ์ ์ ์๋ก ์ด์ฐํ ์์
์ ๊ฑฐ์ณ ์์ธ ํญ๋ชฉ์ ๋์ด๋ ๋๋ค. TF-IDF์ ๊ฒฝ์ฐ ํฌ์ ๋ฒกํฐ์ด๋ฏ๋ก ๋๋ถ๋ถ์ ์ฐจ์์ด 0์ด๋ค. ์์ธ ํญ๋ชฉ์ ์ค์ผ ์ ์๋ค.
LSA์ LDiA๊ฐ ์ฐ์ถํ๋ ์ฃผ์ ๋ฒกํฐ๋ ๊ณ ์ฐจ์ ์ฐ์ ์กฐ๋ฐ(0์ธ ์ฑ๋ถ์ด ๋ณ๋ก ์๋) ๋ฒกํฐ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์๋ฏธ ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ท๋ชจ๊ฐ๋ณ์ ๊ฒ์์ ์ ํฉํ ํจ์จ์ ์ธ ์์ธ์ ์ ๊ณตํ์ง ์๋๋ค. ์ ์ฌ ์๋ฏธ ๋ฒกํฐ์ '์์ธํ'๋ ํ์ค์ ์ผ๋ก ๋ฌธ์ ๊ฐ ๋ง๋ค. ์ฐจ์์ ์ ์ฃผ ๋๋ฌธ์ ์ ํํ ์์ธ์ ์ป๊ธฐ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค.
๊ณ ์ฐจ์ ๋ฒกํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์ธํํ๋ ๋ฐฉ๋ฒ์ LSH(locality sensitive hash,LSH) ์ด๋ค. LSH๋ ์ด๊ณต๊ฐ์ ํ ์ฌ์ญ์ ์์ ํ๋ ์ขํ๋ผ๊ณ ํ ์ ์๋ค. LSH๋ ์ด์ฐ์ ์ด๊ณ ์ค์ง ๋ฒกํฐ ๊ฐ์๋ง ์์กดํ๋ค. ๊ทธ๋ฌ๋ 12์ฐจ์ ์ด์์ ์ฐจ์์์ ๋ ์ด์ ์๋ฒฝํ๊ฒ ์๋ํ์ง ์๋๋ค. ์ฃผ์ ๋ฒกํฐ์ ์ฐจ์์ 2~16 ์ฌ์ด ์ด๋ค.
NumPy๋ก ํ๋ ฌ ๊ณฑ์ ์ฐ์ฐ๋ค์ ๋ณ๋ ฌํ ํ ์ ์์ง๋ง, ์ฐ์ฐ ์๊ฐ ์ค์ด ๋ค์ง๋ ์๋๋ค. ๋๊ท๋ชจ ์ปค~~๋ค๋ ๋ง๋ญ์น ๊ท๋ชจ์์๋ O(n) ์๊ณ ๋ฆฌ์ฆ์ด ํตํ์ง ์๋๋ค. ๋ฐ๋ผ์ ์์ธํ ๋ณด๋ค๋ ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ์ข๊ฒ ๋ง๋๋ ๋ฐฉํฅ์ผ๋ก ๊ตฌ์ถํ๋ค. ์๋ฅผ ๋ค์ด LSH์ ํจ๊ป ๊ทผ์ฌ ์ต๊ทผ์ ์ด์(approximate nearest neighbor) ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ๋ฉด ํฐ ๋ง๋ญ์น์ ๋ํ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
๊ตฌํ ์๊ณ ๋ฆฌ์ฆ
- Spotify์ Annoyํจํค์ง
- genism์ genism.models.KeyedBector ํด๋์ค
'๐ฃ๏ธ Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Word2Vec] ์คํต๊ทธ๋จ ์ ๊ทผ ๋ฐฉ์ (0) | 2021.02.28 |
---|---|
Word2Vec ํ์ฉ (0) | 2021.02.28 |
์ ํ ํ๋ณ ๋ถ์ ( LDA ) (0) | 2021.02.23 |
LSA ๊ฑฐ๋ฆฌ์ ์ ์ฌ๋ (0) | 2021.02.21 |
[Transformer] Multi-Head Attention (1) (0) | 2021.02.20 |