728x90

K-NN (k-์ตœ๊ทผ์ ‘์ด์›ƒ)

*์•ˆ์ •์ ์ด์ง€๋งŒ ํŽธํ–ฅ๋œ ์„ ํ˜• ๋ชจ๋ธ vs ๋œ ์•ˆ์ •์ ์ด์ง€๋งŒ  ๋œ ํŽธํ–ฅ์ ์ธ ๋ชจ๋ธ

*์–ด๋– ํ•œ x๋“ ์ง€ ์ด์— ๊ฐ€๊นŒ์šด ๊ด€์ธก์น˜์˜ ์ด์›ƒ์„ ๊ฝค ๋งŽ์ด ์ฐพ๊ณ  ํ‰๊ท ์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

-> ํ•˜์ง€๋งŒ high dimension์—์„œ ์ด ๋ฐฉ์‹์€ ํ†ตํ•˜์ง€ ์•Š๋Š”๋‹ค.

 

curse of dimensionality(Bellman, 1961)

 

p์ฐจ์› ์œ ๋‹›์˜ ์ดˆ์ž…๋ฐฉ์ฒด๋‚ด ๊ท ์ผํ•˜๊ฒŒ ๋ถ„ํฌ๋œ ์ž…๋ ฅ๊ฐ’์— ๊ด€ํ•œ K-NN ๋ชจ๋ธ ๊ฐ€์ •

$e_{r}$= $r^\frac{1}{p}$

์ดˆ์ž…๋ฐฉ์ฒด ์ด๋ฏธ์ง€

๊ณ ์ฐจ์›์—์„œ ํ‘œ์ง‘์˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ์ ์€ ๋ชจ๋“  ํ‘œ๋ณธ ์ง€์ ๋“ค์ด ํ‘œ๋ณธ์˜ ๋ชจ์„œ๋ฆฌ์™€ ๊ฐ€๊น๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

N๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์ง€์ ์ด ์žˆ์„ ๋•Œ ์›์ ์œผ๋กœ๋ถ€ํ„ฐ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ ์ง€์ ์˜ ์ค‘์•™๊ฐ’์˜ ๊ฑฐ๋ฆฌ๋ฅผ

$d(p,N) = (1 - \frac{1}{2}^(1/N))^(1/p)$

N=500, p=10 d(10,500)=0.52xx ์ •๋„ ๋œ๋‹ค.

์ด๋Š” ๊ฒฝ๊ณ„์˜ ์ ˆ๋ฐ˜์ด์ƒ์ด๋‹ค. ๋ฐ์ดํ„ฐ ์ง€์ ์€ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์˜ ์ ๋ณด๋‹ค๋„ ํ‘œ๋ณธ ๊ณต๊ฐ„์˜ ๊ฒฝ๊ณ„์— ๋” ๋งŽ์ด ๋ถ„ํฌํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์ด์›ƒํ•˜๋Š” ํ‘œ๋ณธ ์ง€์ ๋“ค ์‚ฌ์ด์—์„œ ๋ณด๊ฐ„๋ฒ•(interpolate)๋ณด๋‹ค ์™ธ์‚ฝ๋ฒ•(extrapolate)์„ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค.

๊ณ ์ฐจ์›์—์„œ K-NN clustering ์‹œ ๊ฒฝ๊ณ„์— ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•˜๋ฏ€๋กœ ๋ณด๊ฐ„๋ฒ• ๋ณด๋‹ค ์™ธ์‚ฝ๋ฒ•์„ ์‚ฌ์šฉํ•ด์•ผํ•œ๋‹ค.

์ดˆ์ž…๋ฐฉ์ฒด ๊ธฐ๋Œ€ ๊ธธ์ด ์„ค๋ช… math.stack

๋ฐ˜์‘ํ˜•
๋‹คํ–ˆ๋‹ค