728x90
K-NN (k-์ต๊ทผ์ ์ด์)
*์์ ์ ์ด์ง๋ง ํธํฅ๋ ์ ํ ๋ชจ๋ธ vs ๋ ์์ ์ ์ด์ง๋ง ๋ ํธํฅ์ ์ธ ๋ชจ๋ธ
*์ด๋ ํ x๋ ์ง ์ด์ ๊ฐ๊น์ด ๊ด์ธก์น์ ์ด์์ ๊ฝค ๋ง์ด ์ฐพ๊ณ ํ๊ท ์ ๊ตฌํ ์ ์๋ค.
-> ํ์ง๋ง high dimension์์ ์ด ๋ฐฉ์์ ํตํ์ง ์๋๋ค.
curse of dimensionality(Bellman, 1961)
p์ฐจ์ ์ ๋์ ์ด์ ๋ฐฉ์ฒด๋ด ๊ท ์ผํ๊ฒ ๋ถํฌ๋ ์ ๋ ฅ๊ฐ์ ๊ดํ K-NN ๋ชจ๋ธ ๊ฐ์
$e_{r}$= $r^\frac{1}{p}$
๊ณ ์ฐจ์์์ ํ์ง์ ๋ค๋ฅธ ์ค์ํ ์ ์ ๋ชจ๋ ํ๋ณธ ์ง์ ๋ค์ด ํ๋ณธ์ ๋ชจ์๋ฆฌ์ ๊ฐ๊น๋ค๋ ๊ฒ์ด๋ค.
N๊ฐ์ ๋ฐ์ดํฐ ์ง์ ์ด ์์ ๋ ์์ ์ผ๋ก๋ถํฐ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ ์ง์ ์ ์ค์๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ
$d(p,N) = (1 - \frac{1}{2}^(1/N))^(1/p)$
N=500, p=10 d(10,500)=0.52xx ์ ๋ ๋๋ค.
์ด๋ ๊ฒฝ๊ณ์ ์ ๋ฐ์ด์์ด๋ค. ๋ฐ์ดํฐ ์ง์ ์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ๋ณด๋ค๋ ํ๋ณธ ๊ณต๊ฐ์ ๊ฒฝ๊ณ์ ๋ ๋ง์ด ๋ถํฌํ๋ค. ๋ฐ๋ผ์ ์ด์ํ๋ ํ๋ณธ ์ง์ ๋ค ์ฌ์ด์์ ๋ณด๊ฐ๋ฒ(interpolate)๋ณด๋ค ์ธ์ฝ๋ฒ(extrapolate)์ ์ฌ์ฉํด์ผ ํ๋ค.
๊ณ ์ฐจ์์์ K-NN clustering ์ ๊ฒฝ๊ณ์ ๋ ๋ง์ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ๋ฏ๋ก ๋ณด๊ฐ๋ฒ ๋ณด๋ค ์ธ์ฝ๋ฒ์ ์ฌ์ฉํด์ผํ๋ค.
๋ฐ์ํ
'๐ Statistics' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion (0) | 2024.10.29 |
---|---|
Chapter 2. ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๋ ๋ฐฉ๋ฒ (0) | 2024.08.30 |
Chapter 1. ์ธ๊ณผ - ํ๋ ํ๋ ์ ์ํฌ (0) | 2024.08.29 |
[ARIMA] Bigquery๋ก ARIMA Pipline ํ๋ฒ์ ๋๋ด๊ธฐ (0) | 2023.09.28 |
Auto ARIMA Summary ์ค๋ช (0) | 2023.09.01 |