Chapter 2. ํ–‰๋™ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐฉ๋ฒ•
ยท
๐Ÿ“ Statistics
Keyword behavioralize(ํ–‰๋™ํ™”) : ํ–‰๋™์˜ ์˜๋ฏธ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐฉ๋ฒ•, ์˜๋ฏธ๋ฅผ ์•Œ๊ธฐ ํž˜๋“  ๋ณ€์ˆ˜ ๋“ฑ์ธ๊ฐ„ ํ–‰๋™์˜ ๊ธฐ๋ณธ ๋ชจ๋ธ Personal Characteristic(๊ฐœ์ธ ํŠน์„ฑ) : ์ ์ง„์ ์œผ๋กœ๋งŒ ๋ณ€ํ•˜๋Š” ๋ชจ๋“  ๊ฐœ์ธ์ •๋ณด๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. Cognition & Emotion : ๊ฐ์ •, ์ธ์ง€, ์‹ฌ์„ฑ ๋ชจํ˜•(mental model), ์‹ ๋…๊ณผ ๊ฐ™์€ ์ •์‹  ์ƒํƒœ๋ฅผ ๋งํ•ฉ๋‹ˆ๋‹ค. Customer satisfaction(CSAT) : ๊ณ ๊ฐ ๋งŒ์กฑ๋„, ํšŒ์‚ฌ์˜ ์ œํ’ˆ, ์„œ๋น„์Šค ๋˜๋Š” ์ „๋ฐ˜์ ์ธ ๊ฒฝํ—˜์— ๋Œ€ํ•ด ๊ณ ๊ฐ์ด ์–ผ๋งˆ๋‚˜ ๋งŒ์กฑํ•˜๋Š”์ง€ ์ธก์ •ํ•˜๋Š” ์ฒ™๋„๋ฅผ ๋งํ•ฉ๋‹ˆ๋‹ค. NYT ํ…Œ์ŠคํŠธ : New York Times ์‹ ๋ฌธ 1๋ฉด์— ์‹ค๋ฆด ์ •๋„๋กœ ๋‚˜์˜ ์•„์ด๋””์–ด๊ฐ€ ์ƒ์‚ฌ๋ฅผ ๊ฐ๋™์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š”์ง€ ์ž๊ธฐ ํ‰๊ฐ€ Sludge(์Šฌ๋Ÿฌ์ง€) : ์†์ž„์ˆ˜ ๋งˆ์ผ€ํŒ…, ์†Œ๋น„์ž์˜ ํ–‰๋™์„..
Chapter 1. ์ธ๊ณผ - ํ–‰๋™ ํ”„๋ ˆ์ž„ ์›Œํฌ
ยท
๐Ÿ“ Statistics
์ธ๊ณผ - ํ–‰๋™ ํ”„๋ ˆ์ž„ ์›Œํฌ์ธ๊ณผ๊ด€๊ณ„ ๋ถ„์„์ด๋ž€?์ธ๊ณผ๊ด€๊ณ„ ๋ถ„์„์€ ๋น„์ฆˆ๋‹ˆ์Šค ๋ฌธ์ œ๋ฅผ ์ธ๊ฐ„์˜ ํ–‰๋™์—์„œ ๋‹ต์„ ์ฐพ์Šต๋‹ˆ๋‹ค. ์ƒ๊ด€๊ด€๊ณ„์™€๋Š” ๋‹ค๋ฅธ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ์ธ๊ณผ๊ด€๊ณ„๋Š” ํ•œ ๋ณ€์ˆ˜๊ฐ€ ๋‹ค๋ฅธ ๋ณ€์ˆ˜์— ์ง์ ‘์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ด€๊ณ„๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.1.1 ๋ถ„์„์˜ ์œ ํ˜•๋ถ„์„์—๋Š” ๊ธฐ์ˆ  ๋ถ„์„, ์˜ˆ์ธก, ์ธ๊ณผ๊ด€๊ณ„ ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์ด ์žˆ์Šต๋‹ˆ๋‹ค.^๊ธฐ์ˆ  ๋ถ„์„ ๊ธฐ์ˆ  ๋ถ„์„์€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. (~๋Š” ๋ฌด์—‡์ธ๊ฐ€, ์ด๋ฏธ ์ธก์ •ํ•œ ๊ฒƒ)์ง€๋‚œ๋‹ฌ์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๊ณ ๊ฐ์ด ์„œ๋น„์Šค ๊ตฌ๋…์„ ์ทจ์†Œํ–ˆ๋‚˜์š”?์ž‘๋…„ ์ด์ต์€ ์–ผ๋งˆ์ธ๊ฐ€์š”?ํ‰๊ท ์ด๋‚˜ ๊ฐ„๋‹จํ•œ ์ง€ํ‘œ๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ๊ธฐ์ˆ  ๋ถ„์„์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํ•œ ์ง€ํ‘œ์ง€๋งŒ ์‹ค๋ฌด์— ์ƒ๋‹นํžˆ ํšจ๊ณผ์ ์ด๊ณ  ์ง๊ด€์ ์ž…๋‹ˆ๋‹ค.^์˜ˆ์ธก ๋ถ„์„ ์˜ˆ์ธก ๋ถ„์„์€ ์˜ˆ์ธก์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. (~๋Š” ๋ฌด์—‡์ด ๋ ๊นŒ?(๋ฏธ๋ž˜), ์•„์ง ์ธก์ •ํ•˜์ง€ ์•Š์€ ๊ฒƒ)๋‹ค์Œ ๋‹ฌ ๊ตฌ์ทจ(๊ตฌ๋… ์ทจ์†Œ)๋Š” ๋ช‡ ๋ช…์ด๋‚˜..
[ARIMA] Bigquery๋กœ ARIMA Pipline ํ•œ๋ฒˆ์— ๋๋‚ด๊ธฐ
ยท
๐Ÿ“ Statistics
Goolge Bigquery๋Š” ์ƒ๋‹นํžˆ ๋งŽ์€ ๊ธฐ๋Šฅ์„ ์ง€์›ํ•œ๋‹ค. SQL๋ถ€ํ„ฐ ML, ์Šค์ผ€์ค„๋ง, ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋“ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด๊ฐ€๋Š” ์ง๊ตฐ์— ์ข…์‚ฌ ํ•œ๋‹ค๋ฉด ๋ชจ๋ฅผ  ์ˆ˜๊ฐ€ ์—†๋‹ค.  ๊ทธ๋งŒํผ ํŽธํ•˜๊ณ  ์‰ฝ๋‹ค. ์ฒ˜์Œ ์ ‘ํ•œ๋‹ค๊ณ  ์–ด๋ ต๊ฒŒ ์ƒ๊ฐ ํ–ˆ๋˜๊ฒŒ ๋ถ€๋„๋Ÿฌ์šธ ์ •๋„๋กœ ์•ˆ๋˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋˜๋Š” ๊ฒƒ์ด ๋งŽ๋‹ค. Bigquery๋ž€?๋”๋ณด๊ธฐBigQuery๋Š” ๋จธ์‹ ๋Ÿฌ๋‹, ์ง€๋ฆฌ์ •๋ณด ๋ถ„์„, ๋น„์ฆˆ๋‹ˆ์Šค ์ธํ…”๋ฆฌ์ „์Šค์™€ ๊ฐ™์€ ๊ธฐ๋ณธ ์ œ๊ณต ๊ธฐ๋Šฅ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ด€๋ฆฌํ•˜๊ณ  ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” ์™„์ „ ๊ด€๋ฆฌํ˜• ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค์ž…๋‹ˆ๋‹ค. BigQuery์˜ ์„œ๋ฒ„๋ฆฌ์Šค ์•„ํ‚คํ…์ฒ˜์—์„œ๋Š” SQL ์ฟผ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ œ๋กœ ์ธํ”„๋ผ ๊ด€๋ฆฌ์— ๊ด€ํ•œ ์กฐ์ง์˜ ๊ฐ€์žฅ ํฐ ์งˆ๋ฌธ์„ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. BigQuery์˜ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ถ„์‚ฐํ˜• ๋ถ„์„ ์—”์ง„์„ ํ†ตํ•ด ํ…Œ๋ผ๋ฐ”์ดํŠธ๊ธ‰ ์ฟผ๋ฆฌ๋ฅผ ์ดˆ ๋‹จ์œ„๋กœ ์ˆ˜ํ–‰ํ•˜๊ณ  ํŽ˜ํƒ€๋ฐ”์ดํŠธ..
Auto ARIMA Summary ์„ค๋ช…
ยท
๐Ÿ“ Statistics
Auto Arima Summary Table ์„ค๋ช… ARIMA ๋ชจํ˜•์„ ๋‹ค๋ฃจ๋ฉด ๊ผญ ๋ด์•ผํ•˜๋Š” Table์ด๋‹ค. ํ•œ๋ฒˆ์˜ ์‹œํ–‰์œผ๋กœ ๋ชจํ˜•์„ ์ •ํ•œ๋‹ค๋ฉด Auto ARIMA์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ง€ ์•Š์„ ์ˆ˜ ์žˆ์œผ๋‚˜ ํ†ต๊ณ„์  ๋ชจ๋ธ์ธ ๋งŒํผ ์œ ์˜์„ฑ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค. ๊ธฐ๋ณธ์ ์ธ ์„ค๋ช… ARIMA๋Š” ์ฐจ๋ถ„๊ณผ ์ด๋™ํ‰๊ท ์„  ๋ชจํ˜•์˜ ์ฐจ์ˆ˜๋กœ y = a(0) + p(0) + a(1) + p(1) ... ์ด๋Ÿฐ์‹์œผ๋กœ ๋‹จ์ˆœํ•œ ๋ชจํ˜•์—์„œ ๋ณต์žกํ•œ ๋ชจํ˜•์œผ๋กœ ๋งŒ๋“ค์–ด๊ฐ„๋‹ค. (1) ์œ„์˜ Summary Table์—์„œ ์ค‘์š”ํ•œ ์ ์€ Log Likelihood์˜ ๊ฐ’์ด ๋‚ด๊ฐ€ ์ด์ „ ์‹œํ–‰ ๋ชจ๋ธ ๋ณด๋‹ค ์ปค์กŒ๋Š”์ง€๊ฐ€ ์ค‘์š”ํ•˜๋‹ค. ์šฐ๋„์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋ณดํ†ต Positive Value ์ด์ง€๋งŒ ์Œ์ˆ˜์—ฌ๋„ ๊ผญ ๋ชจ๋ธ์ด ํ‹€๋ฆฐ ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์ด ์˜๋ฏธ๋Š” "๋ชจ๋ธ์ด data์— fitํ•œ์ง€ ๋ณด๋Š” ๊ฒƒ" ์ด๋‹ค. (ํด ์ˆ˜๋ก ์ž˜ fi..
๊ณ ์ฐจ์›์—์„œ ๊ตญ์†Œ์  ๋ฐฉ๋ฒ•(interpolate->extrapolate)
ยท
๐Ÿ“ Statistics
K-NN (k-์ตœ๊ทผ์ ‘์ด์›ƒ) *์•ˆ์ •์ ์ด์ง€๋งŒ ํŽธํ–ฅ๋œ ์„ ํ˜• ๋ชจ๋ธ vs ๋œ ์•ˆ์ •์ ์ด์ง€๋งŒ ๋œ ํŽธํ–ฅ์ ์ธ ๋ชจ๋ธ *์–ด๋– ํ•œ x๋“ ์ง€ ์ด์— ๊ฐ€๊นŒ์šด ๊ด€์ธก์น˜์˜ ์ด์›ƒ์„ ๊ฝค ๋งŽ์ด ์ฐพ๊ณ  ํ‰๊ท ์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. -> ํ•˜์ง€๋งŒ high dimension์—์„œ ์ด ๋ฐฉ์‹์€ ํ†ตํ•˜์ง€ ์•Š๋Š”๋‹ค. curse of dimensionality(Bellman, 1961) p์ฐจ์› ์œ ๋‹›์˜ ์ดˆ์ž…๋ฐฉ์ฒด๋‚ด ๊ท ์ผํ•˜๊ฒŒ ๋ถ„ํฌ๋œ ์ž…๋ ฅ๊ฐ’์— ๊ด€ํ•œ K-NN ๋ชจ๋ธ ๊ฐ€์ • $e_{r}$= $r^\frac{1}{p}$ ๊ณ ์ฐจ์›์—์„œ ํ‘œ์ง‘์˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ์ ์€ ๋ชจ๋“  ํ‘œ๋ณธ ์ง€์ ๋“ค์ด ํ‘œ๋ณธ์˜ ๋ชจ์„œ๋ฆฌ์™€ ๊ฐ€๊น๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. N๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์ง€์ ์ด ์žˆ์„ ๋•Œ ์›์ ์œผ๋กœ๋ถ€ํ„ฐ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ ์ง€์ ์˜ ์ค‘์•™๊ฐ’์˜ ๊ฑฐ๋ฆฌ๋ฅผ $d(p,N) = (1 - \frac{1}{2}^(1/N))^(1/p)$ N=500, p=10 d..
๋‹คํ–ˆ๋‹ค
'๐Ÿ“ Statistics' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก