Chapter 1. ์ธ๊ณผ - ํ–‰๋™ ํ”„๋ ˆ์ž„ ์›Œํฌ
ยท
๐Ÿ“ Statistics
์ธ๊ณผ - ํ–‰๋™ ํ”„๋ ˆ์ž„ ์›Œํฌ์ธ๊ณผ๊ด€๊ณ„ ๋ถ„์„์ด๋ž€?์ธ๊ณผ๊ด€๊ณ„ ๋ถ„์„์€ ๋น„์ฆˆ๋‹ˆ์Šค ๋ฌธ์ œ๋ฅผ ์ธ๊ฐ„์˜ ํ–‰๋™์—์„œ ๋‹ต์„ ์ฐพ์Šต๋‹ˆ๋‹ค. ์ƒ๊ด€๊ด€๊ณ„์™€๋Š” ๋‹ค๋ฅธ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ์ธ๊ณผ๊ด€๊ณ„๋Š” ํ•œ ๋ณ€์ˆ˜๊ฐ€ ๋‹ค๋ฅธ ๋ณ€์ˆ˜์— ์ง์ ‘์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ด€๊ณ„๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.1.1 ๋ถ„์„์˜ ์œ ํ˜•๋ถ„์„์—๋Š” ๊ธฐ์ˆ  ๋ถ„์„, ์˜ˆ์ธก, ์ธ๊ณผ๊ด€๊ณ„ ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์ด ์žˆ์Šต๋‹ˆ๋‹ค.^๊ธฐ์ˆ  ๋ถ„์„ ๊ธฐ์ˆ  ๋ถ„์„์€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. (~๋Š” ๋ฌด์—‡์ธ๊ฐ€, ์ด๋ฏธ ์ธก์ •ํ•œ ๊ฒƒ)์ง€๋‚œ๋‹ฌ์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๊ณ ๊ฐ์ด ์„œ๋น„์Šค ๊ตฌ๋…์„ ์ทจ์†Œํ–ˆ๋‚˜์š”?์ž‘๋…„ ์ด์ต์€ ์–ผ๋งˆ์ธ๊ฐ€์š”?ํ‰๊ท ์ด๋‚˜ ๊ฐ„๋‹จํ•œ ์ง€ํ‘œ๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ๊ธฐ์ˆ  ๋ถ„์„์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํ•œ ์ง€ํ‘œ์ง€๋งŒ ์‹ค๋ฌด์— ์ƒ๋‹นํžˆ ํšจ๊ณผ์ ์ด๊ณ  ์ง๊ด€์ ์ž…๋‹ˆ๋‹ค.^์˜ˆ์ธก ๋ถ„์„ ์˜ˆ์ธก ๋ถ„์„์€ ์˜ˆ์ธก์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. (~๋Š” ๋ฌด์—‡์ด ๋ ๊นŒ?(๋ฏธ๋ž˜), ์•„์ง ์ธก์ •ํ•˜์ง€ ์•Š์€ ๊ฒƒ)๋‹ค์Œ ๋‹ฌ ๊ตฌ์ทจ(๊ตฌ๋… ์ทจ์†Œ)๋Š” ๋ช‡ ๋ช…์ด๋‚˜..
Data Orchestration
ยท
๐Ÿ›ข๏ธ Database
Data Orchestration Airflow? ๋ฐ์ดํ„ฐ ์ข…์‚ฌ์ž๋ผ๋ฉด Data Orchestration(๋ฐฐ์น˜ ํˆด)์— ๋Œ€ํ•ด ํ•œ ๋ฒˆ์ฏค ๋“ค์–ด๋ดค์„ ๊ฒƒ์ด๋‹ค. ๊ทธ์ค‘ Airflow๊ฐ€ ๊ฐ€์žฅ ๋Œ€์ค‘์ ์ด๊ณ  ์ธ๊ธฐ๊ฐ€ ์žˆ์ง€๋งŒ ์ด Dag system์„ ์ฒ˜์Œ ์ตํžˆ๊ธฐ๋Š” ์ƒ๋‹นํžˆ ์ƒ์†Œํ•˜๊ณ  ๋‹ค๋ฃจ๊ธฐ ์–ด๋ ค์šธ ๊ฒƒ์ด๋‹ค. execute date, start date, clear ๋“ฑ ๋“ฑ ๋ฐฐ์น˜ํ•˜๋‚˜ ํ•œ ์ค‘์š”ํ•œ task๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฐฐ์น˜๊ฐ€ ์‹œ์Šคํ…œ์„ ์ž˜ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜๋ฉด ์‹คํ–‰ ์‹œ๊ฐ„์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๊ณ  ๋ถˆํ•„์š”ํ•œ ๊ธฐ๋Šฅ์œผ๋กœ ์‹คํŒจํ•œ task๊ฐ€ ์‹คํŒจ ์‹œ์ ์—์„œ ์ง€๊ธˆ ์‹œ๊ฐ„๊นŒ์ง€ ์žฌ์‹œ์ž‘์ด ๋˜๋Š” ๋ถˆ์ƒ์‚ฌ ๋˜ํ•œ ์ผ์–ด๋‚  ์ˆ˜๋„ ์žˆ๋‹ค. (ex) catch_up)  Airflow์˜ UI๋ฅผ ๋ณผ ๋•Œ ํ˜นํ•ด์„œ ๋งŽ์ด๋“ค ์„ ํƒํ•˜๊ณ  ํ›„ํšŒํ•˜๋Š” ํฌ์ธํŠธ๊ฐ€ ์—ฌ๋Ÿฟ ์žˆ๋‹ค.  ์ฒซ ๋ฒˆ์งธ. Airflow์˜ ํŒจํ‚ค์ง€ ๊ด€์  ..
๋‹คํ–ˆ๋‹ค
'data' ํƒœ๊ทธ์˜ ๊ธ€ ๋ชฉ๋ก