728x90

Intro

μ€ŒμΈν¬λŠ” 데이터 ν’ˆμ§ˆλ¬Έμ œλ‘œ 고객의 20%κ°€ μ΄νƒˆν•œ κ²½ν—˜μ„ 가지고 μžˆλ‹€. 데이터 쑰직이 ν’ˆμ§ˆ 문제λ₯Ό μ²˜λ¦¬ν•˜κΈ° μœ„ν•΄ 전체 μ—…λ¬΄μ˜ 40%이상 μ†Œλͺ¨ν•œλ‹€. ν•˜μ§€λ§Œ 데이터 κ΄€λ ¨ μ‚¬μ†Œν•œ μ΄μŠˆλŠ” μ§€μ†μ μœΌλ‘œ λ°œμƒν•˜κ³  데이터 였λ₯˜λŠ” ν”ν•œ μΌμ΄λ―€λ‘œ λ†€λž„ 일은 μ•„λ‹ˆμ—ˆλ‹€.

  • 남극 νƒν—˜κ°€λ“€μ€ μ‹ λ’°ν•  수 μ—†λŠ” μ €ν’ˆμ§ˆ λ°μ΄ν„°λ‘œ λͺ©μ μ§€μΈ λ‚¨κ·Ήμ˜ μœ„μΉ˜λ₯Ό 잘λͺ» 계산
  • 1999λ…„ ν™”μ„± κΈ°ν›„ ꢀ도선(NASA) μ‚¬κ³ λŠ” 미터법을 ν˜Όλ™ν•˜μ—¬ λ°œμƒν•œ 일, 이 일둜 1μ–΅ 2500만 λ‹¬λŸ¬ λΉ„μš© λ°œμƒ
  • ν•„μžλŠ” 이처럼 ν”ν•˜μ§€λ§Œ 큰 사고λ₯Ό λ°œμƒν•  수 μžˆλŠ”
    데이터 λ‹€μš΄νƒ€μž„
    을 방지 ν•˜κΈ° μœ„ν•΄ 데이터 ν’ˆμ§ˆμ„ μœ μ§€, κ΄€λ¦¬ν•˜λŠ” 방법을 μ œμ‹œν•˜κ³ μž 문제λ₯Ό λΆ„μ„ν–ˆλ‹€.

(1) 데이터 ν’ˆμ§ˆμ΄λž€?

  • μ‹ λ’°μ„±(reliability), μ™„μ „μ„±(completeness), μ •ν™•μ„±(accuracy)
  • "μΈ‘μ •ν•˜μ§€ μ•ŠμœΌλ©΄ 관리할 수 μ—†κ³  관리할 수 μ—†μœΌλ©΄ κ°œμ„ ν•  μˆ˜λ„ μ—†λ‹€."
  • 데이터 ν’ˆμ§ˆμ€ κ³Όκ±° λΆ€ν„° μ‘΄μž¬ν•΄μ™”μœΌλ©° μœ„μ™€ 같이 μ •μ˜λœλ‹€. λŒ€λΆ€λΆ„μ˜ κΈ°μ—…μ—μ„œ 데이터 μ—”μ§€λ‹ˆμ–΄μ™€ λΆ„μ„κ°€λŠ” 데이터 뢄석 외에 ν’ˆμ§ˆκΉŒμ§€ ν’€νƒ€μž„μœΌλ‘œ 관리할 μžμ›μ΄ λΆ€μ‘±ν•˜λ‹€. μ΄λ‘œμΈν•΄ 더 μ€‘μš”ν•œ ν”„λ‘œμ νŠΈμ— μ°Έμ—¬ν•˜κΈ° μ–΄λ ΅λ‹€.

(2) 데이터 ν’ˆμ§ˆμ˜ ν˜„μž¬

데브옡슀(DevOps) λ“±μž₯으둜 μ‹œμŠ€ν…œ 라이프 사이클을 쀄이고 CI-CDλ₯Ό 톡해 ν’ˆμ§ˆκ΄€λ¦¬κ°€ μš©μ΄ν•œ MSA ν˜•νƒœλ‘œ 진화해왔닀. μ—¬κΈ°μ„œ 신뒰성이 높은 데이터λ₯Ό κ΄€λ¦¬ν•˜κΈ° μœ„ν•΄ λ‹€μˆ˜μ˜ 기업듀이 DevOpsμ—μ„œ DataOps κ°œλ…μ„ μ μš©ν•΄ 였고 μžˆλ‹€. 데이터 κ΄€λ¦¬μ˜ μžλ™ν™”λ₯Ό 톡해 λ°μ΄ν„°μ˜ μ•ˆμ •μ„±κ³Ό μ„±λŠ₯을 κ°œμ„ ν•˜κ³  데이터 μ‚¬μΌλ‘œλ₯Ό 쀄이며 데이터 뢄석 속도λ₯Ό 높이고 였λ₯˜λŠ” κ°μ†Œμ‹œν‚€λŠ” ν”„λ‘œμ„ΈμŠ€λ₯Ό λ§ν•œλ‹€.

데이터 λ‹€μš΄ νƒ€μž„μ˜ μ¦κ°€λŠ” 데이터 자체λ₯Ό μˆ˜μ΅ν™”ν•˜κΈ° μœ„ν•΄ 데이터 정확도λ₯Ό λ†’μ΄λ €λŠ” μ‹œλ„κ°€ λ§Žμ•„μ§€κ³  μžˆλ‹€. 이에 λ”°λ₯Έ 데이터 λ‹€μš΄ νƒ€μž„μ„ μΌμœΌν‚€λŠ” μš”μ†ŒλŠ” μ•„λž˜μ™€ κ°™λ‹€.

  • ν΄λΌμš°λ“œ λ§ˆμ΄κ·Έλ ˆμ΄μ…˜ : κ³Όκ±°μ—λŠ” 데이터 μ›¨μ–΄ν•˜μš°μŠ€κ°€ 사무싀 μ–΄λ”˜κ°€μ— 물리적으둜 μ‘΄μž¬ν–ˆμœΌλ‚˜ ν˜„μž¬λŠ” AWS Redshift, Snowflake, Google Bigquery와 같은 μ†”λ£¨μ…˜μ„ 톡해 μ‚¬μš©μžκ°€ 더 쉽고 λΉ λ₯΄κ²Œ 데이터λ₯Ό μ²˜λ¦¬ν•  수 있게 λ˜λ©΄μ„œ ν΄λΌμš°λ“œλŠ” 더 큰 인기λ₯Ό κ°–κ²Œ λ˜μ—ˆλ‹€.
  • 더 λ§Žμ€ 데이터 μ†ŒμŠ€λ“€ : μ˜μ‚¬κ²°μ •μ— λ―ΈμΉ˜λŠ” μš”μ†Œλ₯Ό λͺ¨λ‘ λ°˜μ˜ν•˜κΈ° μœ„ν•΄ λ†“μΉ˜λ©΄ μ•ˆλ˜λŠ” μ†ŒμŠ€λ“€μ„ λ‹€ λ°˜μ˜ν•˜κΈ° μœ„ν•΄ λ§Žμ€ 데이터 μ†ŒμŠ€λ“€μ΄ ν•„μš”ν•˜κ²Œ λ˜μ—ˆλ‹€.
  • 데이터 νŒŒμ΄ν”„λΌμΈμ˜ λ³΅μž‘μ„± 증가 : μ„œλΉ„μŠ€κ°€ 고도화 됨에 따라 νŠΉμ • ν–‰μœ„μ— λŒ€ν•œ 데이터가 λ‹€λ₯Έ 데이터에 영ν–₯을 μ£ΌλŠ” 쒅속관계가 더 넓어지고 κΉŠμ–΄μ§€κ³  ν•œ μ–΄ν”Œλ¦¬μΌ€μ΄μ…˜μ˜ λ‹€μš΄νƒ€μž„μ΄ λ‹€λ₯Έ λ°μ΄ν„°μ˜ ν’ˆμ§ˆμ— 영ν–₯을 주게 λ˜μ—ˆλ‹€.
  • 데이터 쑰직의 μ „λ¬Έμ„± κ°•ν™” : 데이터 뢄석가와 데이터 μ—”μ§€λ‹ˆμ–΄, 데이터 κ³Όν•™μž λ‹€μ†Œ 업무 μ˜μ—­μ΄ κ²ΉμΉ˜μ§€λ§Œ 데이터 κ³Όν•™μžμ˜ 업무가 더 ν¬κ΄„μ μœΌλ‘œ 각각의 일을 κ³ λ„ν™”ν•˜λŠ” κ°œλ…μœΌλ‘œ μ‚¬μš©. μš°λ²„λŠ” 데이터 λΆ„μ„κ°€μ˜ 직함을 데이터 κ³Όν•™μžλ‘œ λͺ¨λ‘ λ°”κΎΈλ©΄μ„œ λͺ¨λ“  일을 고도화할 수 μžˆλŠ” 인재λ₯Ό μˆ˜μ§‘ν–ˆλ‹€. (μ˜μ—­μ„ λ‚˜λˆŒ 경우 λ‹€μš΄νƒ€μž„ 증가)
  • λΆ„μ‚°λœ 데이터 쑰직 : 200λͺ… νšŒμ‚¬μ—μ„œ 10λͺ…μ˜ 데이터 관리 쑰직이 각 λΆ€μ„œ λ³„λ‘œ 있고 보고 ν˜•μ‹μ„ 직접 μ •ν•œλ‹€λ©΄ μ‹œκ°„μ΄ 지남에 따라 데이터셋이 쀑볡 ν˜Ήμ€ λˆ„λ½λ˜κ±°λ‚˜ μƒμ΄ν•΄μ§€λŠ” ν˜„μƒμ΄ 생길 수 박에 μ—†λ‹€.

Ref)

SRE(Site Reliability Engineering) : μ‚¬μ΄νŠΈ μ‹ λ’°μ„± λ‹΄λ‹Ήμž
데이터 λ‹€μš΄νƒ€μž„(data downtime) : 데이터가 μˆ˜μ§‘λ˜μ§€ μ•Šμ•„ λˆ„λ½λ˜κ±°λ‚˜ λΆ€μ •ν™•ν•˜κ²Œ μΈ‘μ •λ˜λŠ” λ“±μ˜ 데이터 μ†μ‹€λ‘œ 인해 μ„œλΉ„μŠ€ 쀑지 λ˜λŠ” 상황 (**μ‹ λ’° ν•  수 μ—†λŠ” 데이터가 λ„ˆλ¬΄ λ§Žμ„ λ•Œ λ°œμƒ, bad data와 λ‹€λ₯Έ κ°œλ…)
데이터 μ—…νƒ€μž„ : μ„œλΉ„μŠ€κ°€ μ •μƒμ μœΌλ‘œ μˆ˜ν–‰λ˜λŠ” μ‹œκ°„
데이터 μŠ€νŠœμ–΄λ“œ : 데이터 κ΄€λ¦¬μžλŠ” 쑰직 λ‚΄μ—μ„œ 감독 λ˜λŠ” 데이터 κ±°λ²„λ„ŒμŠ€ 역할이며 ν•΄λ‹Ή 데이터 μžμ‚°μ— λŒ€ν•œ 메타데이터λ₯Ό ν¬ν•¨ν•˜μ—¬ 쑰직의 데이터 μžμ‚° λͺ©μ μ— λŒ€ν•œ ν’ˆμ§ˆκ³Ό 적합성을 보μž₯ν•˜λŠ” μ±…μž„
λ°˜μ‘ν˜•
λ‹€ν–ˆλ‹€