728x90

LLM07:2023 λΆˆμΆ©λΆ„ν•œ AI μ‘°μ •

μ„€λͺ…: λΆˆμΆ©λΆ„ν•œ AI 정렬은 LLM의 λͺ©ν‘œμ™€ 행동이 μ˜λ„ν•œ μ‚¬μš© 사둀와 μΌμΉ˜ν•˜μ§€ μ•Šμ•„ μ›ν•˜μ§€ μ•ŠλŠ” κ²°κ³Όλ‚˜ 취약점이 λ°œμƒν•˜λŠ” κ²½μš°μž…λ‹ˆλ‹€.

일반적인 AI μ •λ ¬ 문제:

  • λͺ©ν‘œκ°€ λͺ…ν™•νžˆ μ •μ˜λ˜μ§€ μ•Šμ•„ LLM이 μ›ν•˜μ§€ μ•Šκ±°λ‚˜ μœ ν•΄ν•œ 행동을 μš°μ„ μ‹œν•˜λŠ” 경우
  • μ •λ ¬λ˜μ§€ μ•Šμ€ 보상 ν•¨μˆ˜ λ˜λŠ” ν›ˆλ ¨ λ°μ΄ν„°λ‘œ 인해 μ˜λ„ν•˜μ§€ μ•Šμ€ λͺ¨λΈ 행동이 λ°œμƒν•˜λŠ” 경우
  • λ‹€μ–‘ν•œ λ§₯락과 μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ LLM의 행동을 μΆ©λΆ„νžˆ ν…ŒμŠ€νŠΈν•˜κ³  κ²€μ¦ν•˜μ§€ μ•Šμ€ 경우

예방 방법:

  • LLM의 λͺ©ν‘œμ™€ μ˜λ„λœ 행동을 섀계 및 개발 κ³Όμ • 쀑에 λͺ…ν™•νžˆ μ •μ˜ν•©λ‹ˆλ‹€.
  • 보상 ν•¨μˆ˜μ™€ ν›ˆλ ¨ 데이터가 μ›ν•˜λŠ” 결과와 μΌμΉ˜ν•˜λ©° μ›ν•˜μ§€ μ•Šκ±°λ‚˜ μœ ν•΄ν•œ 행동을 μœ λ°œν•˜μ§€ μ•Šλ„λ‘ 보μž₯ν•©λ‹ˆλ‹€.
  • λ‹€μ–‘ν•œ μ‹œλ‚˜λ¦¬μ˜€, μž…λ ₯ 및 λ§₯λ½μ—μ„œ LLM의 행동을 μ •λ ¬ 문제λ₯Ό μ‹λ³„ν•˜κ³  ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ •κΈ°μ μœΌλ‘œ ν…ŒμŠ€νŠΈν•˜κ³  κ²€μ¦ν•©λ‹ˆλ‹€.
  • μ§€μ†μ μœΌλ‘œ LLM의 μ„±λŠ₯κ³Ό 정렬을 ν‰κ°€ν•˜κ³  ν•„μš”ν•œ 경우 λͺ¨λΈμ„ μ—…λ°μ΄νŠΈν•˜κΈ° μœ„ν•΄ λͺ¨λ‹ˆν„°λ§ 및 ν”Όλ“œλ°± λ©”μ»€λ‹ˆμ¦˜μ„ κ΅¬ν˜„ν•©λ‹ˆλ‹€.

μ˜ˆμ‹œ 곡격 μ‹œλ‚˜λ¦¬μ˜€:

  • μ‹œλ‚˜λ¦¬μ˜€ 1: μ‚¬μš©μž 참여도λ₯Ό μ΅œμ ν™”ν•˜κΈ° μœ„ν•΄ ν›ˆλ ¨λœ LLM이 μ˜λ„μΉ˜ μ•Šκ²Œ λ…Όλž€μ΄λ‚˜ 극단적인 μ½˜ν…μΈ λ₯Ό μš°μ„ μ‹œν•˜μ—¬ 잘λͺ»λœ μ •λ³΄λ‚˜ μœ ν•΄ν•œ μ½˜ν…μΈ μ˜ 확산을 μ΄ˆλž˜ν•˜λŠ” 경우
  • μ‹œλ‚˜λ¦¬μ˜€ 2: μ‹œμŠ€ν…œ 관리 μž‘μ—…μ„ μ§€μ›ν•˜κΈ° μœ„ν•΄ μ„€κ³„λœ LLM이 μ •λ ¬λ˜μ§€ μ•Šμ•„ μœ ν•΄ν•œ λͺ…령을 μ‹€ν–‰ν•˜κ±°λ‚˜ μ‹œμŠ€ν…œ μ„±λŠ₯μ΄λ‚˜ λ³΄μ•ˆμ„ μ €ν•˜μ‹œν‚€λŠ” 행동을 μš°μ„ μ‹œν•˜λŠ” 경우

AI 정렬에 μ§‘μ€‘ν•˜κ³  LLM의 λͺ©ν‘œμ™€ 행동이 μ˜λ„ν•œ μ‚¬μš© 사둀와 μΌμΉ˜ν•˜λ„λ‘ 보μž₯ν•¨μœΌλ‘œμ¨ κ°œλ°œμžλŠ” LLM κ΅¬ν˜„μ—μ„œ μ˜λ„ν•˜μ§€ μ•Šμ€ 결과와 μ·¨μ•½μ μ˜ μœ„ν—˜μ„ 쀄일 수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

Inadequate AI Alignment

 

 

 

λ°˜μ‘ν˜•
λ‹€ν–ˆλ‹€