[OWASP-LLM] Top 10 List for Large Language Models version 0.1 - (7) Inadequate AI Alignment
Β·
πŸƒ Routine
LLM07:2023 λΆˆμΆ©λΆ„ν•œ AI μ‘°μ • μ„€λͺ…: λΆˆμΆ©λΆ„ν•œ AI 정렬은 LLM의 λͺ©ν‘œμ™€ 행동이 μ˜λ„ν•œ μ‚¬μš© 사둀와 μΌμΉ˜ν•˜μ§€ μ•Šμ•„ μ›ν•˜μ§€ μ•ŠλŠ” κ²°κ³Όλ‚˜ 취약점이 λ°œμƒν•˜λŠ” κ²½μš°μž…λ‹ˆλ‹€. 일반적인 AI μ •λ ¬ 문제: λͺ©ν‘œκ°€ λͺ…ν™•νžˆ μ •μ˜λ˜μ§€ μ•Šμ•„ LLM이 μ›ν•˜μ§€ μ•Šκ±°λ‚˜ μœ ν•΄ν•œ 행동을 μš°μ„ μ‹œν•˜λŠ” 경우 μ •λ ¬λ˜μ§€ μ•Šμ€ 보상 ν•¨μˆ˜ λ˜λŠ” ν›ˆλ ¨ λ°μ΄ν„°λ‘œ 인해 μ˜λ„ν•˜μ§€ μ•Šμ€ λͺ¨λΈ 행동이 λ°œμƒν•˜λŠ” 경우 λ‹€μ–‘ν•œ λ§₯락과 μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ LLM의 행동을 μΆ©λΆ„νžˆ ν…ŒμŠ€νŠΈν•˜κ³  κ²€μ¦ν•˜μ§€ μ•Šμ€ 경우 예방 방법: LLM의 λͺ©ν‘œμ™€ μ˜λ„λœ 행동을 섀계 및 개발 κ³Όμ • 쀑에 λͺ…ν™•νžˆ μ •μ˜ν•©λ‹ˆλ‹€. 보상 ν•¨μˆ˜μ™€ ν›ˆλ ¨ 데이터가 μ›ν•˜λŠ” 결과와 μΌμΉ˜ν•˜λ©° μ›ν•˜μ§€ μ•Šκ±°λ‚˜ μœ ν•΄ν•œ 행동을 μœ λ°œν•˜μ§€ μ•Šλ„λ‘ 보μž₯ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ μ‹œλ‚˜λ¦¬μ˜€, μž…λ ₯ 및 λ§₯λ½μ—μ„œ LLM의 행동을 μ •λ ¬ 문제..
λ‹€ν–ˆλ‹€
'Inadequate AI Alignment' νƒœκ·Έμ˜ κΈ€ λͺ©λ‘