728x90

LLM01:2023 ν”„λ‘¬ν”„νŠΈ μΈμ μ…˜

μ„€λͺ…:
ν”„λ‘¬ν”„νŠΈ μΈμ μ…˜μ€ ν•„ν„°λ₯Ό μš°νšŒν•˜κ±°λ‚˜ LLM을 μ‘°μž‘ν•˜μ—¬ λͺ¨λΈμ΄ 이전 λͺ…령을 λ¬΄μ‹œν•˜κ±°λ‚˜ μ˜λ„ν•˜μ§€ μ•Šμ€ λ™μž‘μ„ μˆ˜ν–‰ν•˜λ„λ‘ ν•˜λŠ” μ„€κ³„λœ ν”„λ‘¬ν”„νŠΈλ₯Ό μ‚¬μš©ν•˜λŠ” 것을 λ§ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 취약점은 데이터 유좜, 무단 μ ‘κ·Ό λ˜λŠ” λ‹€λ₯Έ λ³΄μ•ˆ 침해와 같은 μ˜λ„ν•˜μ§€ μ•Šμ€ κ²°κ³Όλ₯Ό μ΄ˆλž˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

일반적인 ν”„λ‘¬ν”„νŠΈ μΈμ μ…˜ 취약점:

  • LLM을 μ‘°μž‘ν•˜μ—¬ λ―Όκ°ν•œ 정보λ₯Ό λ…ΈμΆœμ‹œν‚€λŠ” ν”„λ‘¬ν”„νŠΈλ₯Ό μž‘μ„±ν•˜λŠ” 것.
  • νŠΉμ • μ–Έμ–΄ νŒ¨ν„΄μ΄λ‚˜ 토큰을 μ‚¬μš©ν•˜μ—¬ ν•„ν„°λ‚˜ μ œν•œμ„ μš°νšŒν•˜λŠ” 것.
  • LLM의 토큰화 λ˜λŠ” 인코딩 λ©”μ»€λ‹ˆμ¦˜μ˜ 취약점을 μ΄μš©ν•˜λŠ” 것.
  • 잘λͺ»λœ λ¬Έλ§₯을 μ œκ³΅ν•˜μ—¬ LLM이 μ˜λ„ν•˜μ§€ μ•Šμ€ λ™μž‘μ„ μˆ˜ν–‰ν•˜λ„λ‘ ν•˜λŠ” 것.

예방 방법:

  • μ‚¬μš©μžκ°€ μ œκ³΅ν•˜λŠ” ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•΄ μ—„κ²©ν•œ μž…λ ₯ μœ νš¨μ„± 검사λ₯Ό κ΅¬ν˜„ν•©λ‹ˆλ‹€.
  • λ¬Έλ§₯에 따라 인지 필터링과 좜λ ₯ 인코딩을 μ‚¬μš©ν•˜μ—¬ ν”„λ‘¬ν”„νŠΈ μ‘°μž‘μ„ λ°©μ§€ν•©λ‹ˆλ‹€.
  • μ•…μ˜μ μΈ μž…λ ₯κ³Ό 극단적인 κ²½μš°μ— λŒ€ν•œ LLM의 이해λ₯Ό κ°œμ„ ν•˜κΈ° μœ„ν•΄ μ •κΈ°μ μœΌλ‘œ LLM을 μ—…λ°μ΄νŠΈν•˜κ³  μ„ΈλΆ€ μ‘°μ •ν•©λ‹ˆλ‹€.
  • LLM μƒν˜Έμž‘μš©μ„ λͺ¨λ‹ˆν„°λ§ν•˜κ³  둜그λ₯Ό κΈ°λ‘ν•˜μ—¬ ν”„λ‘¬ν”„νŠΈ μΈμ μ…˜ μ‹œλ„λ₯Ό κ°μ§€ν•˜κ³  λΆ„μ„ν•©λ‹ˆλ‹€.

μ˜ˆμ‹œ 곡격 μ‹œλ‚˜λ¦¬μ˜€: μ‹œλ‚˜λ¦¬μ˜€ #1: κ³΅κ²©μžκ°€ LLM을 속여 μ‚¬μš©μž 자격 증λͺ…μ΄λ‚˜ λ‚΄λΆ€ μ‹œμŠ€ν…œ μ„ΈλΆ€ 정보와 같은 λ―Όκ°ν•œ 정보λ₯Ό λ…ΈμΆœμ‹œν‚€λŠ” ν”„λ‘¬ν”„νŠΈλ₯Ό μž‘μ„±ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ λͺ¨λΈμ€ ν•΄λ‹Ή μš”μ²­μ΄ μ •λ‹Ήν•œ κ²ƒμœΌλ‘œ μƒκ°ν•˜λ„λ‘ ν•©λ‹ˆλ‹€.

μ‹œλ‚˜λ¦¬μ˜€ #2: μ•…μ˜μ μΈ μ‚¬μš©μžκ°€ LLM이 μ œν•œλœ μ½˜ν…μΈ λ‘œ μΈμ‹ν•˜μ§€ λͺ»ν•˜λŠ” νŠΉμ • μ–Έμ–΄ νŒ¨ν„΄, 토큰 λ˜λŠ” 인코딩 λ©”μ»€λ‹ˆμ¦˜μ„ μ‚¬μš©ν•˜μ—¬ μ½˜ν…μΈ  ν•„ν„°λ₯Ό μš°νšŒν•©λ‹ˆλ‹€. 이둜써 μ‚¬μš©μžλŠ” μ°¨λ‹¨λ˜μ–΄μ•Ό ν•  λ™μž‘μ„ μˆ˜ν–‰ν•  수 있게 λ©λ‹ˆλ‹€.

 

 

https://cmte.ieee.org/futuredirections/2023/04/07/a-new-threat-indirect-prompt-injection/

 

λ°˜μ‘ν˜•
λ‹€ν–ˆλ‹€