728x90
반응형
LLM10:2023 Training Data Poisoning
설명:
훈련 데이터 독점은 공격자가 LLM의 training이나 fine-tunning을 조작해 모델의 보안, 효과성 또는 윤리적 행동을 저해할 수 있는 취약점, 후문, 편향을 도입하는 것입니다.
일반적인 훈련 데이터 독점 문제:
- LLM에 악의적으로 조작된 훈련 데이터를 통해 후문이나 취약점 도입
- LLM에 편향을 주입하여 편향적이거나 부적절한 응답을 생성
- 세세한 조정 과정을 이용하여 LLM의 보안이나 효과성을 침해
예방 방법:
- 신뢰할 수 있는 출처에서 훈련 데이터를 얻고 품질을 검증하여 훈련 데이터의 무결성을 보장
- 잠재적인 취약점이나 편향을 훈련 데이터에서 제거하기 위해 견고한 데이터 정제 및 전처리 기법 구현
- LLM의 훈련 데이터와 세세한 조정 절차를 정기적으로 검토하고 감사하여 잠재적인 문제나 악의적 조작을 감지
- LLM의 비정상적인 동작이나 성능 문제를 감지하는 모니터링 및 경고 메커니즘 활용
예시 공격 시나리오:
- 시나리오 #1: 공격자가 훈련 데이터 파이프라인에 침투하여 악성 데이터를 주입하여 LLM이 유해하거나 부적절한 응답을 생성하도록 함.
- 시나리오 #2: 악의적인 내부자가 세세한 조정 과정을 침해하여 LLM에 취약점이나 후문을 도입하고 나중에 악용 가능.
훈련 데이터의 무결성을 보장하고 견고한 데이터 정제 기법을 구현하며 LLM의 훈련 및 세세한 조정 과정을 정기적으로 감사함으로써 개발자는 훈련 데이터 독점의 위험을 최소화하고 LLM을 잠재적인 취약점으로부터 보호할 수 있습니다.
반응형