LLM 서비스 운영에서 흔한 장애 7가지와 예방책
- 작성자
- 최고관리자
- 등록일
- 2025-12-24
- 첨부파일
본문
LLM 서비스 운영 장애는 기능보다 데이터/권한/관측에서 자주 발생합니다.
-
응답 지연: 토큰 과다/컨텍스트 과대 → 요약/캐싱/최대 토큰 제한
-
환각 증가: 근거 없는 생성 → 출처 기반 답변 + 근거 없으면 답변 거절
-
비용 폭증: 대화 길이 누적 → 대화 메모리 전략(요약 저장) 적용
-
권한 유출: 내부 문서 노출 → 문서 ACL 기반 검색 필터링
-
로그 누락: 재현 불가 → 프롬프트/검색결과/토큰/지연시간 표준 로깅
-
품질 변동: 모델 업데이트 영향 → 회귀 테스트 + 버전 고정/롤백
-
데이터 품질: 문서 추출 오류 → 전처리 품질 점검(표/이미지/머리글)