LLM 서비스 운영에서 흔한 장애 7가지와 예방책

작성자
최고관리자
등록일
2025-12-24
첨부파일

본문

LLM 서비스 운영 장애는 기능보다 데이터/권한/관측에서 자주 발생합니다.

  1. 응답 지연: 토큰 과다/컨텍스트 과대 → 요약/캐싱/최대 토큰 제한

  2. 환각 증가: 근거 없는 생성 → 출처 기반 답변 + 근거 없으면 답변 거절

  3. 비용 폭증: 대화 길이 누적 → 대화 메모리 전략(요약 저장) 적용

  4. 권한 유출: 내부 문서 노출 → 문서 ACL 기반 검색 필터링

  5. 로그 누락: 재현 불가 → 프롬프트/검색결과/토큰/지연시간 표준 로깅

  6. 품질 변동: 모델 업데이트 영향 → 회귀 테스트 + 버전 고정/롤백

  7. 데이터 품질: 문서 추출 오류 → 전처리 품질 점검(표/이미지/머리글)