최신연구

[이근배 교수] K-COMP: Retrieval-Augmented Medical Domain Question Answering With Knowledge-Injected Compressor

2025-03-04
  • 101

[연구의 필요성]
기존의 RAG 시스템은 폐쇄 도메인에서 전문 지식을 포함한 긴 문서를 검색하지만, LLM이 이를 신뢰하지 못하고 환각(hallucination) 문제를 일으킬 수 있다. 또한, 질문과 무관한 정보가 포함되어 모델이 중요한 내용을 인식하지 못할 가능성이 크다. 이를 해결하기 위해, 질문에 필요한 사전 지식을 생성하고 문서 압축 과정에서 반영하는 새로운 접근이 필요하다.

[포스텍이 가진 고유의 기술]
본 연구는 LLM을 지식 기반 압축기 (knowledge-injected compressor) 로 활용하여, 검색된 문서에서 질문과의 관련성이 높은 정보를 선별 및 요약하고, 도메인 지식을 주입하는 방식으로 신뢰도를 향상시키는 방법을 제안한다. 이를 위해 폐쇄 도메인에 등장하는 엔티티가 마스킹된 질문을 decoder-only model이 인식하고, auto-regressive 방식으로 엔티티에 관련된 간단한 지식을 생성하여 쿼리에서의 의도를 인코딩한다. 이를 바탕으로, causal knowledge injection의 기법을 활용하여, 모델이 핵심 정보를 효과적으로 내재화하고 도메인 관련 지식을 풍부하게 포함하는 요약문을 생성하도록 유도한다. 이러한 지식 증강 과정을 통해 검색된 문서와 질문 간의 정렬성을 높이고, 최종적으로 답변의 정확성을 향상시키는 것을 목표로 한다.

[연구의 의미]
본 연구는 폐쇄 도메인에서 검색된 문서를 효과적으로 활용할 수 있는 새로운 RAG 접근법을 제안하며, 의료 도메인 실험을 통해 연구의 성능 향상을 검증하였습니다. 또한, 데이터가 부족한 환경에서도 강건한 성능을 보이며, 법률·과학·금융 등 다양한 도메인에 적용할 가능성을 제시합니다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 자연어처리 분야 최우수 국제학술대회인 NAACL2025에 소개될 예정이다. 추후에는 의료 도메인 뿐만 아니라, 다른 closed-domain setting에서도 해당 방법론을 확장할 방법을 모색하려고 한다.

[성과와 관련된 실적]
Jeonghun Cho, Gary Geunbae Lee, NAACL 2025

[성과와 관련된 이미지]

목록