최신연구
[이근배/김형훈 교수] Can LLMs Estimate Cognitive Complexity of Reading Comprehension Items?
- 등록일2026.05.20
- 조회수324
-

교수이근배, 김형훈
[연구의 필요성]
Reading Comprehension(RC) 문항의 난이도를 사전에 추정하는 것은 적절한 학습 자료 제공과 균형 잡힌 평가 문항 구성을 위해 중요하다. 그러나 기존의 난이도 추정은 대개 시험 시행 후 학습자 응답을 바탕으로 하는 CTT나 IRT에 의존해, 문항 개발 단계에서의 사전 분석에는 한계가 있다. 대안으로 전문가 판단이 활용되지만 비용과 시간이 많이 들고 평가자 간 편차도 존재한다. 또 기존 NLP 기반 접근은 문장 길이, 어휘 친숙도, 의미 유사도 같은 표면적 특성은 다룰 수 있어도, 실제 정답 판단 과정에서 요구되는 인지적 부담은 충분히 포착하지 못한다. 이 논문은 RC 문항의 난이도를 설명하는 핵심 요인으로 Evidence Scope와 Transformation Level에 주목하며, 이러한 인지적 특성들이 기존 도구로 자동 추출하기 어려워 지금까지는 인간 주석에 의존해 왔다고 지적한다. 따라서 확장 가능하고 자동화된 방식으로 RC 문항의 인지적 복잡도를 측정할 수 있는 새로운 방법으로서 LLM의 활용 가능성을 탐색한다.
[포스텍이 가진 고유의 기술]
본 연구에서느 LLM이 RC 문항의 인지적 복잡도를 추정할 수 있는지 체계적으로 검증했다. 이를 위해 두 가지 인지 차원인 Evidence Scope와 Transformation Level을 정의하고, 해당 기준으로 776개의 RC 문항을 전문가가 직접 주석한 ReCo 벤치마크를 구축했다. Evidence Scope는 정답 판단에 필요한 근거가 단일 문장인지, 여러 문장인지, 혹은 근거가 불충분한지를 구분하며, Transformation Level은 근거 문장과 진술문 사이의 변형 정도를 word matching, paraphrasing, inference 등으로 세분화했다. GPT-4o를 포함한 8개의 instruction-tuned LLM을 대상으로 zero-shot, one-shot, few-shot, CoT, self-consistency 등 다양한 설정에서 실험하여, LLM이 인간의 인지적 판단을 어느 정도 근사할 수 있음을 보였으며, 특히 일부 오픈소스 모델(Qwen2.5-32B, Mistral-24B)은 특정 설정에서 GPT-4o와 비슷하거나 더 나은 성능을 보였다. 또한 단순한 정답 예측을 넘어, falsifiability judgment, evidence sentence counting, paraphrasing detection, phrase reordering detection 같은 세부 하위 과제를 통해 모델의 강점과 한계를 분석했다.
[연구의 의미]
이 연구는 RC 문항 난이도 분석을 단순한 표면 언어 특성이나 정답률 예측이 아니라, 문제 해결 과정에서 요구되는 인지적 복잡도를 중심으로 접근했다는 점에서 의미가 크다. 실험 결과 LLM은 Evidence Scope 분류에서 최고 Macro F1 74.8, 3-level Transformation Level 분류에서 최고 82.0을 기록해, 전문가 수준에는 못 미치지만 인지 복잡도 추정 도구로서 충분한 가능성을 보여주었다. 동시에 연구는 LLM이 정답은 맞히더라도 자신이 실제로 어떤 근거 문장을 사용했는지, 혹은 문장 재배열 같은 미세한 구조 변형을 제대로 인식하지 못하는 경우가 많다는 점도 밝혔다. 이는 향후 문항 난이도 추정, 난이도 제어형 문항 생성, 교육용 NLP 시스템의 해석 가능성 향상에 중요한 기반이 될 수 있다. 또한 일부 오픈소스 모델이 상용 모델에 필적하는 성능을 보였다는 점은, 교육 평가 분야에서 보다 접근 가능한 분석 도구 개발 가능성을 시사한다.
[연구결과의 진행 상태 및 향후 계획]
본 연구는 ACL 2026에서 발표될 예정이다.
[성과와 관련된 실적]
Seonjeong Hwang, Hyounghun Kim, Gary Geunbae Lee, Can LLMs Estimate Cognitive Complexity of Reading Comprehension Items?, ACL 2026
[성과와 관련된 이미지]






