박사학위논문 주제를 '자동채점'으로 생각하고 있기 때문에 오늘은 국내의 자동채점 관련 선행연구 3편을 리뷰하는 시간을 가져보았습니다.
1. 장지현(2021). 머신 러닝 기법을 활용한 영어 에세이 자동채점 방안 연구. 서울대학교 대학원.
- 연구의 필요성
- 영어 에세이 자동 채점 관련 연구는 주로 ETS(Educational Testing Service) 등 평가연구기관 차원에서 연구가 수행되었으나, 일선 학교 등의 폭넓은 분야에서 활용되기 위해서는 관련하여 체계적이고 구체적인 연구가 필요함
- 연구문제
- 첫째, 영어 에세이 자동채점을 위한 모형의 특성 구성요소는 무엇인가?
- 둘째, 영어 에세이 데이터의 특징에 따라 피험자의 등급에 대한 자동채점 모형의 예측력은 어떻게 달라지는가?
- 셋째, 영어 에세이 등급의 범주 수에 따라 피험자의 등급에 대한 자동채점 모형의 예측력은 어떻게 달라지는가?
- 넷째, 영어 에세이 자동채점 모형에 투입한 채점 특성에 따라 피험자의 등급에 대한 예측력은 어떻게 달라지는가?
- 연구자료
- YELC(Yonsei English Learners' Corpus): 국내 대학 신입생이 작성한 영어 에세이(총 3,236건)
- ASAP(Automated Student Assessment Project): 미국 내 8학년 학생이 작성한 영어 에세이(1,783건)
- 연구결과
첫 번째 연구문제: 자동채점을 위한 모형의 특성 구성요소
- 단어-문장 수준: 어휘 다양성, 어휘 정교성, 문법적·기술적 오류
- 문단 이상: 글의 길이, 고득점 답안과의 유사도, 글의 수준
두 번째 연구문제: 데이터의 특징에 따라 예측력이 다르게 나타남
- YELC의 정확도: 0.41, ASAP의 정확도: 0.53
세 번째 연구문제: 채점 범주의 수가 적을수록 모델의 예측도가 높아짐
- YELC의 정확도: 7개범주 - 0.41, 2개 범주 - 0.75
- ASAP의 정확도: 8개범주 - 0.53, 2개 범주 - 0.82
네 번째 연구문제: 자동채점 모형에 투입한 채점 특성에 따라 예측력의 개선 정도는 낮으나, 예측력의 불균형이 해소됨
- 단어-문장 수준의 특성과 문단 이상 수준의 특성을 모두 투입하였을 떄 예측력의 개선 정도는 낮음
- 그러나 단어-문장 수준만 투입했을 때 예측에 실패했던 채점 범주가 문단 수준 이상 특성을 추가로 투입하면 예측력이 향상되는 등 채점 범주 간 예측력의 불균형 해소에 영향을 주는 것으로 나타남
- 연구의 의의
- 기존의 영어 에세이 자동채점의 경우 투입된 특성에 대하여 문법적 오류, 어휘 사용의 수준 등 특성의 분류나 내용에 대한 설명이 주로 이루어 졌으며, 구체적으로 그러한 특성이 텍스트 내에 어떻게 드러나는지에 대한 정보가 제한적이었으나 이와 같은 부분은 보완하였음. 그에 따라 추후 자동채점 모델 개발 방향에 대한 시사점을 제공함
- 문항 특징(특징이 다른 두 데이터), 채점 범주의 수, 채점 특성(단어-문장 수준과 문단 이상 수준)에 따른 예측력을 분석하여 자동채점 모형 개발 방향에 대한 시사점을 제공함
- 문항 특성에 따른 채점 특성의 중요도를 제시하여 추후 채점 특성의 개발에 대한 시사점을 제시함
- 에세이 데이터의 특성 추출 방법과 여러 상황을 고려한 자동 채점의 예측력을 구체적으로 제시함으로써 일선 학교나 대학 입학 전형 등과 같은 많은 분야에서 활용할 수 있는 기반을 제공하였다는 점에서 의의가 있음
- 제한점 및 제언
- 현재 수준으로 영어 에세이 자동채점 모형을 정교화하기 위해서는 3개 내외의 많지 않은 채점 범주 데이터를 사용할 필요가 있음
- 자동채점에 있어 고득점 답안과의 유사도를 활용할 수 있어 이 연구에서는 고득점 답안 1건을 다수의 에세이와 비교하였는데 다수의 고득점 답안 데이터를 활용할 경우 예측력 개선을 기대할 수 있음
- 랜덤 포레스트 외의 다른 머신러닝 기법을 적용하여 영어 에세이 자동채점에 적합한 머신 러닝 기법을 탐색하여 더욱 정교하게 발전시킬 필요가 있음
- 한국어, 중국어 등 다양한 언어 및 교과를 대상으로 자동채점 방안을 탐색하고 적용분야를 확장해나갈 필요가 있음
2. 이용상, 박강윤(2022). 충분한 데이터 확보가 힘든 상황에서 인공지능 서·논술형 평가 채점모델 구축 방안. 교육문화연구, 28(5), 25-42.
- 연구의 필요성
- 인공지능을 활용한 한국어 서답형 문항 자동채점 프로그램이 개발되기 위해서는 한국어 답안에 대한 충분한 학습이 선행되어야 함
- 그러나 현실적으로 인공지능 학습을 위한 대규모의 서·논술형 답안 확보가 어렵기 때문에 인공지능 채점모델의 성능을 높이는 데 한계가 존재함
- 따라서, 불충분한 데이터 상황에서도 서·논술형 답안 자동채점 모델 구축 방안을 모색할 필요가 있음
- 연구내용 및 방법
- 한국어 서·논술형 데이터가 불충분한 상황에서 사전에 정의된 채점자질의 사용 유무에 따른 채점 모델의 성능을 비교함(사전에 정의된 채점자질을 활용한 채점모델(랜덤 포레스트)과 채점자질 없이 사전에 학습된 언어모델을 활용한 채점모델(KoBERT)의 성능을 비교)
- EBS <당신의 문해력>에서 대학생 500명을 대상으로 수집한 한국어 에세이 데이터를 활용함
- 연구결과 및 제언
- 채점자질에 기반한 랜덤포레스트 모델이 KoBERT 기반 채점모델보다 우수한 성능을 보임
- BERT나 GPT 또는 네이버 하이버 클로바 등과 같은 언어모델을 이용한 데이터 증강을 통해 부족한 데이터를 확보하는 방안을 모색해볼 필요가 있음
3. 박종임 외(2022). 컴퓨터 기반 서·논술형 평가를 위한 자동채점 방안 설계. 한국교육과정평가원 연구보고 RRE 2022-6.
<연구요약>
- 선행연구 탐색을 통한 자동채점 연구의 범위 설정
- 자동채점 대상이 되는 언어를 한국어, 답안의 유형은 논술형(에세이)로 설정하였음
- 자동채점 시스템의 활용처를 대단위 한국어 글쓰기 능력 평가 또는 기초 문해력 진단 평가로 선정함
- 한국어 평가 상황을 고려한 자연어처리 및 말뭉치 구축 필요
- 교육영역에서는 학생의 글에서 오류가 있는 경우 이를 수정하여 맥락에 맞게 인식하는 것이 핵심이 아니라, 해당 오류를 있는 그대로 인식하여 무엇이 오류인지 찾아낼 수 있는 것이 핵심임
- 한국어 글쓰기 채점 자질 설계의 필요성
- 글의 점수에 영향을 미친다고 판단하는 글의 특성을 채점 자질이라고 하며, 한국어 글쓰기 자동채점 시스템을 구축하기 위해서는 어떠한 채점 자질을 활용할 것인가에 대한 연구가 선행되어야 함
- 2차년도 연구에서는 글쓰기 데이터를 활용하여 실제 채점 자질을 도출하고, 이들 채점 자질의 타당성을 통계적으로 검증하는 연구를 수행하고자 함
- 교육 목적 자동채점에 적합한 알고리즘 연구의 필요성
- 국외의 영어 글쓰기 자동채점 프로그램이 채점을 수행하는 알고리즘으로는 선형회귀분석, 잠재의미분석, 인공신경망이 존재하였음
- 최근에는 인공신경망을 활용한 딥러닝 방식이 가장 발전된 형태로 인식되었으나, 교육 목적으로는 채점의 근거가 분명해야 하고, 채점 결과에 대한 해석이 가능할 필요가 있어 인공신경망 기반의 알고리즘은 적합하지 않음
- 한국어 글쓰기 자동채점 시스템의 개발 단계별 활용 방안 모색 필요
- 한국어 글쓰기 자동채점 시스템을 가능한 빠른 시일 내에 도입하는 것이 중요하다면 잠재의미분석 또는 선형회귀분석에 기반을 둔 자동채점 알고리즘이 최선의 선택일 것임
- 인공신경망에 기반을 둔 한국어 자동채점 알고리즘은 텍스트의 임베딩 등과 같은 상대적으로 복잡한 한국어 자연어처리 기술이 필요할 뿐만 아니라 많은 양의 한국어 말뭉치 데이터가 필요하므로 상대적으로 개발 기간이 길어짐
'전공(측정평가) 논문' 카테고리의 다른 글
한국교육과정평가원 국가수준 학업성취도 평가의 컴퓨터 적응형 검사 이슈페이퍼 요약 (0) | 2024.07.28 |
---|---|
[논문 리뷰] 자동채점 관련 (0) | 2023.03.02 |
[보고서 리뷰] 컴퓨터 기반 서·논술형 평가를 위한 자동채점 방안 설계 (0) | 2023.03.01 |
[논문 리뷰] A self-Attentive model for Knowledge Tracing (0) | 2023.02.22 |
[논문리뷰] Deep Knowledge Tracing 논문요약 (0) | 2023.01.24 |