본문 바로가기
전공(측정평가) 논문

[보고서 리뷰] 컴퓨터 기반 서·논술형 평가를 위한 자동채점 방안 설계

by 나연하야 2023. 3. 1.

오늘은 한국교육과정 평가원의 자동채점 보고서인 "박종임 외 (2022). 컴퓨터 기반 서·논술형 평가를 위한 자동채점 방안 설계(1)"를 읽고 리뷰하였다.

 

1. 서론 - 연구의 필요성

  • 2022 개정 교육과정 추진 계획에서는 미래 역량 함양을 최우선 과제로 삼았으며, 중학교에서는 미래 역량 함양을 위해 서·논술형 평가 확대를 교육과정 개선의 주요 과제로 제시하고 있음.
  • 오늘날의 교육은 단순히 교과의 지식 및 개념을 학습하는 것을 넘어 고차원적인 분석력과 문제해결력을 함양하는 것을 목표로 하고 있기 때문에 서·논술형 평가가 확대되고 있음.
  • 이와 같은 서·논술형 평가의 중요성이 대두되고 있음에도 불구하고 채점 결과의 신뢰도 문제, 채점에 필요한 인력, 시간, 비용 등의 현실적인 제한점이 존재함.
  • 즉, 서·논술형 평가를 적극적으로 활용하기 위해서는 채점 상의 문제를 해결하기 위한 노력이 필수적임.
  • 국외에서는 1960년대부터 자동채점 연구가 진행되었으며, PEG(Project Essay Grader), Intelligent Eassay Assessor(IEA), e-rater, IntellMetric 등 다양한 자동채점 시스템이 개발되어 상용화 되었음.
  • 그러나 한국어 대상으로 하는 국내 자동채점 연구는 아직 시작 단계임.

 

2. 자동채점의 개념 및 연구 동향

가. 자동채점의 개념

  • 국외의 경우 자동채점 대상 답안은 단답형과 에세이 두 가지로 유형화되어 있음.
  • 국외 영어권에서는 글쓰기와 같은 에세이 답안에 대한 채점의 어려움을 해결하고자 자동채점 연구가 시작되었으므로 단답형이 아닌 에세이형 자동채점 연구가 먼저 시작되었음.
  • 단답형 자동채점은 정답이 명확하기 때문에 정답과의 비교를 통해 채점이 이루어지므로 채점 결과에 대한 해석이 필요없고, 채점의 정확성이 매우 중요함.
  • 반면, 에세이형은 정답이 존재하는 것이 아니라 채점기준과 유사한 역할을 하는 채점 자질(feateure)과 점수와의 관련성에 근거하여 채점 모델이 만들어지고, 이를 활용하여 새로운 글에 대한 점수를 예측하는 방식으로 채점이 이루어짐.

 

나. 자동채점 연구의 흐름

  • 최근에는 딥러닝 기술을 적용한 자동채점 연구가 수행되고 있음.
  • 대표적으로 Shin & Gierl(2021)은 글쓰기 자동채점 과제에 기계학습 기술을 적용하는 경우와 딥러닝 기술을 적용하는 경우의 성능을 비교하였음. 이 연구에서는 Hewlett Foundataion이 주관한 ASAP(Automated Student Assessment Proze) 데이터셋을 활용하였으며, Coh-Metrix와 서포트 벡터 머신(SVM) 알고리즘을 활용한 경우와 CNN(Convolutional Neural Network) 기반의 알고리즘을 활용한 경우 자동채점의 성능을 비교하였음.
  • Mayfield & Black(2020)은 구글에서 개발한 딥러닝 기반의 BERT 모델의 활용이 기존 머신러닝 기술의 적용에 비해 실효성이 있는 접근인지를 검증하였음. 연구결과, 단순히 맞고 틀림 또는 오류를 확인하는 과제에서는 비효율적일 수 있으나, 문체나 어조 등의 내용적 평가 측면에서 효과적인 성능을 나타낼 가능성이 있음을 보였음.

 

다. 국내 자동채점 시스템 개발 사례

  • 진경애 외(2006~2008)에서는 영작문 자동채점 프로그램 프로토타입 개발 및 한국어 자동채점 프로그램 개발 가능성을 탐색함.
  • 시기자 외(2012~2013)는 국가영어능력평가시험 쓰기 2급 평가에 자동채점 프로그램을 개발하고자 함.
  • 노은희 외(2012~2016)는 한국어 서답형 자동채점 프로그램을 개발하였으며, 고부담 시험 상황에서는 채점의 신뢰도 제고를 위해 복수 채점과 재채점 과정을 거칠 필요가 있다는 결론을 제시하였음.

 

라. 국외 자동채점 시스템 개발 사례

 

1) PEG(Project Essay Grade)

  • PEG는 최초의 에세이 자동채점 프로그램으로 학생 에세이에 관한 피드백을 교사에게 제공하며, 여기에 교사가 피드백을 추가할 수 있음(Shermis et al., 2015). 학생들이 쓰기 답안을 제출하면 주제와 관련한 아이디어의 전개, 내용의 논리적 구성, 문체, 문장 구조, 단어 선택 및 문법과 같은 측면에 대한 피드백과 함께 점수가 제공됨.
  • 또한 PEG는 단어의 비율, 평균 문장 길이, 주어-서술어의 위치, 문단의 수 등을 이용하여 인간 채점자의 점수에 대한 상관분석과 회귀분석을 통해 회귀계수값을 구하고 이를 이용해 점수를 예측함

2) e-rater

  • e-rater 시스템은 높은 점수를 받은 에세이를 분석하여 여러 자질을 찾고, 이 중 인간 채점자가 주요하게 반영하는 자질을 파악하여 인간 채점자와 동일하게 채점하는 것을 구현함(Attali & Burstein, 2005).
  • Bridgeman(2004)는 인간 채점자의 평가 활동을 보조하는 수단으로 e-rater 시스템을 활용하는 방법을 제시하였으며, 시스템의 채점 점수와 인간 채점자A의 채점 점수를 비교하여 차이가 없으면 최종 점수로 확정하고, 채점 결과 간 편차가 기준 값보다 클 경우 인간 채점자 B의 채점 결과를 참고하여 최종 채점하는 방식임.

 

3) IntelliMetric

  • 인간 채점자의 수준에 도달한 최초의 인공지능 기반 에세이 자동채점 시스템이며, 해당 시스템을 활용하여 My Access!라는 웹버전 프로그램을 통해 ETS의 Criterion과 같이 쓰기 교수·학습에 활용할 수 있는 프로그램을 제공함.
  • My Access!는 학생이 작성한 에세이에 10초 안에 채점하고 즉각적인 피드백을 제공하여 효과적인 교수·학습 자료로 활용할 수 있음.
  • 에세이의 내용 평가에는 자연어 처리 기술인 CogniSearch라는 프로그램을 적용하여 개념이나 주제의 일관성, 통사적 관련성, 수사적 특성 외에도 어휘들의 네트워크 특성과 유사어 개념 등을 분석함.
  • Quantum Reasoning이라는 프로그램을 사용하여 다양한 통계적 분석을 바탕으로 답안을 분류하며, Vantage Learning은 두 명의 인간 채점자보다 IntelliMetric 시스템과 인간 채점자의 채점 일치도가 더 높다고 하였음(Elliot, 2003).

 

4) IEA

  • Pearson Knowledge Technologies 엔진을 이용하여 개발된 에세이 자동채점 시스템이며, 잠재 의미 분석기법을 사용하여 에세이의 내용을 평가한다는 점에서 기존 에세이 자동채점 프로그램과 차별화됨.
  • 잠재의미 분석 기법은 텍스트 정보 간의 의미론적 유사성을 비교할 수 있는 단어 사용의 통계적 모델을 의미하며, 주제에서 벗아난 답안 등 인간의 확인이 필요한 경우를 알려주는 기능도 있음.
  • IEA 시스템은 언어의 형식이 아닌 내용에 대한 평가에 더 중점을 두지만 문법 및 구두점 등 형식적 측면에 대한 피드백도 함께 제공함.

 

5) BETSY(Bayesian Essay Test Scoring system)

  • BETST는 베이지안 이론을 이용하여 텍스트를 분류하는 시스템으로 표면적 특성(에세이의 총 단어 수, 쉼표의 수, 평균 문장길이, 동사의 수, 관사의 수 등)과 내용적 특성(관용어구, 특정 내용을 의미하는 단어의 빈도, 특정 개념이 소개되는 순서나 특정 면사-동사 등과 같이 언어 조합)을 분석하여 답안을 점수대별로 분류함.

 

마. 선행연구 분석을 통한 시사점

  • 국외 자동채점 연구의 경우 연구 초기부터 현재까지 글의 채점 자질을 탐색하는 연구가 이루어졌으나, 우리나라의 경우 글의 채점 자질을 설계하는 연구가 전무함. 이에 채점 자질에 대해서 중요하게 살펴볼 필요가 있음.

 

3. 자동채점을 위한 자연어처리 기술 및 말뭉치 개발 방향 - 참고할 필요가 있는 선행연구 및 문구 위주로 정리함.

  • 김철희 외(2021)는 국내에 사용되는 여러 형태소 분석기의 분석 결과를 제시하였으며, 세종 품사의 특징 및 부족한 점, 규칙 기반 형태소 분석의 한계 등을 언급하며 교육적 상황을 위한 형태소 분석기의 개선이 필요함을 언급하였음.
  • 교육 영역에서는 학생이 글을 쓸 때, 시제나 높임 표현에서 오류를 포함한 경우 이를 수정하여 맥락에 맞게 인식하는 것이 아니라 해당 오류를 있는 그대로 인식하여 무엇이 오류인지 찾아낼 수 있어야 함.
  • 국외의 경우 교과 특성을 반영한 말뭉치를 활용하는 사례가 존재하며, 대표적으로 M-BERT임. 이 모델의 경우 BERT 언어 모델에 수학적 표현(수학 용어, 수식, 기호 등)에 관한 말뭉치를 이용하여 추가 기계학습을 적용한 언어모델임(Shen et al, 2021; Zhang et al, 2022).

 

4. 자동채점을 위한 채점 자질 설계 및 데이터셋 구축 방향 - 참고할 필요가 있는 선행연구 및 문구 위주로 정리함.

 

  • 연구자가 설정한 채점 자질은 자동채점의 알고리즘의 학습과 수행 결과에 큰 영향을 미치기 때문에 어떠한 채점 자질을 선택하고 활용할지 설계하는 것은 에세이 자동채점 시스템 모델의 설계에 있어 매우 중요한 과정임(Taghipour & Ng, 2016; Zhao et al., 2017).
  • 학습용 데이터에서 특정 점수나 수준의 텍스트에서 특정 채점 자질이 어떤 패턴으로 나타나는지 학습하게 됨.
  • 딥러닝을 이용한 자동채점은 예측력을 높이는 측면에서는 장점이 있으나, 채점 과정에서 블랙박스와 같은 은닉층을 활용하기 떄문에 어떠한 채점 자질이 채점에 영향을 미쳤는지 확인하는 것이 불가능하고, 이에 자동채점 결과를 교육적 해석과 피드백에 활용하는 것에 제한이 있음.
  • Ke & Ng(2019)에 따르면 채점자질 기반의 접근은 인공신경망 기반의 접근과 경쟁적으로 접근되기 보다는 보완적으로 활용되어야 함.
  • BETSY는 에세이 각 수준별로 특정 단어가 포함될 확률 분포를 분석하고, 이를 근거로 에세이에 등급을 부여하는 방식이 활용됨.
  • Dasgupta et al.(2018)은 인간이 채점 자질을 추출하는 방식과 딥러닝 방식을 모두 이용한 하이브리드 방법을 제안하였으며, 딥러닝 기반의 접근은 주어진 데이터셋 내에서의 패터만 활용하며, 인간이 직접 선정한 채점 자질은 이미 존재하는 유의미한 채점 자질을 포함할 수 있으므로 주어진 데이터셋에서 파악하기 어려운 자질까지도 활용할 수 있게 됨.
  • 채점 루브릭은 능력을 진단하거나 분류하는 주요한 평가의 자지을 도출하는 데 기반이 됨.

 

5. 자동채점 시스템의 채점 알고리즘 개발 방향 - 참고할 필요가 있는 선행연구 및 문구 위주로 정리함.

  • Alikaniotis et al.(2016)은 인공신경망을 에세이 자동채점 문제에 활용하기 위해 일반적인 워드임베딩에 에세이 점수를 통합한 점수-구체적인 워드임베딩을 만들었음.
  • 국외 자동채점 알고리즘을 한국어 글쓰기 평가에 그대로 적용하였을 때 글쓰기 언어의 차이 또는 자연어처리 수주의 차이로 인해 국외의 선행연구에서 보여준 자동채점 알고리즘의 성능이 다르게 나타날 가능성이 있음.
  • 인간 채점자 2인이 독립적으로 답안을 채점하는 기존의 채점 방식에서 기계채점을 활용하는 방법은 인간 채점자 2인을 기계채점으로 완전히 대체, 인간 채점자 2인 중 1인을 대체, 인간 채점자 2인을 그대로 둔 채 기계채점 추가 정도로 나누어 생각해 볼 수 있음.