본문 바로가기
전공(측정평가) 논문

한국교육과정평가원 국가수준 학업성취도 평가의 컴퓨터 적응형 검사 이슈페이퍼 요약

by 나연하야 2024. 7. 28.

구남욱, 김미림, 이소라, 곽민호(2021). 국가수준 학업성취도 평가의 컴퓨터 적응형 검사 도입 방안 연구. 한국교육과정평가원, 연구자료 ORM 2021-40-22.

 

1. 배경

CBT 학업성취도 평가 도입

  • 국가수준 학업성취도 평가는 2015 개정 교육과정을 적용하여 교과내용과 교과역량을 종합적으로 측정하는 새로운 문항을 도입
  • 지필평가에서는 측정하기 어려운 교과역량 및 학생의 문제해결 과정에 대한 정보를 수집하기 위하여 컴퓨터 기반 평가 체제의 도입을 준비

학업성취도 평가에서 MST의 도입

  • 2022년에 전면 도입될 예정인 CBT 학업성취도 평가는 선형 검사(문항의 순서가 고정된 검사)
  • 적응형 검사는 학생 능력에 적합한 문항이나 문항군을 제공하는 검사
    • 선형 검사는 학생들 중 중간 수준 능력을 가장 정확하게 추정 / 적응형 검사는 최상, 최하 능력도 비교적 정확하게 추정
    • 학생의 검사 수행 동기 유지

 

2. MST 선행연구 및 모의실험 결과

MST 관련 선행 연구

  • MST 도입 시, 단계 수, 단계별 소검사 수, 소검사 배정 방식(라우팅 방식)을 고려해야 함
  • 서민희 외(2020, p156~p168)는 2단계와 3단계를 비교한 결과, 학생 능력 추정의 정확성은 비슷하게 나타났으나, 학생의 최적 경로와 관찰 경로 간 일치율과 관련해서는 3단계 MST의 일치율이 가장 높게 나타났으며, 학생의 능력에 맞는 소검사가 가장 잘 배정되었음

MST 라우팅 방식 관련 선행연구

  • 라우팅은 MST에서 개별 학생에게 전 단계의 검사 수행 결과를 활용하여 소검사를 배정하는 과정을 의미
  • Zenisky와 Hambleton(2014, pp. 32-34)은 라우팅 방식을 두 개의 차원을 사용하여 구분
    • 첫 번째 차원은 규준 참조 라우팅과 준거 참조 라우팅: 규준 참조 라우팅은 학생의 상대적 위치를 사용하여 소검사를 배정하는 방식, 준거 참조 라우팅은 학생의 능력에 가장 적합한 소검사를 배정하는 방식
    • 두 번쨰 차원은 정보 기반 라우팅 대 총점 라우팅: 정보 기반 라우팅은 IRT를 사용하여 학생의 능력을 추정하고 이 정보를 사용하여 소검사를 배정하는 방식, 총점 라우팅은 소검사별로 단순 합산된 학생의 총점을 활용하여 소검사를 배정
  • Dallas(2014)의 연구 결과
    • 모든 조건에서 준거 참조 라우팅이 훨씬 더 정확
    • 정보 기반 라우팅은 총점 라우팅보다 약간 더 나은 결과를 보였음
  • Kim 외(2013)
    • 규준 참조 라우팅과 준거 참조 라우팅은 비슷한 수준의 오차가 나타남
    • 규준 참조 라우팅은  학생의 능력에 맞는 최적의 소검사를 제시하지 못하는 반면, 준거 참조 라우팅의 경우 특정 소검사의 노출 비율이 높게 나타나는 문제가 있었음 

MST 모의실험

  • 연구 목적
    • 라우팅 방식별 능력모수 추정치의 정확성 비교 및 검사 활용 정도를 비교
  • 연구방법
    • MST의 1-2-3 구조를 사용하여, 1단계에서는 공통 소검사, 2단계에서는 2개의 소검사, 3단계에서는 3개의 소검사를 제공하는 구조이며, 각 소검사는 선다형 5문항으로 구성하였으며, 개별 학생이 응시하는 총 문항 수는 15문항 -> [그림 3] 참고
    • MSTGen(Han, 2013) 사용하여 피험자 및 문항모수 생성하였으며, 균등분포 𝑈(−2.99, 2.99)를 사용하여 100,000명의 능력모수 생성
    • 본 연구에서 사용된 라우팅 방식 -> <표 2> 참고
    • 모의실험 평가 준거
      • 라우팅 방식별 능력모수 추정의 정확성 비교: 1) 전체 편차 및 전체 RMSE, 2) 능력모수 구간별 조건부 편차 및 능력모수 구간별 조건부 RMSE, 3) 능력모수와 능력모수 추정치 간 상관계수
      • 라우팅 방식별 검사 활용 정도 비교: 1) 소검사 사용 비율, 2) 경로 사용 비율

    • 연구 결과 1: 능력모수 추정의 정확성

  • 연구 결과2: 검사의 활용성 정도

  • 모의실험 연구 요약
    • MFI 방식과 난이도 매칭 방식은 비교 기준선인 무선 배정 방식에 비해 전체 편차와 RMSE가 낮게 나탔으며, 모든 능력 구간에서 더 낮은 RMSE를 보였음
    • 능력모수와 능력모수 추정치 간 상관 분석에서도 MFI 방식과 난이도 매칭 방식의 상관이 무선 배정 방식을 포함한 5개 라우팅 방식 중에서 상대적으로 높게 나타남
    • 소검사 및 경로 사용 비율을 산출한 결과 라우팅 방식의 특성에 따라 각기 다른 소검사 및 경로 사용 비율이 나타남
    • 특히, 경로 사용 비율과 관련하여 MFI, 난이도 매칭, DPI 방식의 경우 경루3(M1-M2-M6)은 전혀 사용하지 않는 결과가 나타났으므로 향후 검사 구성시 주의가 필요

 

3. 정책 제언

  • 적응 검사의 장점은 적은 수의 문항으로도 학생의 능력을 보다 정확히 측정한다는 효율성(Wang & Chen, 2004; Weiss, 1982, 2004)과 학습경험을 제공한다는 평가의 측면이 있음(Han, 2018).
  • 또한 학생의 수준에 맞는 소검사를 제공하기 때문에 검사 내내 적절한 수준의 흥미를 유지할 수 있으며, CBT에 응시한 학생보다 동기수준이 높았고, 검사에 몰입한 정도도 높았음(Martin & lazendic, 2018).
  • 그러나 MST는 학생마다 다소 다른 소검사를 배정받을 수 있다는 점에서 기존의 평가 패러다임과는 다른 종류의 평가라 할 수 있음 > 학생 및 학부모를 상대로 MST에 대한 홍보가 제대로 이루어질 필요, 평가결과와 관련한 교사의 적절한 안내가 수반된다면 학생 및 학부모의 평가결과 활용도가 제고될 것으로 기대

 

참고문헌

서민희, 김미림, 김완수, 이소라, 한정아, 김성훈, 서영숙(2020). 컴퓨터 기반 학업성취도 평가 도입을 위한 검사 설계 방안. 한국교육과정평가원. 연구보고 RRE 2020-3.

 

Dallas, A. (2014). The effects of routing and scoring within a computer adaptive multi-stage framework (Doctoral dissertation, The University of North Carolina). Retrieved from https://libres.uncg.edu/ir/uncg/f/Dallas_uncg_0154D_11394.pdf (2021. 1. 20. 검색)

 

Zenisky, A., & Hambleton, R. K. (2014). Multistage test designs: Moving research results into practice. In D. Yan, A. A. von Davier, & C. Lewis (Eds.), Computerized multistage testing: Theory and applications, (pp. 21-37). Boca Raton, FL: CRC Press.

 

Kim, J., Chung, H., Park, R., & Dodd, B. G. (2013). A comparison of panel designs with routing methods in the multistage test with the partial credit model. Behavior Research Methods, 45, 1087-1098.

 

Han, K. T. (2013). User’s manual: MSTGen. Retrieved from http://www.umass.edu/remp/ software/simcata/mstgen/MSTGen_Manual.pdf (2021. 5. 11. 검색)

 

Wang, W.-C., & Chen, P.-H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing. Applied Psychological Measurement, 28(5), 295-316.

 

Weiss, D. J. (1982). Improving measurement quality and efficiency with adaptive testing. Applied 22 Psychological Measurement, 6(4), 473-492.

 

Martin, A. J., & Lazendic, G. (2018). Computer-adaptive testing: Implications for students’ achievement, motivation, and subjective test experience. Journal of Educational Psychology, 110(1), 27-45.