구남욱, 김미림, 이소라, 곽민호(2021). 국가수준 학업성취도 평가의 컴퓨터 적응형 검사 도입 방안 연구. 한국교육과정평가원, 연구자료 ORM 2021-40-22.
1. 배경
CBT 학업성취도 평가 도입
- 국가수준 학업성취도 평가는 2015 개정 교육과정을 적용하여 교과내용과 교과역량을 종합적으로 측정하는 새로운 문항을 도입
- 지필평가에서는 측정하기 어려운 교과역량 및 학생의 문제해결 과정에 대한 정보를 수집하기 위하여 컴퓨터 기반 평가 체제의 도입을 준비
학업성취도 평가에서 MST의 도입
- 2022년에 전면 도입될 예정인 CBT 학업성취도 평가는 선형 검사(문항의 순서가 고정된 검사)
- 적응형 검사는 학생 능력에 적합한 문항이나 문항군을 제공하는 검사
- 선형 검사는 학생들 중 중간 수준 능력을 가장 정확하게 추정 / 적응형 검사는 최상, 최하 능력도 비교적 정확하게 추정
- 학생의 검사 수행 동기 유지
2. MST 선행연구 및 모의실험 결과
MST 관련 선행 연구
- MST 도입 시, 단계 수, 단계별 소검사 수, 소검사 배정 방식(라우팅 방식)을 고려해야 함
- 서민희 외(2020, p156~p168)는 2단계와 3단계를 비교한 결과, 학생 능력 추정의 정확성은 비슷하게 나타났으나, 학생의 최적 경로와 관찰 경로 간 일치율과 관련해서는 3단계 MST의 일치율이 가장 높게 나타났으며, 학생의 능력에 맞는 소검사가 가장 잘 배정되었음
MST 라우팅 방식 관련 선행연구
- 라우팅은 MST에서 개별 학생에게 전 단계의 검사 수행 결과를 활용하여 소검사를 배정하는 과정을 의미
- Zenisky와 Hambleton(2014, pp. 32-34)은 라우팅 방식을 두 개의 차원을 사용하여 구분
- 첫 번째 차원은 규준 참조 라우팅과 준거 참조 라우팅: 규준 참조 라우팅은 학생의 상대적 위치를 사용하여 소검사를 배정하는 방식, 준거 참조 라우팅은 학생의 능력에 가장 적합한 소검사를 배정하는 방식
- 두 번쨰 차원은 정보 기반 라우팅 대 총점 라우팅: 정보 기반 라우팅은 IRT를 사용하여 학생의 능력을 추정하고 이 정보를 사용하여 소검사를 배정하는 방식, 총점 라우팅은 소검사별로 단순 합산된 학생의 총점을 활용하여 소검사를 배정
- Dallas(2014)의 연구 결과
- 모든 조건에서 준거 참조 라우팅이 훨씬 더 정확
- 정보 기반 라우팅은 총점 라우팅보다 약간 더 나은 결과를 보였음
- Kim 외(2013)
- 규준 참조 라우팅과 준거 참조 라우팅은 비슷한 수준의 오차가 나타남
- 규준 참조 라우팅은 학생의 능력에 맞는 최적의 소검사를 제시하지 못하는 반면, 준거 참조 라우팅의 경우 특정 소검사의 노출 비율이 높게 나타나는 문제가 있었음
MST 모의실험
- 연구 목적
- 라우팅 방식별 능력모수 추정치의 정확성 비교 및 검사 활용 정도를 비교
- 연구방법
- MST의 1-2-3 구조를 사용하여, 1단계에서는 공통 소검사, 2단계에서는 2개의 소검사, 3단계에서는 3개의 소검사를 제공하는 구조이며, 각 소검사는 선다형 5문항으로 구성하였으며, 개별 학생이 응시하는 총 문항 수는 15문항 -> [그림 3] 참고
- MSTGen(Han, 2013) 사용하여 피험자 및 문항모수 생성하였으며, 균등분포 𝑈(−2.99, 2.99)를 사용하여 100,000명의 능력모수 생성
- 본 연구에서 사용된 라우팅 방식 -> <표 2> 참고
- 모의실험 평가 준거
- 라우팅 방식별 능력모수 추정의 정확성 비교: 1) 전체 편차 및 전체 RMSE, 2) 능력모수 구간별 조건부 편차 및 능력모수 구간별 조건부 RMSE, 3) 능력모수와 능력모수 추정치 간 상관계수
- 라우팅 방식별 검사 활용 정도 비교: 1) 소검사 사용 비율, 2) 경로 사용 비율
- 연구 결과 1: 능력모수 추정의 정확성
- 연구 결과2: 검사의 활용성 정도
- 모의실험 연구 요약
- MFI 방식과 난이도 매칭 방식은 비교 기준선인 무선 배정 방식에 비해 전체 편차와 RMSE가 낮게 나탔으며, 모든 능력 구간에서 더 낮은 RMSE를 보였음
- 능력모수와 능력모수 추정치 간 상관 분석에서도 MFI 방식과 난이도 매칭 방식의 상관이 무선 배정 방식을 포함한 5개 라우팅 방식 중에서 상대적으로 높게 나타남
- 소검사 및 경로 사용 비율을 산출한 결과 라우팅 방식의 특성에 따라 각기 다른 소검사 및 경로 사용 비율이 나타남
- 특히, 경로 사용 비율과 관련하여 MFI, 난이도 매칭, DPI 방식의 경우 경루3(M1-M2-M6)은 전혀 사용하지 않는 결과가 나타났으므로 향후 검사 구성시 주의가 필요
3. 정책 제언
- 적응 검사의 장점은 적은 수의 문항으로도 학생의 능력을 보다 정확히 측정한다는 효율성(Wang & Chen, 2004; Weiss, 1982, 2004)과 학습경험을 제공한다는 평가의 측면이 있음(Han, 2018).
- 또한 학생의 수준에 맞는 소검사를 제공하기 때문에 검사 내내 적절한 수준의 흥미를 유지할 수 있으며, CBT에 응시한 학생보다 동기수준이 높았고, 검사에 몰입한 정도도 높았음(Martin & lazendic, 2018).
- 그러나 MST는 학생마다 다소 다른 소검사를 배정받을 수 있다는 점에서 기존의 평가 패러다임과는 다른 종류의 평가라 할 수 있음 > 학생 및 학부모를 상대로 MST에 대한 홍보가 제대로 이루어질 필요, 평가결과와 관련한 교사의 적절한 안내가 수반된다면 학생 및 학부모의 평가결과 활용도가 제고될 것으로 기대
참고문헌
서민희, 김미림, 김완수, 이소라, 한정아, 김성훈, 서영숙(2020). 컴퓨터 기반 학업성취도 평가 도입을 위한 검사 설계 방안. 한국교육과정평가원. 연구보고 RRE 2020-3.
Dallas, A. (2014). The effects of routing and scoring within a computer adaptive multi-stage framework (Doctoral dissertation, The University of North Carolina). Retrieved from https://libres.uncg.edu/ir/uncg/f/Dallas_uncg_0154D_11394.pdf (2021. 1. 20. 검색)
Zenisky, A., & Hambleton, R. K. (2014). Multistage test designs: Moving research results into practice. In D. Yan, A. A. von Davier, & C. Lewis (Eds.), Computerized multistage testing: Theory and applications, (pp. 21-37). Boca Raton, FL: CRC Press.
Kim, J., Chung, H., Park, R., & Dodd, B. G. (2013). A comparison of panel designs with routing methods in the multistage test with the partial credit model. Behavior Research Methods, 45, 1087-1098.
Han, K. T. (2013). User’s manual: MSTGen. Retrieved from http://www.umass.edu/remp/ software/simcata/mstgen/MSTGen_Manual.pdf (2021. 5. 11. 검색)
Wang, W.-C., & Chen, P.-H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing. Applied Psychological Measurement, 28(5), 295-316.
Weiss, D. J. (1982). Improving measurement quality and efficiency with adaptive testing. Applied 22 Psychological Measurement, 6(4), 473-492.
Martin, A. J., & Lazendic, G. (2018). Computer-adaptive testing: Implications for students’ achievement, motivation, and subjective test experience. Journal of Educational Psychology, 110(1), 27-45.
'전공(측정평가) 논문' 카테고리의 다른 글
국내 DKT 관련 선행연구(1) (1) | 2024.10.28 |
---|---|
[평가원 이슈페이퍼 요약] 맞춤형 학습지원을 위한 다중양식 학습분석 지표 선정 (2) | 2024.10.16 |
[논문 리뷰] 자동채점 관련 (0) | 2023.03.02 |
[보고서 리뷰] 컴퓨터 기반 서·논술형 평가를 위한 자동채점 방안 설계 (0) | 2023.03.01 |
[논문 리뷰] 국내 자동채점 관련 연구 (0) | 2023.02.26 |