전체 글50 [딥러닝을 이용한 자연어 처리 입문] 언어모델 언어모델이란 단어 시퀀스(문장)에 확률을 할당하는 모델을 말하며, 오늘은 통계에 기반한 전통적인 언어 모델에 대해서 학습하였음 언어모델이란? - 언어모델은 단어 시퀀스에 확률을 할당하는 일을 하는 모델로, 이전 단어들이 주어졌을 때 다음 단어를 예측하는 방식으로 가장 많이 활용됨 통계적 언어모델에서 확률 - 카운트 기반의 접근 - 문장의 확률을 구할 때 카운트에 기반하여 계산이 가능함 - 예를 들어, An adorable little boy가 나왔을 때, is가 나올 확률은 아래와 같이 계산이 가능함 P(isㅣAn adorable little boy) = count(An adorable little boy is)/count(An adorable little boy) 기계가 학습한 코퍼스 데이터에서 An .. 2023. 3. 4. [논문 리뷰] 자동채점 관련 오늘은 자동채점과 관련한 학술지 2편을 리뷰하였다. 1. 신동광(2022). 채점자질의 적용이 영어 자동채점 모델의 성능에 미치는 영향. 교원교육, 38(6), 73-91. 연구문제 - 채점자질을 적용한 기계학습 방식(RF)과 채점자질을 적용하지 않은 딥러닝 방식(RNN, LSTM, GRU)의 채점 결과가 인간 채점 결과와의 일치도 비교에서 어느 정도의 차이를 보이는가? - 각 채점영역의 기계학습에서 가장 큰 영향을 미치는 채점자질은 무엇인가? 분석자료 - Kaggle에서 무료로 공개하고 있는 에세이 데이터 300개 - 채점자질 추출: 미국 멤피스대학교의 지능형 시스템 연구소에서 운영하는 Coh-Metrix(http://141.225.61.35/cohmetrix2017) 분석방법 - 채점자질을 활용한 랜.. 2023. 3. 2. [보고서 리뷰] 컴퓨터 기반 서·논술형 평가를 위한 자동채점 방안 설계 오늘은 한국교육과정 평가원의 자동채점 보고서인 "박종임 외 (2022). 컴퓨터 기반 서·논술형 평가를 위한 자동채점 방안 설계(1)"를 읽고 리뷰하였다. 1. 서론 - 연구의 필요성 2022 개정 교육과정 추진 계획에서는 미래 역량 함양을 최우선 과제로 삼았으며, 중학교에서는 미래 역량 함양을 위해 서·논술형 평가 확대를 교육과정 개선의 주요 과제로 제시하고 있음. 오늘날의 교육은 단순히 교과의 지식 및 개념을 학습하는 것을 넘어 고차원적인 분석력과 문제해결력을 함양하는 것을 목표로 하고 있기 때문에 서·논술형 평가가 확대되고 있음. 이와 같은 서·논술형 평가의 중요성이 대두되고 있음에도 불구하고 채점 결과의 신뢰도 문제, 채점에 필요한 인력, 시간, 비용 등의 현실적인 제한점이 존재함. 즉, 서·논술.. 2023. 3. 1. [딥러닝을 이용한 자연어 처리 입문] 패딩과 원-핫인코딩 오늘은 자연어 처리 전 input data를 만들 때 필요한 패딩과 원-핫인코딩에 대해서 학습해보겠습니다. 패딩(Padding) - 자연어 처리를 하다보면 각 문장(또는 문서)의 길이가 서로 다른 경우가 있는데 기계는 길이가 동일한 문서들을 하나의 행렬로 보고 한꺼번에 병렬로 처리함. 따라서, 길이가 다른 문장들을 동일하게 맞춰주는 작업이 필요함. - 이때, 데이터에 특정 값을 채워서 데이터 크기를 조정하는 것을 패딩이라고 하며, 숫자 0을 사용하면 제로 패딩이라고 함. - 아래는 길이가 다른 문장을 가장 길이가 긴 문장에 맞추어 0으로 제로 패딩한 예시임. import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer prepr.. 2023. 2. 27. 이전 1 ··· 7 8 9 10 11 12 13 다음