TF-IDF1 [딥러닝을 이용한 자연어 처리 입문] 카운트 기반의 언어 모델 오늘은 텍스트 마이닝 분야에서 주로 사용되는 카운트 기반의 텍스트 표현 방법인 DTM(Document Term Matrix)과 TF-IDF(Term Frequency-Inverse Document Frequenct)에 대해 다루고자 함 단어의 표현 방법 단어의 표현 방법은 크게 국소 표현과 분산 표현이 있으며, 국소 표현은 해당 단어만 보고 특정값을 맵핑하여 단어를 표현하는 것이며, 분산 표현은 그 단어를 표현하는 주변을 참고하여 단어를 표현하는 방법임 분산 표현 방법의 경우 단어의 의미, 뉘앙스를 표현할 수 없게 됨 예를 들어 puppy, cute, lovely라는 단어가 있을 때 각 단어를 1, 2, 3과 같은 숫자에 맵핑하는 것이 국소 표현이며, 분산 표현 방법은 puppy라는 단어는 cute, l.. 2023. 3. 20. 이전 1 다음