형태소분석기1 [딥러닝을 이용한 자연어 처리 입문] 토큰화 및 전처리 오늘은 딥러닝을 이용한 자연어 처리 입문-1권에서 '2-1. 토큰화'와 '2-2. 정제와 정규화'에 해당되는 부분을 요약해보았습니다. 제가 텍스트 분석을 처음했을 때는 형태소 분석기의 종류가 다양하다는 것도 몰랐고, 형태소 분석기의 종류에 따라 분석 결과가 매우 다르게 나올 수 있다는 점도 몰랐습니다. 이 글을 읽고 텍스트 분석을 하신다면 분석 자료에 다양한 형태소 분석기를 테스트 해보시고, 분석 결과를 비교해보시면 좋을 것 같습니다! 2. 텍스트 전처리(Text preprocessing) 텍스트 전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업 2-1. 토큰화(Tokenization) 토큰화는 주어진 자료를 토큰이라는 단위로 나누는 작업을 말하며, 토큰의 단위는 상황에 따라 다르게.. 2023. 2. 19. 이전 1 다음