[딥러닝 파이토치 교과서] 자연어 전처리
자연어 처리가 필요한 영역 완성도 높은 자연어 처리: 스팸 처리, 맞춤법 검사, 단어 검색, 객체 인식 완성도 낮은 자연어 처리: 질의응답, 요약, 유사 단어 바꾸어 쓰기, 대화 자연어 처리 관련 용어 말뭉치(코퍼스): 자연어 처리에서 모델을 학습시키기 위한 데이터 토큰: 자연어 처리를 위한 문서는 작은 단위로 나누어야 하는데, 이때 문서를 나누는 단위 토큰화: 텍스트를 문장이나 단어로 분리하는 것 불용어: 문장 내 많이 등장하는 단어 어간 추출: 단어를 기본 형태로 만드는 작업(cosigned, cosigning... -> cosign) 품사 태깅: 주어진 문장에서 품사를 식별하기 위해 붙여 주는 태그 자연어 처리 과정 자연어 -> 전처리(토큰화, 불용어 제거, 어간 추출, 정규화) -> 임베딩 -> ..
2023. 6. 18.