자카드유사도1 [딥러닝을 이용한 자연어 처리 입문] 벡터의 유사도 여러 개의 문서 중에 주제가 유사한 문서끼리 분류하는 작업이 필요한 경우가 있을 수 있으며, 이와 같은 작업의 성능은 각 문서의 단어들을 어떤 방법(DTM, Word2Vec)으로 수치화하여 표현했는지와 문서 간의 단어들의 차이를 어떤 방법(유클리드 거리, 코사인 유사도 등)으로 계산했는지에 따라 달라짐 오늘은 단어들의 유사도를 측정하는 방법에 대해서 학습할 예정임 코사인 유사도 코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구함 두 벡터의 방향이 완전히 동일한 경우에는 1, 90도의 각을 이루면 0, 180도로 반대의 방향을 가지면 -1 값을 가짐 즉, 코사인 유사도는 -1이상 1이하의 값을 가지며 1에 가까울수록 유사도가 높다고 판단할 수 있음 코사인 유사도를 구하는 식은 아래와 같음 3개 문서.. 2023. 4. 6. 이전 1 다음