어텐션1 [딥러닝 파이토치 교과서] 자연어 처리를 위한 임베딩 임베딩 사람이 사용하는 언어를 컴퓨터가 이해할 수 있는 벡터로 변환하는 과정 희소 표현 기반 임베딩 희소 표현은 대부분의 값이 0으로 채워져 있는 경우로, 대표적으로 원-핫 인코딩이 있음 원-핫 인코딩(아래의 이미지 참고) 단어끼리 관계성 없이 서로 독립적임 하나의 단어를 표현하는 데 말뭉치에 있는 수만큼 차원이 존재해야 함 횟수 기반 임베딩 단어가 출현한 빈도를 고려하여 임베딩하는 방법 대표적으로 카운터 벡터와 TF-IDF가 있음 카운터 벡터 문서 집합에서 단어를 토큰으로 생성하고 각 단어의 출현 빈도수를 이용하여 인코딩해서 벡터를 만드는 방법(사이킷런의 CountVectorizer() 사용하여 코드 구현 가능 -> 값은 해당 단어가 나온 횟수) 문서 벡터는 단어 사전의 크기와 동일한 차원을 가지며, .. 2023. 6. 18. 이전 1 다음