본문 바로가기

전체 글50

[딥러닝 파이토치 교과서] 머신러닝과 파이토치 오늘은 딥러닝 파이토치 교과서 1장~3장 내용을 요약하였으며, 모든 내용을 요약하기 보다는 이번에 새롭게 알게된 부분 위주로 정리함 또한, 추가적인 공부가 필요한 부분에 대해서는 ★★★로 표시함 1. 머신러닝과 딥러닝 1.1 인공지능, 머신러닝과 딥러닝 - 머신러닝의 학습 과정은 각 데이터 특성을 기계에 인식시키고 학습시켜 문제를 해결하는 반면 딥러닝은 대량의 데이터를 신경망에 적용하여 기계가 스스로 분석한 후 답을 찾도록 함 -> 머신러닝의 경우 인간이 특성을 추출하는 과정이 포함되어야 함 1.2 머신러닝이란 1.2.1 머신러닝 학습 과정 - 훈련 데이터에 대한 정확도는 높은데 검증 데이터에 대한 정확도가 낮다면 훈련데이터에 과적합이 일어났을 가능성을 생각해 볼 수 있으며, 이와 같은 경우에는 정규화를.. 2023. 4. 7.
[딥러닝을 이용한 자연어 처리 입문] 머신 러닝 오늘은 머신 러닝에서 나오는 기본적인 개념에 대해서 알아보고자 함 모델 성능 평가 - 머신 러닝 모델의 성능을 평가하기 위해서는 분석 전에 데이터를 훈련용, 검증용, 테스트용으로 분리함 - 훈련용 데이터는 머신 러닝 모델을 학습하는 용도이며, 테스트 데이터는 학습한 머신 러닝 모델의 성능을 평가하기 위한 용도임 - 검증용 데이터는 모델이 훈련 데이터에 과적합이 되고 있는지 판단하거나 하이퍼파라미터를 조정하기 위한 용도로 사용됨(하이퍼파라미터란 모델의 성능에 영향을 주며, 사람이 값을 지정하는 변수임) - 검증용 데이터를 이용하여 하이퍼파라미터를 결정하는 과정을 튜닝한다고 표현함 분류와 회귀 - 머신 러닝 모델을 이용하여 스팸 메일 분류/과학, 영어, IT, 학습지, 만화라는 레이블이 붙어있는 5개의 책장.. 2023. 4. 6.
[딥러닝을 이용한 자연어 처리 입문] 벡터의 유사도 여러 개의 문서 중에 주제가 유사한 문서끼리 분류하는 작업이 필요한 경우가 있을 수 있으며, 이와 같은 작업의 성능은 각 문서의 단어들을 어떤 방법(DTM, Word2Vec)으로 수치화하여 표현했는지와 문서 간의 단어들의 차이를 어떤 방법(유클리드 거리, 코사인 유사도 등)으로 계산했는지에 따라 달라짐 오늘은 단어들의 유사도를 측정하는 방법에 대해서 학습할 예정임 코사인 유사도 코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구함 두 벡터의 방향이 완전히 동일한 경우에는 1, 90도의 각을 이루면 0, 180도로 반대의 방향을 가지면 -1 값을 가짐 즉, 코사인 유사도는 -1이상 1이하의 값을 가지며 1에 가까울수록 유사도가 높다고 판단할 수 있음 코사인 유사도를 구하는 식은 아래와 같음 3개 문서.. 2023. 4. 6.
[딥러닝을 이용한 자연어 처리 입문] 카운트 기반의 언어 모델 오늘은 텍스트 마이닝 분야에서 주로 사용되는 카운트 기반의 텍스트 표현 방법인 DTM(Document Term Matrix)과 TF-IDF(Term Frequency-Inverse Document Frequenct)에 대해 다루고자 함 단어의 표현 방법 단어의 표현 방법은 크게 국소 표현과 분산 표현이 있으며, 국소 표현은 해당 단어만 보고 특정값을 맵핑하여 단어를 표현하는 것이며, 분산 표현은 그 단어를 표현하는 주변을 참고하여 단어를 표현하는 방법임 분산 표현 방법의 경우 단어의 의미, 뉘앙스를 표현할 수 없게 됨 예를 들어 puppy, cute, lovely라는 단어가 있을 때 각 단어를 1, 2, 3과 같은 숫자에 맵핑하는 것이 국소 표현이며, 분산 표현 방법은 puppy라는 단어는 cute, l.. 2023. 3. 20.