본문 바로가기

자연어 처리13

[딥러닝을 이용한 자연어 처리 입문] 센텐스버트 센텐스버트는 버트의 문장 임베딩의 성능을 우수하게 개선시킨 모델임 센텐스버트가 학습되는 방법은 아래와 같음 ▶ 문장 쌍 분류 태스크로 파인 튜닝 두 개의 문장이 주이지면 entailment/contradiction/neutral 관계인지 맞추는 방식으로 학습 ▶ 문장 쌍 회귀 태스크로 파인 튜닝 두 개의 문장으로부터 의미적 유사성을 구하는 방식으로 학습 실습 pip install sentence_transformers from sentence_transformers import SentenceTransformer import pandas as pd df = pd.read_excel("/content/result.xlsx") data = df.설명.to_list() model = SentenceTransf.. 2023. 5. 29.
[웹 크롤링] selenium을 이용한 웹크롤링 selenium 패키지를 이용하면 chrome을 제어할 수 있으며, 이 패키지를 이용하여 웹 정보를 크롤링하는 것이 가능함 이번 시간에는 selenium 패키지를 이용하여 EBS 홈페이지에 있는 '강의명'과 '강의 설명'에 대한 정보를 크롤링 하였음 먼저, 크롬 드라이버를 설치해야 함(https://sites.google.com/a/chromium.org/chromedriver/downloads) Downloads - ChromeDriver - WebDriver for Chrome WebDriver for Chrome sites.google.com 크롬 드라이버 구동 from selenium import webdriver driver = webdriver.Chrome('C:\\Users\\KYH\\chr.. 2023. 5. 29.
[딥러닝을 이용한 자연어 처리 입문] 심층신경망 이해하기 오늘은 심층신경망이 나오게 된 이유와 이를 행렬로 계산하는 방법에 대해서 공부하였음 대부분 이미 공부한 내용이지만 데이터가 여러 개일 때 행렬로 어떻게 계산되는지 시각적으로 볼 수 있는 기회가 되었음 7-1. 퍼셉트론 1. 퍼셉트론 퍼셉트론은 프랑크 로젠블라트가 1957년에 제안한 초기 형태의 인공신경망으로 다수의 입력으로부터 하나의 결과를 내보내는 알고리즘 각 입력값이 가중치와 곱해져서 인공 뉴런에 보내지고, 각 입력값과 그에 해당되는 가중치의 곱의 전체 합이 임계치를 넘으면 종착지에 있는 인공 뉴런은 출력 신호로서 1을 출력, 그렇지 않을 경우에는 0을 출력 이때 뉴런에서 출력값을 변경시키는 함수를 활성화함수라고 함 퍼셉트론의 활성화함수는 계단 함수이지만 시그모이드 함수로 변경하면 로지스틱 회귀와 동.. 2023. 5. 13.
[딥러닝을 이용한 자연어 처리 입문] 소프트맥스 회귀 소프트맥스 회귀 1. 소프트맥스 함수 - 소프트맥스 함수는 선택해야 하는 선택지의 총 개수가 k라고 할 때, k차원의 벡터를 입력받아 각 클래스에 대한 확률을 추정함 예시) 꽃받침 길이, 꽃받침 넓이, 꽃잎 길이, 꽃잎 넓이로부터 setosa, versicolor, virginica라는 3개의 춤종 중 어떤 품종인지를 예측하는 문제 - 소프트맥스를 구하는 식은 아래와 같음 - 어떤 꽃의 꽃받침 길이, 꽃받침 넓이, 꽃잎 길이, 꽃잎 넓이에 대한 정보로 setosa, versicolor, virginica이 될 확률이 각각 0.26, .070, 0.04가 나왔고, 실제 품종이 versicolor이라고 하면 아래의 그림과 같이 표현할 수 있음 - 이와 같이 실제값을 원-핫 인코딩으로 표현할 경우 단어의 유사.. 2023. 4. 16.