본문 바로가기

파이토치12

[딥러닝 파이토치 교과서] 자연어 전처리 자연어 처리가 필요한 영역 완성도 높은 자연어 처리: 스팸 처리, 맞춤법 검사, 단어 검색, 객체 인식 완성도 낮은 자연어 처리: 질의응답, 요약, 유사 단어 바꾸어 쓰기, 대화 자연어 처리 관련 용어 말뭉치(코퍼스): 자연어 처리에서 모델을 학습시키기 위한 데이터 토큰: 자연어 처리를 위한 문서는 작은 단위로 나누어야 하는데, 이때 문서를 나누는 단위 토큰화: 텍스트를 문장이나 단어로 분리하는 것 불용어: 문장 내 많이 등장하는 단어 어간 추출: 단어를 기본 형태로 만드는 작업(cosigned, cosigning... -> cosign) 품사 태깅: 주어진 문장에서 품사를 식별하기 위해 붙여 주는 태그 자연어 처리 과정 자연어 -> 전처리(토큰화, 불용어 제거, 어간 추출, 정규화) -> 임베딩 -> .. 2023. 6. 18.
[딥러닝 파이토치 교과서] 성능 최적화 데이터를 사용한 성능 최적화 최대한 많은 데이터 수집 데이터 생성 데이터 범위 조정: 활성화함수로 시그모이드를 사용한다면 데이터셋 범위를 0~1의 값을 갖도록 하고, 하이퍼볼릭 탄젠트를 사용한다면 -1~1의 값을 갖도록 조정(정규화, 규제화, 표준화도 성능 향상에 도움이 됨) 알고리즘 튜닝을 위한 성능 최적화 진단 훈련 성능이 검증보다 눈에 띄게 좋으면 과적합 의심 -> 규제화 훈련과 검증 결과가 성능이 좋지 않으면 과소적합 의심 -> 네트워크 구조 변경, 에포크 수 조정 훈련 성능이 검증을 넘어서면 조기 종료 고려 가중치: 가중치에 대한 초깃값은 작은 난수를 사용하는데 애매하면 오토인코더 같은 비지도 학습을 이용하여 사전 훈련 학습률: 네트워크의 계층이 많다면 학습률을 높여야 하며, 네트워크의 계층이 .. 2023. 6. 17.
[딥러닝 파이토치 교과서] 합성곱 신경망2 6.1 이미지 분류를 위한 신경망 6.1.1 LeNet-5 LeNet-5는 합성곱과 다운 샘플링(혹은 풀링)을 반복적으로 거치면서 마지막에 완전연결층에서 분류를 수행함 이미지 데이터 전처리 transforms.RandomResizedCrop: 입력 이미지를 주어진 크기로 조정 transforms.RandomHorizontalFlip: 이미지를 수평 반전 transforms.ToTensor: torchvision 메서드는 이미지를 읽을 때 파이썬 이미지 라이브러리인 PIL을 사용해서 이미지 범위가 [0, 255], 배열의 차원이 높이*너비*채널 수로 표현됨. 이후 효율적인 연산을 위해 torch.FloatTensor 배열로 바꾸는데 픽셀의 값의 범위는 [0, 1] 사이가 되고, 차원의 순서도 채널 수*높이.. 2023. 5. 28.
[파이토치] 신경망 모델 구성/Autograd/최적화 파이토치 한국어 튜토리얼에서 '신경망 모델 구성하기', 'Autograd', '최적화' 부분에 대해서 공부하고 정리함 1. 신경망 모델 구성하기 import os import torch from torch import nn from torch.utils.data import DataLoader from torchvision import datasets, transforms 학습을 얻기 위한 장치 device = ( "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu" ) print(f"Using {device} device") -----------------------------------.. 2023. 5. 14.