본문 바로가기

Word2Vec2

Q. Word2Vec와 FastText의 차이점 둘 다 단어를 벡터로 표현하는 단어 임베딩 모델..항목Word2VecFastText단어 표현 방식단어 전체를 하나의 벡터로 학습단어를 subword(부분 단어) 단위로 나눠서 학습OOV(Out-Of-Vocabulary) 대응사전에 학습되지 않은 단어는 처리 불가능OOV 단어도 subword 조합을 통해 임베딩 가능희귀 단어 처리빈도수가 낮은 단어는 부정확한 임베딩비슷한 subword 공유로 희귀 단어도 유의미한 임베딩 생성 가능어근/접두어/접미어 정보반영하지 않음반영함 (예: running = run + ing) FastText는 OOV 단어에 강한 대응력을 가지고 있다! - subword를 활용해 일반화 성능을 향상하기에 !GloVe는 훈련 방식 자체가 아예 다름.. - 통계 정보로 학습하며 "단어 A.. 2025. 4. 16.

자연어 분류 신경망 Bi-LSTM, Word2Vec 임베딩 적용하기 파이토치 Embedding-RNN 자연어 분류RNN 구조 모델은 순서 정보를 활용하기 때문에 단어의 순서가 존재하는 자연어 분석에도 활용할 수 있음텍스트 데이터를 RNN으로 학습할 땐, 토큰화 이루어지고 해당 토큰이 각 Time-Step이 됨. 이때 실제 RNN 층에 통과되기 이전에 Embedding을 활용하여 임베딩 하여 RNN에 입력됨파이토치의 Embedding 레이어파이토치는 정수 인덱스(토큰 id)를 입력받아 해당 임베딩 벡터를 반환하는 간단한 룩업 테이블(Lookup Table) 형태의 모듈인 nn.Embedding 레이어를 제공함내부적으로 (num_embeddings, embedding_dim) 형태의 가중치 행렬을 갖고 있음인덱스를 이용해 해당 행의 벡터를 즉시 조회(룩업)하여 반환함각 단어.. 2025. 4. 7.

이전 1 다음

티스토리툴바