둘 다 단어를 벡터로 표현하는 단어 임베딩 모델..
| 항목 | Word2Vec | FastText |
| 단어 표현 방식 | 단어 전체를 하나의 벡터로 학습 | 단어를 subword(부분 단어) 단위로 나눠서 학습 |
| OOV(Out-Of-Vocabulary) 대응 | 사전에 학습되지 않은 단어는 처리 불가능 | OOV 단어도 subword 조합을 통해 임베딩 가능 |
| 희귀 단어 처리 | 빈도수가 낮은 단어는 부정확한 임베딩 | 비슷한 subword 공유로 희귀 단어도 유의미한 임베딩 생성 가능 |
| 어근/접두어/접미어 정보 | 반영하지 않음 | 반영함 (예: running = run + ing) |
- FastText는 OOV 단어에 강한 대응력을 가지고 있다! - subword를 활용해 일반화 성능을 향상하기에 !
- GloVe는 훈련 방식 자체가 아예 다름.. - 통계 정보로 학습하며 "단어 A와 단어 B가 얼마나 자주 같이 등장하느냐"를 수치로 정리한 후, 이를 잘 반영하는 벡터 공간 생성통계적으로 벡터 공간이 생성되는 것
'Weekly Question' 카테고리의 다른 글
| Q. 텍스트 데이터를 모델에 적용하기 전 전처리 과정 + 코드 (0) | 2025.04.15 |
|---|