Q. Word2Vec와 FastText의 차이점

둘 다 단어를 벡터로 표현하는 단어 임베딩 모델..

항목	Word2Vec	FastText
단어 표현 방식	단어 전체를 하나의 벡터로 학습	단어를 subword(부분 단어) 단위로 나눠서 학습
OOV(Out-Of-Vocabulary) 대응	사전에 학습되지 않은 단어는 처리 불가능	OOV 단어도 subword 조합을 통해 임베딩 가능
희귀 단어 처리	빈도수가 낮은 단어는 부정확한 임베딩	비슷한 subword 공유로 희귀 단어도 유의미한 임베딩 생성 가능
어근/접두어/접미어 정보	반영하지 않음	반영함 (예: running = run + ing)

FastText는 OOV 단어에 강한 대응력을 가지고 있다! - subword를 활용해 일반화 성능을 향상하기에 !
GloVe는 훈련 방식 자체가 아예 다름.. - 통계 정보로 학습하며 "단어 A와 단어 B가 얼마나 자주 같이 등장하느냐"를 수치로 정리한 후, 이를 잘 반영하는 벡터 공간 생성통계적으로 벡터 공간이 생성되는 것

Q. 텍스트 데이터를 모델에 적용하기 전 전처리 과정 + 코드 (0)	2025.04.15

우유2