본문 바로가기

Weekly Question2

Q. Word2Vec와 FastText의 차이점 둘 다 단어를 벡터로 표현하는 단어 임베딩 모델..항목Word2VecFastText단어 표현 방식단어 전체를 하나의 벡터로 학습단어를 subword(부분 단어) 단위로 나눠서 학습OOV(Out-Of-Vocabulary) 대응사전에 학습되지 않은 단어는 처리 불가능OOV 단어도 subword 조합을 통해 임베딩 가능희귀 단어 처리빈도수가 낮은 단어는 부정확한 임베딩비슷한 subword 공유로 희귀 단어도 유의미한 임베딩 생성 가능어근/접두어/접미어 정보반영하지 않음반영함 (예: running = run + ing) FastText는 OOV 단어에 강한 대응력을 가지고 있다! - subword를 활용해 일반화 성능을 향상하기에 !GloVe는 훈련 방식 자체가 아예 다름.. - 통계 정보로 학습하며 "단어 A.. 2025. 4. 16.

Q. 텍스트 데이터를 모델에 적용하기 전 전처리 과정 + 코드 A. 텍스트 전처리 전체 흐름 요약텍스트(문장) → 토큰화 → 정수 인코딩 → 패딩 → 텐서 변환 import jsonfile_path = '/content/일상생활및구어체_한영_valid_set.json'with open(file_path, 'r', encoding='utf-8') as f: raw_json = json.load(f)data = raw_json['data']print(f"전체 문장 쌍 개수: {len(data)}")# 샘플 하나 확인print("예시 샘플:")print(f"한국어: {data[0]['ko']}")print(f"영어: {data[0]['mt']}")더보기전체 문장 쌍 개수: 150000예시 샘플: 한국어: >아, 진짜요? 영어: Oh, .. 2025. 4. 15.

이전 1 다음

티스토리툴바