Encoding (1) 썸네일형 리스트형 [NLP] 자연어 처리 #2 인공신경망 언어모델 인공신경망 언어모델을 정리하기 전에 자연어 처리를 위해 문자를 숫자로 변경하는 기법에 대하여 이해해야한다. 자연어를 처리하기 위함이라고 하더라도 실제 컴퓨터나 인공신경망은 문자가 아닌 숫자형태로 데이터를 이해하고 처리하기 때문이다. 이를 정수 인코딩이라한다. 정수 인코딩이라함은 간단히 단어 집합을 컴퓨터나 인공신경망이 이해할 수 있는 벡터(Vector)로 변경하는 것을 말하며, 크게 One-hot Encoding과 Word Embedding으로 구분할 수 있다. 1. 원-핫 인코딩(One-Hot Encoding) 원-핫 인코딩은 여러 개의 단어로 구성된 단어 집합에서 중복된 단어를 제외한 단어를 토큰화(Token)하고, 각 단어에 고유 숫자(Index)를 갖는다. 즉 벡터 내 인덱스값을 '1'표시함으로써.. 이전 1 다음