본문 바로가기

ML & AI/unsupervised

(3)
[NLP] 자연어 처리 #2 인공신경망 언어모델 인공신경망 언어모델을 정리하기 전에 자연어 처리를 위해 문자를 숫자로 변경하는 기법에 대하여 이해해야한다. 자연어를 처리하기 위함이라고 하더라도 실제 컴퓨터나 인공신경망은 문자가 아닌 숫자형태로 데이터를 이해하고 처리하기 때문이다. 이를 정수 인코딩이라한다. 정수 인코딩이라함은 간단히 단어 집합을 컴퓨터나 인공신경망이 이해할 수 있는 벡터(Vector)로 변경하는 것을 말하며, 크게 One-hot Encoding과 Word Embedding으로 구분할 수 있다. 1. 원-핫 인코딩(One-Hot Encoding) 원-핫 인코딩은 여러 개의 단어로 구성된 단어 집합에서 중복된 단어를 제외한 단어를 토큰화(Token)하고, 각 단어에 고유 숫자(Index)를 갖는다. 즉 벡터 내 인덱스값을 '1'표시함으로써..
[NLP] 자연어 처리 #1 개념 용어 정리 NLP(Natural Language Processing) : 기계가 자연어를 이해가고 해석하는 일 코퍼스(Corpus) : 말뭉치, 글 또는 텍스트의 모음 자연어 처리 활용 서비스 텍스트 분류(Text Classification): 텍스트가 특정 분류, 카테고리에 속하는 것을 예측하는 기법을 통칭함. 텍스트 분류는 일반적으로 지도학습을 이용함. (예: 스팸 메일 분류, 뉴스 기사를 연애/정치/사회/문화 등 카테고리화하여 분류 등) 감성 분석(Sentiment Analysis): 텍스트를 감정, 기분 등의 주관적 요소로 분석하는 기법을 통칭함. 감성분석은 지도학습과 비지도학습을 이용할 수 있음. (예: SNS의 글쓴이의 감정을 분석, 영화 리뷰 분석 등) 텍스트 요약(Summarization)..
[알고리즘] 주성분 분석(PCA) PCA(Principal Component Analysis), 주성분 분석이란 차원 축소 방법의 하나로써 많은 Feature(특성)로 구성된 다차원 데이터-셋의 차원을 축소하여 불필요한 Feature를 제거하여 새로운 데이터-셋을 생성하는 방법이다. 객체의 모든 특성이 학습을 위해 모두 필요하지도 않고, feature 가 증가할 수록 오히려 예측 신뢰도가 저하되거나 Overfitting이 발생할 가능성이 높기 때문에 이를 방지하고 시각화, 노이즈 제거, 모델 성능을 향상 하기 위해 PCA를 사용할 수 있다. PCA 원리 2차원의 데이터-셋을 1차원으로 줄이는 방법은 x, y 좌표로 구성된 2차원 데이터를 1차원의 선으로 사영(Projection)하는 것이다. 좌표 공간에는 서로 다른 방향의 수많은 선이 ..