본문 바로가기

algorithm

(3)
[알고리즘] 임베딩과 손실함수 선택하기 #4 알고리즘은 크게 분류(Classification)과 회기(Regression)으로 나눌 수 있다. 이러한 알고리즘을 사용하여 데이터를 학습하고, 서비스하기 위해서는 임베딩 작업과 손실함수를 선택하는 것이 필수다. 다만 임베딩을 위한 인코딩 방법이나 손실함수의 종류가 다양하기 때문에 Case에 따라 선택방법을 정리해 본다. "Classification vs Regression" 분류와 회기는 N개의 입력값을 M개로 출력값으로 변환한다는 점에서 유사하다. 하지만, 분류는 출력값(y1, y2 ... ym)을 "0~1" 사이값으로 출력하며, 모든 출력값의 합이 "1"된다. 즉 분류 알고리즘의 출력값은 확률값으로 이해해도 무방하다. 이와는 다르게 회기 알고리즘의 출력값(y1, y2 ... ym)은 범위가 없는 연..
[알고리즘] 컨볼루션 신경망(CNN, Convolution Neural Network) CNN은 이미지(영상)를 분석하기 위한 패턴을 찾아 이를 직접 학습하고, 학습한 패턴을 이용하여 이미지를 분류한다. CNN은 Convolution Layer, Pooling Layer(Sub Sampling), Fully Connected Layer 를 사용하여 사람의 시각처리방식을 모방한 딥러닝 학습 모델이며, 이미지(영상) 분류에 적합한 딥러닝 모델이다. Convolution Layer는 이미지의 특징점을 찾기 위해 사용되고, Pooling Layer는 이미지 처리에 필요한 가중치와 연산량을 줄이기 위해 사용되며, Fully Connected Layer는 이미지를 분류하기 위해 사용된다. 1. Convolution Layer 컨볼루션 레이어는 입력 이미지를 특정 Filter(Kernel)를 이용하여 ..
[알고리즘] SVM(Support Vector Machine) 경계로 공간을 나누기 위한 방법을 제공하는 SVM은 분류에 적합한 머신러닝 지도학습 모델이다. SVM은 서포트벡터를 이용하여 결정경계를 정의하고 데이터를 분류하는 학습방법으로 어떻게 결정경계를 설정하는지가 가장 중요한 성능 결정사항이다. 용어정의 결정경계(Desicion Boundary) : 분류를 위한 기준 선 Support Vectors : 결정경계와 가까이 있는 데이터들 Margin : 결정경계와 서포트벡터 사이의 거리 Hard Margine : 이상치(outlier)를 허용하지 않는 마진 Soft Margin : 이상치(outlier)를 허용하는 마진 파라메터 C : scikit-learn에서 SVM 모델의 이상치 허용 값 설정(C값이 클수록 hard margin) 커널(Kernel) : 결정경계..