본문 바로가기

전체 글

(42)
MiniKF - Tutorial 따라하기_Taxi Cab #5 MiniKF-Tutorial 따라하기 #4_Pipeline 배포 와 같이 파이프라인 실행한 결과를 정리해 본다. 1. 파이프라인 실행 결과 확인 파이프라인 실행 후 실행 결과는 Kubeflow Central Dashboar의 Pipeline 메뉴에서 확인할 수 있다. Pipeline > Experiment 메뉴를 선택하면 생성한 Experments 목록이 나타난다. 목록 중 확인하고자 하는 Experiment를 선택한다. 아래 그림은 "Taxi-Cab" Experiments를 선택하는 화면이다. 실행 Run(Run of TaxiCab) 를 선택하여 파이프라인 진행 상황과 결과를 확인할 수 있다. 마지막으로 파이프라인 스넵샷을 노트북과 연결하여 실행 단계 별 결과를 탐색할 수 있다. 2. 노트북을 통한 파..
[알고리즘] SVM(Support Vector Machine) 경계로 공간을 나누기 위한 방법을 제공하는 SVM은 분류에 적합한 머신러닝 지도학습 모델이다. SVM은 서포트벡터를 이용하여 결정경계를 정의하고 데이터를 분류하는 학습방법으로 어떻게 결정경계를 설정하는지가 가장 중요한 성능 결정사항이다. 용어정의 결정경계(Desicion Boundary) : 분류를 위한 기준 선 Support Vectors : 결정경계와 가까이 있는 데이터들 Margin : 결정경계와 서포트벡터 사이의 거리 Hard Margine : 이상치(outlier)를 허용하지 않는 마진 Soft Margin : 이상치(outlier)를 허용하는 마진 파라메터 C : scikit-learn에서 SVM 모델의 이상치 허용 값 설정(C값이 클수록 hard margin) 커널(Kernel) : 결정경계..
[알고리즘] 주성분 분석(PCA) PCA(Principal Component Analysis), 주성분 분석이란 차원 축소 방법의 하나로써 많은 Feature(특성)로 구성된 다차원 데이터-셋의 차원을 축소하여 불필요한 Feature를 제거하여 새로운 데이터-셋을 생성하는 방법이다. 객체의 모든 특성이 학습을 위해 모두 필요하지도 않고, feature 가 증가할 수록 오히려 예측 신뢰도가 저하되거나 Overfitting이 발생할 가능성이 높기 때문에 이를 방지하고 시각화, 노이즈 제거, 모델 성능을 향상 하기 위해 PCA를 사용할 수 있다. PCA 원리 2차원의 데이터-셋을 1차원으로 줄이는 방법은 x, y 좌표로 구성된 2차원 데이터를 1차원의 선으로 사영(Projection)하는 것이다. 좌표 공간에는 서로 다른 방향의 수많은 선이 ..
[ETL] - Talend Open Studio DB2DB 이관 #2 Talend에서 무료로 제공하는 Data Integration Tool인 TOS(Talend Open Studio)를 설치했다. (참고 : TOS 설치하기) [ETL] - Talend Open Studio 설치 #1 대표적인 ETL Tool 로 ELK(Elasticsearch, Logstash, Kibana)가 있다. 만약 Elasticsearch를 사용하지 않고 일반적인 RDBMS에 데이터를 이관하고 싶을 경우 또는 그 외 Hadoop, Hbase 등과 같은 Bigdata 저장소에.. jarikki.tistory.com TOS를 사용하면 Database End-Point(DB2DB) 간의 데이터를 손쉽게 UI 기반으로 이관할 수 있다. 이번에는 TOS를 이용하여 DB2 데이터베이스에 있는 임의의 테이블..
[ETL] - Talend Open Studio 설치 #1 대표적인 ETL Tool 로 ELK(Elasticsearch, Logstash, Kibana)가 있다. 만약 Elasticsearch를 사용하지 않고 일반적인 RDBMS에 데이터를 이관하고 싶을 경우 또는 그 외 Hadoop, Hbase 등과 같은 Bigdata 저장소에 데이터를 저장하고 싶을때 사용하기 편리한 ETL Tool은 어떤것이 있을까 고민하다 Talend에서 Data Integration Tool이 있기에 사용해 보았다. 환경구성 OS : Windows 10 JAVA 8 SE(1.8) Talend Open Studio for Data Integration : 7.1 [주의] Talend Open Studio에서 권장하는 JAVA 버전은 1.8 이다. 하위 버전, 상위 버전에서 테스트해보지는 않..
AI란 인공지능, 머신러닝, 딥러닝에 대한 사내 세미나가 매 주 진행된다. 연구소의 구성원들이 각자 학습한 내용을 공유하는 자리로 이제 시작하는 만큼 기본적인 내용 부터 차근차근 학습하며 정리할 수 있는 좋은 기회인 것 같다. 세미나를 통해 얻은 지식들을 잊지 않도록 조금씩 정리해 본다. Artificial Intelligence 인공지능의 개념은 1956년 다트머스 회의에서 존 매카시라는 분이 '인공지능'이라는 용어를 처음으로 사용하면서 '인텔리전트한 기계를 만드는 과학과 공학'이라는 개념으로 알려지게 된다. 지금까지 인공지능은 단순히 제어 프로그램을 탑재하는 형태에서 지식을 활용한 탐색과 추론을 통해 고정적인 패턴을 정의한 형태를 지나 사람의 지도 아래 데이터를 학습할 수 있는 알고리즘을 적용한 형태로 발전..
Docker - Mysql Replication 예전에 Rancher 기반으로 쿠버네티스 서비스를 구성하여 서비스한 적이 있었다. Rancher Master 노드를 HA 구성로 구성할 필요가 있었는데 이를 위해서 Rancher Master/Slave Node가 사용하는 DB(Mysql)를 Replication 해야했다. 당시의 기억을 더듬어 도커로 Mysql 의 Galera Cluster를 구성하는 방법을 정리한다. Mysql Galera Cluster 구성을 위해서는 최소 3대의 Mysql Instance(서버)가 필요하다. 1. 설치환경 Host : CentOS 7.x Docker : 17.04 Mysql : 5.7 2. Mysql 도커 이미지 다운로드 docker pull mysql:5.7.0 (설치 버전은 필요에 따라 변경 가능) 3. Mysq..
MiniKF - Tutorial 따라하기_Taxi Cab #4 파이프라인을 kubeflow에서 실행하기 위해서는 컴파일된 파이프라인을 k8s에 배포해야 한다. 이미 이전 단계에서 파이프라인을 컴파일했고, JupyterLab의 전체 메타 및 데이터 볼륨과 워크스페이스 볼륨의 스냅샷을 생성했다. 이제 컴파일된 파이프라인(taxi-cab-pipeline.tar.gz)을 k8s 클러스터에 배포하여 실행해본다. 1. Pipeline 다운로드 JupyterLab UI에서 컴파일된 파이프라인을 로컬 호스트로 다운로드 2. Pipeline 업로드 다운로드한 파이프라인을 kubeflow UI에서 업로드하기 위해 Upload pipeline 버튼 클릭 파이프라인 이름 등 부가 정보를 설정하고, 다운로드한 로컬 호스트의 파이프라인을 선택한 후 Create 버튼 클릭 파이프라인이 kub..