DBSCAN-2014.pdfOverview-IJCA2013.pdf


목표 : DBSCAN 알고리즘을 Unsupervised Anomaly Detection에 적용, 전처리(preprocessing)가 완료된 데이터(KDD-99)를 가지고 비학습지도(clustering)방식으로 intrusion을 구분. 관련 자료 첨부. Overview-IJCA2013.pdf에서는 침입탐지시스템의 IDS(Intrusion Detection System)의 종류와 필요성 supervised learning 와 unsupervised learning을 기준으로 적용 가능한 알고리즘을 구분해 놓았고, DBSCAN-2014.pdf에서는 unsupervised learning 기법중 DBSCAN알고리즘에 대한 설명과 그 효용성에 대해 언급.


1차 목표는 python을 활용DBSCAN을 통해 구현, 실제로 데이터를 학습하고 그 결과를 시각화하는 것.

2차 목표는 예측률/정확도를 높이기 위한 feature(실제 학습 파라미터) 값 선정 방법에 대해서 연구하고 어떻게 하면 가장 효율적인 feature를 지정할 수 있는지(갯수, 파라미터).

3차 목표는 DBSCAN 모델을 생성할 때 지정하는 5개의 파라미터 중 2개의 값 epsilon, minPts를 어떻게 지정할 것인지에 대한 연구.


epsilon : Fig5 에서 점 P(core point라고 명칭)으로부터 군집 테두리까지 반경(반지름)

minPts : 하나의 군집안에 포함되어야하는 최소 포인트의 갯수

군집의 결합 : Core point 가 다른 core point의 군집에 포함되는 경우, 군집이 서로 연결되며 하나의 군집을 형성. 

border point : 군집에는 속하지만, core point가 아닌 점을 border point라고 하고, 대게의 경우 클러스터의 외곽을 이루는 점. 

Noise point : 어떠한 클러스터에도 속하지 않는 점은 Noise point가 된다.


참고한 싸이트 : 

http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html    //활용한 데이터

http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html    //파이썬에서 제공하는 DBSCAN 관련 Library

https://github.com/bwcho75/dataanalyticsandML/blob/master/Clustering/5.%20DBSCANClustering-IRIS%204%20feature-Copy1.ipynb    //구현 예시

http://bcho.tistory.com/1205

'Programming > DBSCAN' 카테고리의 다른 글

전처리 데이터와 feature 값 선정 및 결과  (1) 2017.11.23

+ Recent posts