초록

최근 들어 정보기술의 발전과 더불어 수많은 다양하고 형태의 데이터들이 기하급수적으로 방대하게 늘어나고 있어 많은 복잡한 데이터의 분석에 대한 필요성이 여러 분야에서 대두 되고 있다. 다량의 복잡한 데이터를 분석하고 원하는 결과로 나타내기위한 방법으로 머신러닝이 각광받고 있다. 머신러닝이란 어떠한 명시적인 프로그램 없이도 스스로 학습하는 능력을 갖춘 컴퓨터로 제공되는 데이터 인공지능 분야의 한 종류이며 새로운 데이터가 입력되면 스스로 학습하여 자신을 향상시키고 변화시키는 컴퓨터 프로그램을 바탕으로 동작한다. 머신러닝은 크게 지도학습과 비지도학습으로 분류할 수 있고, 지도학습은 분류와 회귀 등의 알고리즘들이 있고, 비지도학습은 군집화와 밀도추정 등의 알고리즘들이 있다.

본 논문에서는 분류기중에서도 많이 사용되어 비교되어지는 k-최근접 이웃(k-Nearest Neighbor: k-NN)과 서포트벡터머신(Support Vector Machine: SVM) 분류기(Classifier) 알고리즘 두 개를 실험하여 비교 평가하였다. 두 알고리즘을 실험하기 위해서 표본 데이터로 어린이집에서 보유한 영유아 건강검진 신체 데이터 중에 나이, 성별, 신장, 몸무게 정보만을 따로 분류 수집하여 이용하였다. 그중에 분류를 위한 수치정보는 신장과 몸무게를 이용하였고 데이터집합의 항목 값으로는 나이를 사용하였다.

k-NN은 비모수적 밀도추정에 기반을 두고 가장 가까운 k개의 인접 데이터를 취하여 다수결을 통해 해당 데이터집합의 항목 값을 분류할 데이터의 항목 값으로 결정하는 방식이다. SVM은 기본적으로 이진선형분류에 사용되어지며 분류를 원하는 집합 사이의 가장 큰 폭의 경계에 위치한 서포트벡터 데이터를 기준으로 선형경계를 이용하여 두 집단을 분리시키는 알고리즘이다. SVM은 선형분리뿐 아니라 비선형분리에도 사용 할 수 있지만 주어진 데이터를 고차원으로 사상시키는 커널(Kernel) 방법을 사용해야한다.

원천수집데이터는 100개뿐이라서 본 실험에서 사용되어지는 500개, 1,000개 그리고 10,000개의 실험을 하기위해서는 데이터를 늘릴 필요가 있었다. 데이터개수를 늘리는 방법으로는 모든 각각의 데이터 임의의 반경 내에서 100의 배수만큼 무작위로 생성시키는 방법을 취하였다.

k-NN의 알고리즘은 분류할 데이터가 입력 될 때마다 다시 모든 데이터를 학습하는 방식이고 SVM은 미리 학습하여 미리 분리할 경계를 찾고 분류할 대상인 데이터가 입력되면 학습만 별도로 수행이 가능한 알고리즘 방식이다. 비교실험은 두 분류기의 분류하는 소요시간과 분류 정확도를 실험데이터 크기별로 비교 실험 하였다.

본 논문을 통하여 두 분류기의 이론적인 내용을 심화 학습하고 분류기라는 공통적인 머신러닝 알고리즘을 각각 실험하여 비교 평가하였다. 비교 평가한 결과물은 다른 종류의 데이터를 분류하고자 할 때 적당한 분류기를 선택 할 수 있는 기준을 제시한다.