초록

인공신경망을 사용하는 문서 분류 연구 분야에서는 일반적으로 단어 빈도수 기반 가중치 학습 방법 TF-IDF보다 단어를 밀집 벡터로 표현하는 워드 임베딩을 사용한다. 이는 행렬의 값이 대부분 0으로 나타나는 희소 행렬인 TF-IDF보다, 저차원 공간인 워드 임베딩이 인공신경망에 적절하기 때문이다. 그래서 문서 분류 연구 분야에서 TF-IDF로 기계 학습 알고리즘과 인공신경망 간의 문서 분류 성능 비교 연구는 찾아보기 어렵다.

본 논문은 TF-IDF를 이용한 인공신경망 MLP와 기계학습 알고리즘 KNN, SVM과 Random Forest, XGBoost 간의 문서 분류 정확도 비교 실험을 한다. 실험 데이터는 한국어와 영어로 각각 다중 분류 문제에서는 뉴스와 이진 분류 문제에서는 영화 리뷰를 사용한다. 실험 결과, 국문 뉴스와 리뷰에서 MLP 정확도는 각각 0.83과 0.53으로 다른 알고리즘과 비슷하다. 다만, 영문 뉴스와 리뷰에서 MLP 정확도는 각각 0.34와 0.68로, 각각 0.26과 0.55로 나타난 KNN과는 유의미한 차이가 있지만, 이외의 알고리즘과의 비교에서는 유의미한 차이가 없다.