모바일 시대가 된 이후 인터넷 트래픽 사용량은 기하급수적으로 증가 하고 있으며 이를 통한 각종 침해 사고와 비정상 트래픽이 급증하고 있다. 최근의 침해 사고는 보다 다양화 되고 지능적이며 복합적인 형태로 발생되고 있으며 이를 탐지하기 위해서는 기존의 방법들 이외에 다양한 방법이 요구 되고 있다.
하지만 복합적인 형태의 공격에 대해 여러 가지 솔루션이나 방안들이 혼재되어 있고 이러한 방안들은 주로 패턴이나 지식에 의존하여 공격을 탐지하는 방법들이 주로 사용되고 있다. 하나의 탐지 방안으로는 공격에 대한 탐지가 힘들므로 여러 가지 방안을 함께 적용해야만 그 효과를 볼 수 있다. 거기에 패턴이나 지식 기반이므로 알려 지지 않은 Zero-Day 공격에 대해서는 탐지가 불가능하다는 문제점을 안고 있다.
이에 본 연구에서는 이러한 단점을 극복하기 위해 패턴과 기존에 알려지지 않은 공격을 탐지 할 수 있는 방안을 도출해 보고자 하며 웹 서비스의 규모가 크거나 작은 경우에 모두 적용할 수 있도록 대용량 데이터를 수집/분석 할 수 있도록 최적화된 Hadoop 인프라를 적극 활용하여 Web 데이터를 수집하고 공격문 자체를 인식하여 공격을 탐지하고자 한다.
먼저 Web 서비스 트래픽을 데이터로 수집한 다음 Web Packet내의 Feature들을 이용하여 탐지하는 것을 시도해 보고 해당 방안의 한계를 알아본 다음, HTTP 요청문에 들어있는 공격문을 NLP와 Word Embedding 기법 중 하나인 Word to Vector로 분석하고 이를 기계 학습을 이용하여 실제로 공격의 탐지가 가능한지에 대해서 연구 하는 것을 목표로 한다.
최종적으로 본 연구는 한정된 방법의 Word Embedding 기법과 기계 학습을 이용한 분류법을 이용하게 되므로 이를 확장 시킬 수 있는 방안에 대해서도 서술한다.