인터넷 환경의 발전으로 SNS, 검색 포털사이트, 각종 인터넷 매체들이 비정형 데이터들을 생산하기 시작했다. 또한 정보기술의 발전함에 따라 저장매체의 급격한 가격하락으로 쉽게 저장 디스크를 구할 수 있게 되었다. 이로 인해 큰 저장 디스크에 기존의 정형 데이터와 비정형 데이터들을 수집 후 분석 및 활용 그리고 예측까지 가능한 빅데이터 시대가 도래했다.
다양하게 수집된 데이터들은 여러 분야에 활용된다. 유통, 마케팅부터 의료까지 데이터들이 활용되며, 누적된 데이터가 다양할수록 예측 가능한 확률에 대한 신뢰성이 높아지고 가치도 높아진다고 판단된다. 또한 최근에는 충분한 저장 디스크의 유통으로 인해 같은 데이터를 얼마나 빠르고 정확하게 분석할 수 있는가를 중요하게 인식하고 있다. 이를 위해 각 기업과 단체에서는 다양한 분석 도구들을 이용하여 데이터를 분석하고 있지만, 대량의 데이터를 분석할 때 이를 처리하는 분석 도구의 성능은 중요하게 고려되지 않고 있다.
기존에는 많은 기업들과 수학 및 통계 관련 전공한 사람들은 상용 소프트웨어를 이용하여 데이터를 분석하였으나, 오픈 소스 소프트웨어가 점차 자리를 잡아나감으로써 현재 오픈 소스 소프트웨어 또한 많이 사용하게 되었으며 통계 패키지 또한 기존의 수학 및 통계 관련 전공자들과 더불어 프로그래머들 또한 많이 사용하게 되었다. 대표적인 분석도구 소프트웨어로 상용 소프트웨어에 분석 도구에는 SPSS, 오픈 소스 소프트웨어에는 R이 있다. 두 분석 도구의 성능에 관한 연구는 부족하다고 판단되어 본 논문에서는 대량 데이터를 다변량 분석을 통하여 상용 소프트웨어와 오픈 소스 분석 도구의 성능을 다양하게 비교하고자 한다.
본 논문에서는 상용 소프트웨어 분석 도구와 오픈 소스 분석 도구를 대상으로 대량 데이터의 다변량 분석을 통해 데이터 분석 성능을 비교하고 보다 유용한 분석 도구의 선정에 도움을 제공하고자 한다.