온라인쇼핑몰 사용자가 온라인쇼핑몰에 접속하는 순간부터 웹 상에서의 모든 행동은 클릭스트림 데이터(clickstream data)를 통해 기록된다. 분산처리시스템이 보편화 되면서 사용자의 모든 행동을 데이터화하여 실시간으로 적재, 처리 및 분석하는 것이 가능해졌다.
본 연구는 온라인쇼핑몰의 클릭스트림 데이터 중, 특히 메인페이지의 트래픽에 집중하였다. 온라인쇼핑몰의 메인페이지는 쇼핑몰의 진입부로서 쇼핑몰을 방문하는 대부분의 사용자가 거쳐가게 된다. 따라서 메인페이지에 추천된 상품은 다른 상품 대비 많은 수의 사용자에게 노출되어 높은 매출을 올릴 가능성을 갖게 되는데, 이러한 특성은 오프라인 매장에서도 나타난다. 매장의 진입부에 진열된 상품이 더 많은 고객에게 노출되고, 높은 매출을 올릴 가능성을 갖게 된다. 이러한 유사점에 착안하여 온라인쇼핑몰 메인페이지에서의 고객 행동패턴이 오프라인 매장 진입부에서의 고객 행동패턴과 유사한 모습을 보이는지 알아보았다. 이를 위해 오프라인 매장에서의 고객 행동특성에 대해 분석한 Underhill〔2〕의 연구 결과와 온라인에서의 고객 행동특성을 비교 분석하였다. 최종적으로, 위에서 분석된 데이터셋을 머신러닝 모델의 특징변수로 활용하여 메인페이지에 노출될 상품의 성과를 예측하였으며, 예측된 결과를 기반으로 메인페이지 상품의 추천 보조지표를 제시하였다.
본 연구를 위해 사용된 데이터는 사용자 동의 하에 수집된 한 온라인쇼핑몰의 비식별 클릭스트림 데이터이다. 추천 등급 분류를 위한 머신러닝 알고리즘으로 지도 학습 알고리즘 중 하나인 랜덤 포레스트(random forest) 알고리즘과, 신경망 알고리즘 중 하나인 다층 퍼셉트론(multilayer perceptron) 알고리즘을 활용하여 학습하였다. 데이터 가공과 분석은 오픈소스인 아파치 하이브(Apache Hive), 머신 러닝을 활용한 예측 실험은 아파치 스파크(Apache Spark)에서 수행하였다.
본 연구는 클릭스트림 데이터 분석을 통해 추천 등급 모델을 제안하였으며, 성과를 실증적으로 분석함으로써 클릭스트림 데이터 분석의 유용성을 검증하였다는 점에서 학술적 의의를 가진다. 또한 온라인쇼핑 사업자들이 메인페이지 상 효과적인 상품 선택을 하기 위한 전략적 시사점을 제공하였다는 점에서 실무적 의의를 가진다.