1장. 데이터 마이닝1.1 데이터 마이닝이란?1.2 데이터 마이닝의 통계적 한계점1.3 알아두면 유용한 사실들 1.4 이 책의 개요 1.5 요약 1.6 참고문헌2장. 맵리듀스와 새로운 소프트웨어 스택2.1 분산 파일 시스템2.2 맵리듀스2.3 맵리듀스를 사용하는 알고리즘2.4 맵리듀스의 확장2.5 통신 비용 모델2.6 맵리듀스에 대한 복잡도 이론2.7 요약2.8 참고문헌3장. 유사 항목 찾기3.1 근접 이웃 탐색의 응용3.2 문서의 슁글링3.3 집합의 유사도 보존 요약3.4 문서의 지역성 기반 해싱3.5 거리 측정3.6 지역성 기반 함수의 이론3.7 기타 거리 측정법들을 위한 LSH 함수군3.8 지역성 기반 해시 응용 분야3.9 높은 유사도 처리 방법3.10 요약3.11 참고문헌4장. 스트림 데이터 마이닝4.1 스트림 데이터 모델4.2 스트림 데이터의 표본추출4.3 스트림 필터링4.4 스트림에서 중복을 제거한 원소 개수 세기4.5 모멘트 근사치4.6 윈도 내에서의 카운트4.7 감쇠 윈도4.8 요약4.9 참고문헌5장. 링크 분석5.1 페이지랭크5.2 페이지랭크의 효율적인 연산5.3 주제 기반 페이지랭크5.4 링크 스팸5.5 허브와 권위자5.6 요약5.7 참고문헌6장. 빈발 항목집합6.1 시장바구니 모델6.2 시장바구니와 선험적 알고리즘6.3 메인 메모리에서 더 큰 데이터 집합 처리하기6.4 단계 한정 알고리즘6.5 스트림에서 빈발 항목 개수 세기6.6 요약6.7 참고문헌7장. 클러스터링7.1 클러스터링 기법의 개요7.2 계층적 클러스터링7.3 k평균 알고리즘7.4 CURE 알고리즘7.5 비유클리드 공간에서의 클러스터링7.6 스트림을 위한 클러스터링과 병렬 처리7.7 요약7.8 참고문헌8장. 웹을 통한 광고8.1 온라인 광고와 관련된 주제들8.2 온라인 알고리즘8.3 조합 문제8.4 애드워즈 문제8.5 애드워즈 구현8.6 요약8.7 참고문헌9장. 추천 시스템9.1 추천 시스템 모델9.2 내용 기반 추천9.3 협업 필터링9.4 차원 축소9.5 넷플릭스 챌린지9.6 요약9.7 참고문헌 10장. 소셜 네트워크 그래프 마이닝10.1 소셜 네트워크 그래프10.2 소셜 네트워크 그래프 클러스터링10.3 커뮤니티의 직접적 발견10.4 그래프 분할10.5 겹치는 커뮤니티 찾기 10.6 유사순위10.7 삼각형의 개수 세기10.8 그래프의 이웃 특징10.9 요약10.10 참고문헌11장. 차원 축소11.1 고윳값과 고유벡터11.2 주성분 분석11.3 특이 값 분해11.4 CUR 분해11.5 요약11.6 참고문헌12장. 대규모 머신 러닝12.1 머신 러닝 모델12.2 퍼셉트론12.3 서포트 벡터 머신12.4 최근접 이웃 학습12.5 학습 방식의 비교12.6 요약12.7 참고문헌