1장. 데이터 마이닝
1.1 데이터 마이닝이란?
1.2 데이터 마이닝의 통계적 한계점
1.3 알아두면 유용한 사실들
1.4 이 책의 개요
1.5 요약
1.6 참고문헌

2장. 맵리듀스와 새로운 소프트웨어 스택
2.1 분산 파일 시스템
2.2 맵리듀스
2.3 맵리듀스를 사용하는 알고리즘
2.4 맵리듀스의 확장
2.5 통신 비용 모델
2.6 맵리듀스에 대한 복잡도 이론
2.7 요약
2.8 참고문헌

3장. 유사 항목 찾기
3.1 근접 이웃 탐색의 응용
3.2 문서의 슁글링
3.3 집합의 유사도 보존 요약
3.4 문서의 지역성 기반 해싱
3.5 거리 측정
3.6 지역성 기반 함수의 이론
3.7 기타 거리 측정법들을 위한 LSH 함수군
3.8 지역성 기반 해시 응용 분야
3.9 높은 유사도 처리 방법
3.10 요약
3.11 참고문헌

4장. 스트림 데이터 마이닝
4.1 스트림 데이터 모델
4.2 스트림 데이터의 표본추출
4.3 스트림 필터링
4.4 스트림에서 중복을 제거한 원소 개수 세기
4.5 모멘트 근사치
4.6 윈도 내에서의 카운트
4.7 감쇠 윈도
4.8 요약
4.9 참고문헌

5장. 링크 분석
5.1 페이지랭크
5.2 페이지랭크의 효율적인 연산
5.3 주제 기반 페이지랭크
5.4 링크 스팸
5.5 허브와 권위자
5.6 요약
5.7 참고문헌

6장. 빈발 항목집합
6.1 시장바구니 모델
6.2 시장바구니와 선험적 알고리즘
6.3 메인 메모리에서 더 큰 데이터 집합 처리하기
6.4 단계 한정 알고리즘
6.5 스트림에서 빈발 항목 개수 세기
6.6 요약
6.7 참고문헌

7장. 클러스터링
7.1 클러스터링 기법의 개요
7.2 계층적 클러스터링
7.3 k평균 알고리즘
7.4 CURE 알고리즘
7.5 비유클리드 공간에서의 클러스터링
7.6 스트림을 위한 클러스터링과 병렬 처리
7.7 요약
7.8 참고문헌

8장. 웹을 통한 광고
8.1 온라인 광고와 관련된 주제들
8.2 온라인 알고리즘
8.3 조합 문제
8.4 애드워즈 문제
8.5 애드워즈 구현
8.6 요약
8.7 참고문헌

9장. 추천 시스템
9.1 추천 시스템 모델
9.2 내용 기반 추천
9.3 협업 필터링
9.4 차원 축소
9.5 넷플릭스 챌린지
9.6 요약
9.7 참고문헌

10장. 소셜 네트워크 그래프 마이닝
10.1 소셜 네트워크 그래프
10.2 소셜 네트워크 그래프 클러스터링
10.3 커뮤니티의 직접적 발견
10.4 그래프 분할
10.5 겹치는 커뮤니티 찾기
10.6 유사순위
10.7 삼각형의 개수 세기
10.8 그래프의 이웃 특징
10.9 요약
10.10 참고문헌

11장. 차원 축소
11.1 고윳값과 고유벡터
11.2 주성분 분석
11.3 특이 값 분해
11.4 CUR 분해
11.5 요약
11.6 참고문헌

12장. 대규모 머신 러닝
12.1 머신 러닝 모델
12.2 퍼셉트론
12.3 서포트 벡터 머신
12.4 최근접 이웃 학습
12.5 학습 방식의 비교
12.6 요약
12.7 참고문헌

목차