원표제: Feature engineering for machine learning : principles and techniques for data scientists 부록: A. 선형 모델링과 선형대수 기초 참고문헌과 색인 수록
연계정보
외부기관 원문
목차보기
1장. 머신 러닝 파이프라인 __데이터 __과제 __모델 __피처 __모델 평가
2장. 숫자를 위한 멋진 트릭 __스칼라, 벡터, 공간 __카운트 처리 ____바이너리 변환 ____양자화 또는 비닝 __로그 변환 ____로그 변환의 역할 ____거듭제곱 변환: 로그 변환의 일반화 __피처 스케일링 또는 정규화 ____min-max 스케일링 ____표준화(분산 스케일링) ____ℓ2 정규화 __상호작용 피처 __피처 선택 __요약 __참고 문헌
3장. 텍스트 데이터: 플래트닝, 필터링, 청킹 __bag-of-x: 자연어 텍스트를 평면 벡터로 변환 ____BoW ____bag-of-n-grams __정제된 피처를 위한 필터링 ____불용어 ____빈도 기반 필터링 ____어간 추출 __의미의 단위: n-grams에서 구문까지 ____파싱과 토큰화 ____구문 탐색을 위한 연어 추출 __요약 __참고 문헌
4장. 피처 스케일링의 효과: BoW에서 tf-idf로 __tf-idf: BoW 비틀기 __tf-idf 테스트 ____분류 데이터셋 생성 ____tf-idf 변환으로 BoW를 스케일링 ____로지스틱 회귀를 이용한 분류 ____일반화로 로지스틱 회귀 튜닝 __심층 분석: 무슨 일이 일어나고 있는가? __요약 __참고 문헌
5장. 범주형 변수: 로봇닭 시대에 달걀 개수 세기 __범주형 변수 인코딩 ____원-핫 인코딩 ____더미 코딩 ____이펙트 코딩 ____범주형 변수 인코딩의 장단점 __대규모 범주형 변수 처리 ____피처 해싱 ____빈 카운팅 __요약 __참고 문헌
6장. 차원 축소: PCA로 데이터 팬케이크 납작하게 만들기 __직관 __수식 유도 ____선형 투영법 ____분산과 경험적 분산 ____주성분: 첫 번째 식 ____주성분: 행렬-벡터식 ____주성분의 일반적인 해 ____피처 변환 ____PCA 구현 __PCA의 활약 __화이트닝과 ZCA __PCA의 고려 사항과 한계 __사용 예 __요약 __참고 문헌
7장. k-means 모델 스태킹을 통한 비선형 피처 생성 __k-means 클러스터링 __곡면 분할로서의 클러스터링 __분류를 위한 k-means 피처 생성 ____조밀한 피처 생성 __장단점과 몇 가지 사항들 __요약 __참고 문헌
8장. 피처 생성 자동화: 이미지 피처 추출과 딥러닝 __가장 단순한 이미지 피처(그리고 이것이 동작하지 않는 이유) __수동 피처 추출: SIFT와 HOG ____이미지 그래디언트 ____그래디언트 오리엔테이션 히스토그램 ____SIFT 아키텍처 __심층 신경망으로 이미지 피처 학습 ____완전 연결 계층 ____컨볼루션 계층 ____ReLU 변환 ____응답 정규화 계층 ____풀링 계층 ____AlexNet의 구조 __요약 __참고 문헌
9장. 다시 피처로: 학술 논문 추천 시스템 구축 __항목 기반 협업 필터링 __첫 번째 단계: 데이터 가져오기, 정제하기, 피처 파싱하기 ____학술 논문 추천 시스템: 단순 접근법 __두 번째 단계: 피처 엔지니어링과 더 똑똑한 모델 ____학술 논문 추천 시스템: 테이크 2 __세 번째 단계: 추가 피처 = 추가 정보 ____학술 논문 추천 시스템: 테이크 3 __요약 __참고 문헌
부록 A. 선형 모델링과 선형대수 기초 __선형 분류 개관 __행렬 분석 ____벡터에서 부분공간으로 ____특이값 분해 ____데이터 행렬의 기본적인 네 가지 부분공간 __선형 시스템 풀이 __참고 문헌
이용현황보기
피처 엔지니어링, 제대로 시작하기 : 데이터에서 효과적으로 정보를 추출하는 원리와 기법 이용현황 표 - 등록번호, 청구기호, 권별정보, 자료실, 이용여부로 구성 되어있습니다.
등록번호
청구기호
권별정보
자료실
이용여부
0002484320
006.31 -19-14
서울관 서고(열람신청 후 1층 대출대)
이용가능
0002484321
006.31 -19-14
서울관 서고(열람신청 후 1층 대출대)
이용가능
B000093092
006.31 -19-14
부산관 서고(열람신청 후 2층 주제자료실)
이용가능
출판사 책소개
★ 이 책에서 다루는 내용 ★
■ 숫자 데이터에 대한 피처 엔지니어링: 필터링, 비닝, 스케일링, 로그 변환, 거듭제곱 변환 ■ 텍스트 처리 기법: BoW(Bag-of-Words), n-gram, 구문 탐색 ■ 정보가 없는 피처를 제거하기 위한 빈도 기반 필터링 및 피처 스케일링 ■ 피처 해싱과 빈 카운팅 등을 포함하는 범주형 변수의 인코딩 기법 ■ 주성분 분석(PCA)을 이용한 모델 기반 피처 엔지니어링 ■ 피처 생성 기법으로 k-평균을 사용하는 모델 스태킹(model stacking)의 개념 ■ 딥러닝을 이용한 이미지 피처 추출
★ 이 책의 대상 독자 ★
이 책은 '모델과 벡터가 무엇인지'와 같은 기본적인 머신 러닝 지식을 전제로 한다. 물론 그와 관련된 간단한 설명이 제공될 것이다. 선형대수, 확률분포, 최적화 등에 대한 경험이 이 책을 이해하는 데 도움은 되지만 꼭 필요하지는 않다.
★ 이 책의 구성 ★
처음 몇 장은 데이터 과학과 머신 러닝을 시작하려는 사람들을 위한 다리를 제공하고자 천천히 시작한다. 1장에서는 데이터, 모델, 피처 등 머신 러닝 파이프라인의 기본 개념을 소개한다. 2장에서는 숫자 데이터를 위한 피처 엔지니어링의 기본인 필터링, 비닝(binning), 스케일링(scaling), 로그 변환(log transform), 거듭제곱 변환(power transform), 상호작용 피처(interaction feature) 등을 살펴본다. 3장에서는 자연어 텍스트를 위한 피처 엔지니어링을 다루며 BoW(Bag-of-Words), n-grams, 구문 탐색 등의 기법을 살펴본다. 4장에서는 피처 스케일링의 한 예로 tf-idf(term frequency-inverse document frequency)를 살펴보고 그 동작 원리를 설명한다. 5장에서는 피처 해싱(feature hashing)과 빈 카운팅(bin counting)을 포함해 범주형 변수에 대한 효율적인 인코딩 기법을 논의하면서 진행에 속도를 높인다. 주성분 분석(PCA, Principal Component Analysis)을 다루는 6장에 이르면 머신 러닝의 세계에 깊이 들어서게 된다. 7장에서는 피처 생성 기법으로서 k-평균을 다루며, 유용한 개념인 모델 스태킹(model stacking)을 설명한다. 8장에서는 텍스트 데이터에 비해 피처 추출이 훨씬 어려운 이미지에 대해 다룬다. 여기서는 이미지에 대한 최신 피처 추출 기법이라고 할 수 있는 SIFT와 HOG, 두 가지 수동 피처 추출 기법을 살펴볼 것이다. 9장에서는 학술 논문에 대한 추천 모델을 생성하는 예제를 통해 몇 가지 서로 다른 기법을 비교 분석한다.