참고문헌과 색인 수록 SK SUPEX 기금의 후원으로 제작됨 ; 2021년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임
연계정보
외부기관 원문
목차보기
프롤로그
1부. 서론 1장. 데이터과학적 한국학 2장. 디지털 전환과 지구화 3장. 디지털 인문학 참고 문헌
2부. 데이터 수집과 가공 1장. 자원으로서 데이터 1. 국가 통계 포털 2. 공공 데이터 포털 3. 국사편찬위원회 한국사데이터베이스 4. 한국학중앙연구원 디지털 아카이브 5. AI 허브 6. 모두의 말뭉치 2장. 종류 1. 정형 데이터와 비정형 데이터 2. 레이블 데이터와 원시 데이터 3장. 데이터 웹 수집 1. 한국학 아카이브 자료 웹 수집 2. 소셜미디어 데이터 웹 수집 4장. 데이터 저장과 가공 1. 텍스트 파일 형식 2. JSON 형식 참고 문헌
3부. 데이터 분석 방법론 1장. 기술 통계량 및 데이터의 분포 1. 평균, 기대값 2. 분산, 표준편차, 편차 3. 공분산, 상관도 2장. 연관도, 유사도, 중요도 1. 상호정보량 2. 코사인 유사도 3. TF-IDF 가중치 3장. 텍스트 분석 및 전처리 1. 한글 인코딩과 글자 처리 2. 한자 변환 3. 어휘 형태 단위 토큰화 1) NLTK 2) KoNLPy 3) 기호 문자와 불용어(stopword)불용어 처리 4) 단어조각과 바이트페어 인코딩 4장. 언어 분석을 위한 기계 학습 및 딥러닝 1. 지도 학습, 비지도 학습, 자기 지도 학습 2. 텍스트 분류와 기계 학습 1) 나이브 베이즈 분류 2) 기계 학습 절차의 이해 3) 분류 모델의 평가 척도 3. 클러스터링: 비지도 학습 1) K-평균 군집 2) LDA 토픽 모델링 4. 신경망 학습 1) 기울기 하강과 비용 함수 2) 단어 임베딩과 표현 학습 3) 자기 지도 학습: 스킵그램(skip-gram)과 부정 대조 추정 4) 정적 임베딩과 어휘 형태와 의미의 연관성 5. 문맥 임베딩 1) 트랜스포머 언어 모델 2) 자기 지도 학습: 단어 가림 모델, 다음 문장 추정, 다음 단어 추정 6. 언어 모델과 전이 학습 1) 사전 학습 언어 모델과 정밀 학습 2) 초거대 언어 모델과 프롬프트 엔지니어링 3) 생성형 언어 모델과 상호작용형 학습 4) 초거대 언어 모델의 한계와 분류형 작은 언어 모델 참고 문헌
4부. 한국학 연구에 데이터과학적 방법의 적용 1장. 한글과 조선글 사용의 차이와 변화 1. 조선글과 한글 2. 1986년 조선글의 자모 조사 3. 2018년 한글의 자모 조사 4. 글자의 분석과 한글과 조선글의 차이를 넘어 참고 문헌 2장. 근대 언어학 잡지의 주제 분석 1. 『한글』의 근현대적 한글 운동 2. 『정음』의 근대 언어학적 언문 운동 3. 『월간잡지 朝鮮語』의 어용성 참고 문헌 3장. 근현대 잡지 텍스트의 근대성 분석 1. 『동광』의 주요 저자들과 언어적 근대성 2. 『별건곤』의 문화적 사회적 근대성 3. 『삼천리』의 주제적 근대성 참고 문헌 4장. 한국전쟁 휴전회담록 분석 1. 사료사적 이해와 자료의 특성 2. 언어 분석 자료의 구성 3. 본회의 기록의 분석 과정과 결과 4. 참모 장교 회의 기록의 분석 과정과 결과 5. 휴전회담 기록과 언어 모델에 기반한 발화 사실 분류 참고 문헌 5장. 한국의 ‘페미니즘’과 서양의 ‘feminism’ 1. 데이터 수집과 트위터 이슈 2. 트위터 텍스트 전처리 3. N-Gram 분석에 의한 ‘페미니즘’과 ‘feminism’ 비교 4. 맥락으로 보는 서양과 한국의 페미니즘 참고 문헌 6장. 한국 사회의 혐오와 차별의 언어 1. 인공지능의 언어 윤리 문제와 범주의 모호성 2. 언어 윤리 문제에 관한 AI 언어 모델 연구 3. 언어 윤리 문제에 관한 데이터 고찰 4. 언어 모델의 문맥 임베딩 표상 5. 챗지피티를 이용한 언어 윤리 문제 판별 6. 언어 윤리 문제와 한국 사회의 특성 연구 참고 문헌
5부. 데이터과학적 한국학 연구와 인문학의 미래 1장. 인문학 연구에서 ‘데이터과학적’이란? 2장. 데이터과학적 인문학의 미래와 한국학
이 책은 책을 읽고 개념적 이해만을 돕게 하는 것에서 나아가 실습할 수 있는 쉽고 유용한 예를 제시함으로써 인문학자들이 데이터과학을 가까이 활용할 수 있도록 하는 데에도 목적이 있다. 지금까지의 한국학 연구가 전통적인 방식의 인문학 연구, 문화 연구, 사회 연구, 정치연구로 진행이 되었다면, 이 책은 디지털 전환의 시대에 인문학 연구자가 디지털 방법론을 익혀서 이를 어떤 주제 분석에 활용하기 위한 구체적인 실현 과정을 보이는 것이다. 따라서 유용하고 쉽게 적용할 수 있는 방법론들을 소개하고 이를 인문학적 문제에 적용하는 과정을 보일 것이다. 통계학이나 기계 학습에 관한 책은 해당 분야 안에서 통용되는 전형적인 사례와 용어 및 방법론적 전개 방식을 따르기 때문에 인문사회 분야 연구자가 그러한 책을 가지고 공부를 하더라도 자신의 주제에 적용하기에는 상당한 어려움이 있다. 이 책은 데이터과학적 연구 방법을 인문학에 적용하기 위한 구체적인 사례와 용어를 인문학자에게 조금 더 친숙한 방식으로 안내하고, 이를 토대로 필자의 연구에 적용한 사례뿐만 아니라 향후 연구를 위한 탐색의 과정을 보이고자 한다. 이제 보다 최근의 방법론과 내용을 담은 도서가 나올 시점이 되었고 한국에 관한 그 무엇이든 연구할 수 있는 ‘한국학’이라는 이름의 타이틀을 붙인 시도로서 시작하게 되었다. 이 책은 어떤 세부 전공이나 분야에 제한을 두지 않고 인문학이든 사회학이든 컴퓨터학이든 관련된 많은 자료와 활용도가 높은 자료를 참고로 하되 인문학자에게 활용도가 큰 참고가 될 것으로 기대한다.