CHAPTER 01 들어가며 CHAPTER 02 인공지능과 컴퓨터 비전 CHAPTER 03 인공지능 학습데이터 CHAPTER 04 인공신경망의 대두와 발전 CHAPTER 05 판별 모델 : 합성곱 신경망 CHAPTER 06 생성 모델 : 순환신경망, 적대적 생성신경망, 오토인코더 CHAPTER 07 전이학습, 멀티모달 인공지능 CHAPTER 08 인공지능 학습데이터 구축과 모델 개발 CHAPTER 09 인공지능 학습데이터의 품질 평가와 모델의 성능 평가 CHAPTER 10 미디어 인공지능 학습데이터 CHAPTER 11 미디어 인공지능의 모델과 활용 CHAPTER 12 설명 가능한 인공지능과 미디어 인공지능의 투명성 CHAPTER 13 신뢰할 수 있는 인공지능과 미디어 인공지능의 다양성 CHAPTER 14 생성 인공지능과 미디어 인공지능의 심미적 경험 CHAPTER 15 나가며 : 일반 인공지능과 미디어 인공지능
이용현황보기
미디어 인공지능 : 영상 분야의 딥러닝 활용을 중심으로 이용현황 표 - 등록번호, 청구기호, 권별정보, 자료실, 이용여부로 구성 되어있습니다.
등록번호
청구기호
권별정보
자료실
이용여부
B000104727
006.31 -24-22
부산관 종합자료실(1층)
이용가능
B000121503
006.31 -24-22
부산관 종합자료실(1층)
이용가능
출판사 책소개
이 책은 언론과 방송 등 미디어 분야의 연구, 교육, 실무 차원에서 AI 전환(AI transformation, AIX)을 촉진하기 위해 작성됐다. 이를 위해 다음과 같은 세 가지 측면을 염두에 두었다. 첫째, 기존의 AI 기술 서적은 대부분 미디어 분야와 무관하게 작성되어 있었다. 사실 AI 연구자들이나 규제 당국은 미디어에 대해 관심이 없었다. 반대로 언론사 역시 AIX에 관심을 갖고 있지만, 몇몇 해외 언론사를 제외하고 이를 전면적으로 실행하는 경우는 많지 않았다. 이 책은 미디어 분야의 AI 활용을 하나의 응용 분야로 제시하기 위해 미디어 AI이라는 용어를 제시하고, 미디어 AI로 포괄할 수 있는 핵심 기술을 설명했다. 기술적 부분 외에도 AI 연구에서 다소 추상적인 수준 또는 기술 일반 수준에서만 논의되고 있는 설명 가능한 AI(eXplainable AI, XAI)나 신뢰할 수 있는 인공지능(trustworthy AI, TAI), 멀티모달 AI에 대한 논의를 저널리즘 AI이나 대중문화 등 미디어 영역에서 집중적으로 살펴보았다. 둘째, 그동안 미디어 커뮤니케이션 학계나 업계에서는 딥러닝이 주로 텍스트를 대상으로, 기술적으로는 자연어처리 측면에서 다뤄져 왔다. 그 결과 분석 대상이 기사나 커뮤니티, 댓글 중심으로 이루어져 왔다. 이 책은 텍스트보다는 영상 분야, 즉 컴퓨터 비전(computer vision)의 딥러닝에 무게를 두고자 했다. 이를 통해 기존의 텍스트 중심의 딥러닝 활용 연구를 영상, 특히 동영상 분야로 확대하는데 도움이 되길 기대한다. 미디어 분야에서 컴퓨터 비전 관련 딥러닝 기술은 다음과 같은 측면에서 다루었다. 우선 미디어 AI의 주요 과업(task)을 정의하고, 기술적 측면에서 판별 모델은 합성곱 신경망(convolutional neural network, CNN), 생성 모델은 멀티모달 AI, 특히 스테이블 디퓨전(Stable Diffusion)을 중점적으로 다루었다. 이밖에 기존 기술 서적이 소홀히 하고 있는 AI 학습데이터 구축에 대한 내용을 특히 방송 동영상과 관련해 상술했다. 미디어 생산물은 특히 컴퓨터 비전 분야 학습데이터의 원천데이터로서 가치가 높기 때문이다. 셋째, 이 책은 교양서와 기술서 간의 간극을 메우고자 했다. 이를 통해 AI에 대한 지식이 전혀 없는 독자가 인공지능의 개념에서 시작해 컴퓨터 비전 분야 딥러닝의 전반적인 내용까지 이해하는데 도움을 주고자 했다. 미디어 커뮤니케이션학 분야에서 양적 접근을 하지만 컴퓨터 비전 분야 딥러닝은 낯선 양적 연구자는 물론, 학부생이나 대학원생을 비롯한 인문사회계 학생이나 기술적 이해를 바탕으로 AI에 비판적 연구를 수행하는 문화연구자, 그리고 컴퓨터공학을 전공하지 않은 언론사 기자나 방송사 프로듀서, 미디어 스타트업에 종사하는 비전공자 등 미디어 업계의 다양한 종사사, 미디어 관련 정책 담당자가 이해할 수 있도록 서술하고자 했다. 개발자들은 유튜브나 기술 블로그의 글, 오픈 액세스(open access) 논문 데이터베이스인 아카이브(arXiv) 등에 공개된 논문, 깃허브 등에 오픈소스로 올라온 내용, 쉽게 쓰인 다양한 개론서들을 통해 누구나 AI를 쉽게 공부할 수 있다고 말한다. 문제는 이러한 문서조차 AI에 입문하는 인문사회계 연구자에게는 너무나 많다는 것이다. 인문사회과학 전공자들이 AI 기술을 조금이라도 깊이 있게 공부하려고 해도 어디서 시작하고 어느 방향으로 나아가야 할지 막막하기만 하다. 쉽게 쓰인 개론서라고 해도 인문사회계 전공자들은 수식과 코드에 지레 겁을 먹게 되어 핵심 원리 파악에 어려움을 겪는다. 게다가 개론서조차 그 양이 방대하다. 반대로 교양서는 포괄적이기는 하나 기술에 대한 깊이 있는 이해를 얻기에는 어려움이 있다. 뿐만 아니라 교양서의 수많은 사례들도 금세 시의성을 잃고 만다. 인문사회과학 전공자가 보기에 교양서와 기술서 간의 간격이 큰 셈이다. 이 책은 AI에 관련된 교양서와 달리 좀 더 학술적인 관점에서 방향타를 제시할 수 있도록 작성했다. 딥러닝 분야의 방대한 성과를 최대한 간결하게 서술하도록 노력했으며 원리 중심으로 서술하고 사례는 독자의 이해를 돕는 수준에서 대표적인 것 위주로 절제해 기술했다. 소스 코드는 완전히 배제했으며 수식 사용도 최소화했다. 대신 이 분야에서 널리 인용되는 주요 논문이나 단행본은 참고문헌에 충분히 담고자 했다. 이 책을 출발점으로 추가 연구를 통해 양적 연구자는 딥러닝 기반 방법론을 정교화할 수 있을 것이다. 비판적 연구자는 기술 이해를 바탕으로 AI에 대한 적확한 진단을 내릴 수 있을 것이다. 미디어의 AIX가 어려운 것은 미디어 종사자들과 미디어 정책 담당자들이 AI에 대한 이해도가 낮기 때문일 수 있다. 언론인이나 방송인은 기술적 이해를 바탕으로 기획자로서 개발자와 협업하여 인간 중심 AI(human-centered AI)를 설계하고 비판적으로 운영, 고도화하는데 도움이 되기를 기대한다. 학생들은 미디어 AI 관련 연구자나 실무자로 성장하는 기반 지식을 얻을 수 있을 것이다.
이 책의 구성은 서론인 1장과 요약 및 제언에 해당하는 15장을 제외하면 크게 네 부분으로 나눌 수 있다. 첫 번째 부분은 2장부터 7장까지로, 세부적으로는 2장부터 4장까지는 인공지능에 대한 기본적인 이해를 다루며 인문사회계 학부 교양 수업 수준에 적합하다. 5장부터 7장까지는 컴퓨터 비전 분야의 딥러닝에 대한 이론을 전반적으로 다룬다. 미디어 커뮤니케이션 학부 전공 수업에서 공부할만 하다. 두 번째 부분은 실제 AI 학습데이터를 구축하고 모델을 개발하고 이를 평가하는 방법을 서술하는 부분으로 8장과 9장에 해당한다. 미디어 커뮤니케이션 학부 전공 고학년 수준에서 소화할 것으로 기대한다. 세 번째 부분은 10장과 11장으로 미디어 AI에 초점을 두고 AI 학습데이터와 모델 개발을 설명한다. 실제 모델을 개발하는 대학원생, 연구자, 실무자가 참고할 수 있는 내용이다. 네 번째 부분은 12장부터 14장까지로 미디어 AI의 가치를 다룬다. AIX을 추진하는 미디어 조직의 의사결정권자나 관련 정책 담당자, 비판적 접근을 하는 연구자에게 참고가 될 수 있을 것이다. 각 장별로 내용을 좀 더 소개하면 아래와 같다. 2장은 컴퓨터 비전과 딥러닝의 기본 개념을 살펴본다. 1절은 AI, 기계학습, 딥러닝의 개념과 유형을 다룬다. AI 개념에서는 튜링테스트(turing test)와 중국어 방(Chinese room) 논증을 설명한다. 2절에서는 디지털 영상의 개념, 디지털 영상의 함수 표현, 그리고 디지털 영상 처리(digital image processing)의 과업인 영상 변환(image transformation), 영상 분석(image analysis), 영상 인식(image recognition) 등을 살펴본다. 3장에서는 AI 학습데이터의 개념과 영상 분야 AI 학습데이터의 유형을 기술한다. 가장 기본적이고 중요한 AI 학습데이터 유형은 직사각형 형태의 바운딩박스(bounding box)이다. 이미지넷(ImageNet), COCO(Common Objects in Context) 등 컴퓨터 비전 분야의 주요 벤치마크 데이터세트도 소개한다. 4장에서는 딥러닝 이전의 인공신경망을 다룬다. 구체적으로는 단순선형회귀(simple linear regression), 다중선형회귀(multiple linear regression), 로지스틱 회귀(logistic regression)를 인공신경망으로 표현한 단층퍼셉트론(single layer perceptron), 다층퍼셉트론(multilayer perceptron)으로 이어지는 발전을 살펴본다. 최적화(optimization), 손실함수(loss function), 활성함수(activation function), 경사 하강법(gradient descent), XOR 문제와 해결, 오차역전파(error backpropagation), 기울기 소실(gradient vanishing) 문제 등 딥러닝을 이해하는데 필수적인 기본 개념을 소개한다. 5장에서는 판별 모델인 합성곱 신경망의 개념과 구조, 발전을 살펴본다. 또한 알렉스넷(AlexNet)에서 시작하여 미디어 AI에 유용한 실시간 객체탐지 모델인 YOLO(You Only Look Once)와 다중객체추적(multi object tracking, MOT)까지 합성곱 신경망의 발전을 간략히 훑어본다. 6장에서는 생성 모델인 순환신경망(recurrent neural network, RNN), 적대적 생성 신경망(generative adversarial network, GAN), 오토인코더(autoencoder)의 개념과 구조, 발전을 간략히 살펴본다. 7장에서는 최근 각광받는 전이학습(transfer learning)과 멀티모달 AI를 살펴본다. 특히 오토인코더와 결합한 잠재 확산 모델(latent diffusion model)인 스테이블 디퓨전을 중심으로 소개할 것이다. 8장에서는 AI 학습데이터의 설계, 수집, 전처리, 가공, 검수 등의 과정을 설명한다. 또한 AI 학습데이터 구축에 필요한 저작도구로서 블랙올리브 사례를 소개한다. 이어 AI 모델의 기획, 준비, 개발, 활용을 단계별로 살펴본다. 9장에서는 AI 학습데이터의 데이터 품질 평가와 AI 모델의 성능 평가 문제를 다룬다. 또한 데이터 품질과 밀접한 관계가 있는 AI 학습데이터의 표준화 문제도 다룬다. AI 학습데이터는 비정형 데이터를 포함하고 있어서 기존의 데이터 표준화와는 다른 접근이 필요하다. 이어 데이터 품질 평가와 모델 성능 평가에 활용되는 평가 지표들을 소개한다. 특히 F1 점수(F1 score), mAP(mean average precision)와 같은 판별 모델의 성능 평가 지표와 함께 재현율(recall)과 정밀도(precision)를 활용한 생성 모델의 성능 평가 지표도 소개한다. 10장에서는 한국지능정보사회진흥원의 AI허브에 공개된 방송 동영상 활용 AI 학습데이터를 소개한다. 특히 방송 동영상과 유튜브 동영상을 원천데이터로 활용해 학습데이터를 구축해 공개한 8종의 데이터세트 중 7종에 대해 데이터 표준화를 수행하고 정리한 수량을 제시한다. 11장에서는 방송 분야의 미디어 AI에서 중요한 과업들과 활용 가능한 모델을 소개한다. 또한 실무와 연구 차원에서 미디어 AI의 활용 사례와 활용 절차를 살펴본다. 12장, 13장은 미디어 AI가 저널리즘의 핵심 문제를 어떻게 해결할 수 있을지를 탐색한다. 12장에서는 설명가능한 인공지능에서 강조하는 투명성(transparency) 개념이 사실성 제도로서 언론의 위기 해결에 기여할 수 있는 바를 모색한다. 13장에서는 신뢰할 수 있는 인공지능을 미디어 신뢰도 개선에 활용할 수 있는 방안을 고민한다. TAI는 특히 다양성 측면에서 공정성을 보완할 수 있을 것으로 기대된다. 14장은 대중문화 측면에서 AI가 어떤 가치를 갖는지를 살펴본다. 특히 생성 AI는 사용자의 창작성을 증대시킨다. 더 나아가 대중문화의 가치론적 무게 중심을 창작성에서 사용자 커뮤니티의 심미적 경험으로 이행하는 과정을 가속화할 것이다.