표제지
목차
국문요약 14
제1장 서론 16
1.1. 연구 배경 및 목적 16
1.2. 연구의 방법 및 구성 19
제2장 관련연구 22
2.1. 시각장애인을 위한 디지털 콘텐츠 해설 22
2.1.1. 디지털 환경에서 시각장애인의 정보 획득 도구 22
2.1.2. 동영상 콘텐츠에서 시각장애인을 위한 기술 25
2.2. 영상에서 정보를 획득하기 위한 다양한 기술 29
2.2.1. Optical Character Recognition 29
2.2.2. Image Feature Descriptor 31
제3장 비대면 강의 환경에서 시각장애 학생의 요구사항 분석 36
3.1. 연구 목표 36
3.2. 요구사항 도출을 위한 시각장애 학생 사전 인터뷰 37
3.2.1. 사전 인터뷰 설계 37
3.2.2. 사전 인터뷰 결과 38
3.3. 기존 대안 분석을 통한 한계점 파악 44
3.4. 시스템 기능 및 연구 범위 설정 47
제4장 동영상 강의 내 화면자료 음성 해설 제공 49
4.1. 시스템 개요 49
4.1.1. 연구 목표 49
4.1.2. 시스템 구성 및 실행 환경 50
4.2. 화면자료 해설 방법 설계 51
4.2.1. 화면자료 구성 요소 분석 및 해설 방법 설계 51
4.2.2. 화면자료 해설 프로토타입 제작 53
4.2.3. 프로토타입 평가 설계 54
4.2.4. 프로토타입 평가 결과 분석 55
4.3. 화면자료 음성 해설 시스템 구현 60
4.3.1. 화면자료 음성 해설 시스템 설계 60
4.3.2. 동영상 화면 내 슬라이드 단위 전환 시점 추출 61
4.3.3. 슬라이드 매칭 알고리즘 설계 및 성능 비교 62
4.3.4. 강의 자료 슬라이드별 해설 음성 자동 생성 66
4.3.5. 영상 병합 및 최종 영상 생성 68
4.4. 화면자료 음성 해설 시스템 사용성 평가 70
4.4.1. 시스템 사용성 평가 설계 70
4.4.2. 사용성 평가 결과 분석 71
제5장 동영상 강의 내 화면표시액션 음성 해설 제공 75
5.1. 시스템 개요 75
5.1.1. 연구 목표 75
5.1.2. 시스템 구성 및 실행 환경 76
5.2. 화면표시액션 해설 방법 설계 77
5.2.1. 교수자의 액션 종류 분석 및 해설 방법 설계 77
5.2.2. 화면표시액션 해설 프로토타입 제작 80
5.2.3. 프로토타입 평가 설계 80
5.2.4. 프로토타입 평가 결과 분석 82
5.3. 화면표시액션 음성 해설 시스템 구현 85
5.3.1. 화면표시액션 음성 해설 시스템 설계 85
5.3.2. 동영상 내 화면표시액션 등장 여부 파악 및 영역 검출 86
5.3.3. 프레임 내 텍스트 영역 검출 93
5.3.4. 좌표 비교를 통한 강조 대상 파악 94
5.3.5. 강조 대상 자동 음성해설 및 영상 병합 95
5.4. 화면표시액션 음성 해설 시스템 사용성 평가 98
5.4.1. 시스템 사용성 평가 설계 98
5.4.2. 사용성 평가 결과 분석 100
제6장 결론 104
참고문헌 107
ABSTRACT 113
부록 115
1. 요구사항 분석 인터뷰에서 사용한 질문지 목록 115
2. 화면자료 해설 프로토타입의 질적 경험 분석을 위한 질문지 117
3. Tesseract와 Google Cloud Vision API를 사용한 OCR 수행 결과 비교 118
〈표 1〉 요구사항 인터뷰 참여자의 장애 유형 및 등급 37
〈표 2〉 도우미 학생 활동 내용 인터뷰 결과 요약 45
〈표 3〉 화면자료 음성 해설 시스템 구성 및 실행 환경 50
〈표 4〉 화면자료 내 요소별 음성 해설 방법 52
〈표 5〉 슬라이드별 해설본 생성 방법 67
〈표 6〉 서비스 사용 효과의 측정지표 및 측정 방법 71
〈표 7〉 화면표시액션 음성 해설 시스템 구성 및 실행 환경 76
〈표 8〉 교수자의 강조 및 지칭 방법의 종류 78
〈표 9〉 화면표시액션의 종류별 해설 방법 80
〈표 10〉 화면표시액션 해설 방법 사용성 평가의 측정지표 및 방법 81
〈표 11〉 분류 모델 성능 평가 지표와 실험 적용 예시 87
〈표 12〉 유사도 임계값 설정 실험을 위한 실험시료군집 89
〈표 13〉 사용성 평가 항목과 측정 방법 및 태스크 99
〈표 14〉 화면표시액션 해설 시스템의 개선 및 추가요청 기능 102
[그림 1] 전반적인 연구 방법 및 흐름 21
[그림 2] 다양한 한소네 제품 시리즈 23
[그림 3] 데이지 플레이어 (좌)책마루2 OCR ET (우) 리니오 포켓 24
[그림 4] 화면 확대 S/W (좌)줌텍스트 (우)룩스줌 24
[그림 5] 화면 낭독 S/W (좌)센스리더 (우)JAWS 25
[그림 6] 시스템 수행 결과 (a)defocus (b)focus (c)ocr 26
[그림 7] (좌)사람이 직접 시간 설정과 해설을 작성해야하는 경우 (우)시스템으로 장면 분할과 해설이 자동으로 생성된 경우 27
[그림 8] (A)접근성 관련 정보가 제공되지 않는 비디오 (B-좌)접근성 분석 요소 (B-우)접근성 분석 요소로 자동으로 출된 접근성 스코어 (C)접근성... 28
[그림 9] OCR의 처리 프로세스 29
[그림 10] 텍스트 후보 영역 추출 프로세스 30
[그림 11] 특징점 추출 및 매칭 결과 (a)SIFT, (b)SURF, (c)ORB 31
[그림 12] SIFT 알고리즘의 처리 프로세스 32
[그림 13] SURF 알고리즘의 수행 결과 33
[그림 14] FAST 알고리즘의 처리 프로세스 33
[그림 15] BRIEF 알고리즘의 처리 프로세스 34
[그림 16] ORB 알고리즘의 처리 프로세스 35
[그림 17] 시각장애 학생 요구사항 분석 흐름도 36
[그림 18] 시각장애 학생의 장애 유형과 상황별 수업 이해도 비교 39
[그림 19] 강의자료 이해에 어려움을 겪은 시각자료 종류별 키워드 등장 횟수 41
[그림 20] 화면자료 자동 음성해설 시스템 흐름도 50
[그림 21] 수식 낭독 규칙 52
[그림 22] 화면 및 강조액션 해설 삽입 유무와 시점에 따른 프로토타입 종류 54
[그림 23] 화면자료와 강조 액션 해설 유무에 따른 이해도 점수 비교 55
[그림 24] 강조 액션 해설 시점에 따른 이해도 점수 비교 57
[그림 25] 화면자료 음성해설 시스템 프로세스 60
[그림 26] PySceneDetect와 scikit-image를 이용한 프레임 추출 및 필터링 62
[그림 27] Jaccard 유사도를 이용한 Image Hash 매칭 알고리즘 63
[그림 28] ORB Image Feature을 이용한 유사도 비교 및 매칭 예시 64
[그림 29] Jaccard 유사도를 이용한 Text Similarity 매칭 알고리즘 65
[그림 30] 유사도 기반 매칭 알고리즘의 정확도 비교 66
[그림 31] 해설 영상과 원본 강의의 최종 병합 순서 68
[그림 32] 강의 자료와 강의 영상을 구현한 시스템에 업로드하여 음성해설 제공 강의를 생성하는 모습 69
[그림 33] 자동으로 화면자료에 음성 해설이 추가된 영상 및 전용 플레이어 69
[그림 34] 화면자료 해설 시스템의 이해도 평가 결과 72
[그림 35] 화면자료 해설 시스템의 강의 자료 유형별 이해도 평가 결과 비교 73
[그림 36] 전맹인과 정안인의 만족도 및 사용의향 결과 비교 74
[그림 37] 화면표시액션 음성 해설 시스템 연구 프로세스 75
[그림 38] 화면표시액션의 강조 대상별 예시 자료 79
[그림 39] 화면표시액션 프로토타입의 효과성 및 만족도 평가 결과 83
[그림 40] 강의 동영상 내 화면표시액션 음성 해설 프로세스 85
[그림 41] 정밀도, 재현율, F1 Score 산출 공식 87
[그림 42] 민감도 수치에 따른 화면표시액션 검출 결과 88
[그림 43] 분류 및 군집에 따른 프레임 유사도 측정치 분포 90
[그림 44] 화면표시액션 등장 여부 파악 및 검출 단계별 실행 결과 92
[그림 45] Google Cloud Vision OCR API의 수행 결과 94
[그림 46] 텍스트 영역과 화면표시액션 영역 대조 예시 95
[그림 47] TTS 생성을 위한 json 파일 내용 96
[그림 48] 강의 동영상 내 화면표시액션에 따른 자동해설 내용 예시 97
[그림 49] 화면표시액션 해설 여부에 따른 이해도 점수 비교 100