표제지
목차
요약문 4
SUMMARY 5
제1장 주요 연구개발 추진 내용 16
1.1. 연구 배경 및 필요성 17
1.1.1. 연구개발의 배경 17
1.1.2. 연구 필요성 19
1.2. 연구 범위 및 내용 23
1.3. 연구 기대 효과 24
제2장 안전기준과 데이터 추출방법 고도화 25
2.1. 관련 시스템 실시간 연동 26
2.1.1. 안전기준 체계화 대상범위 선정 26
2.1.2. 안전기준 어휘의미망 29
2.1.3. 국가법령정보센터 34
2.2. 비정형, 반정형 데이터 정제, 처리 방안 고안 38
2.2.1. 문서정제, 어휘이해 기술검토 및 개선 38
2.2.2. 안전기준 도표,이미지 등 비정형 데이터 탑재 경우 대응 방안 42
2.2.3. 하위법령 링크(URL) 등 반정형 데이터 처리 경우 대응 방안 44
2.3. 도표 및 이미지 상 정보 자동추출 방안 개발 47
2.3.1. 복합구조 문서에서의 지식 추출 47
2.3.2. 이미지 및 도표 정보 속성 유형 50
2.3.3. 안전기준 데이터를 위한 추출 기능 개발 54
2.4. 문서정제, 어휘이해, 검토 및 개선 57
2.4.1. 문서정제 기술 현황 57
2.4.2. 어휘이해 기술 현황 66
2.4.3. 안전기준 데이터를 위한 적용 기술 개발 69
제3장 안전기준 자동독해ㆍ추출을 위한 알고리즘 개발 72
3.1. 타분야 활용 알고리즘 조사 73
3.1.1. 자연어 처리 알고리즘 73
3.1.2. 법령 대상 자동 독해 정보 추출 해외 분석 사례 81
3.1.3. 법률계약서 대상 기계독해 모델 국내 사례 분석 83
3.1.4. 언론분야 AI 언어모델 86
3.1.5. 딥러닝 기술을 이용한 한국어 특허상담 기계독해 88
3.1.6. 한국어 상식분야 질의응답 기술 90
3.2. 안전기준 독해ㆍ추출 알고리즘 도출 92
3.2.1. 안전기준 전문 파싱 기반 주요 키워드 선별 92
3.2.2. 주요 키워드 연관키워드 중심 모델 구축 95
3.2.3. 구축 학습데이터 기반 추가 연관키워드 중심 모델 확장 97
3.2.4. 키워드-연관키워드 연결 AI 어휘망 구축 98
3.2.5. 키워드 검색시 연관어 동시 검색 가능한 지능형 검색기 구현 104
3.2.6. 키워드 포함 법령/연관어 검색 및 결과 표출 사용자 인터페이스 연구 104
3.3. 알고리즘 설계 및 시범구축 105
3.3.1. 문답형 안전기준 분석 절차 및 과정설계 105
3.3.2. 안전기준 기사 분류기 학습 과정 106
제4장 문답형 안전기준 분석기술 시범 개발 108
4.1. 문답형 안전기준 분석 절차 및 과정 설계 109
4.1.1. 안전기준 질의 입력 시나리오별 인터페이스 설계 109
4.1.2. 질의 의도 파악 방안 설계 111
4.1.3. 다중 질의 응답시 대화 관리 체계 설계 112
4.2. 독해ㆍ추출 알고리즘 활용 문답형 안전기준 분석기술 개발 123
4.2.1. 안전기준 추출검색 지원시스템 디자인 설계 123
4.2.2. 안전기준 추출검색 지원시스템 구현 132
4.3. 문답형 안전기준 시연내용 145
4.3.1. 단순 검색어 적용 사례 145
4.3.2. 연관 검색어 적용 사례 145
4.3.3. 재난안전 주요 지적뉴스 검색 사례 146
제5장 요약 및 토의 148
5.1. 연구결과 149
5.1.1. 안전기준 데이터 추출방법 고도화 149
5.1.2. 안전기준 자동독해ㆍ추출을 위한 알고리즘 개발 150
5.1.3. 문답형 안전기준 분석 기술 시범 개발 150
5.2. 연구함의 151
참고문헌 152
판권기 158
표 1.1. 안전기준 정의 및 분야ㆍ범위 19
표 1.2. 안전기준심의회 개최 현황 21
표 2.1. 사고-인과 관계론적 개념 근거 분류기준 계층도 27
표 2.2. 안전기준 구분을 위한 판단기준 설정 28
표 2.3. 안전기준 분류체계 제시안 28
표 2.4. 빅데이터 처리 과정 39
표 2.5. 빅데이터 품질 관리 40
표 2.6. 빅데이터 저장 방식의 분류 41
표 2.7. 이미지 데이터셋의 부가정보 속성 52
표 2.8. 임계(이진화 기술) 61
표 2.9. 안전기준 등록 자료범위 70
표 3.1. 법률계약서 질의응답 데이터셋 내역 84
표 3.2. 일반조문과 안전기준 조문의 길이 비교 93
표 3.3. 일반조문과 안전기준을 포함한 조문의 키워드 출현빈도 94
그림 2.1. 한국산업안전보건공단 안전보건용어사전(3,613건) 30
그림 2.2. 한국법제연구원 법령용어사전(6,178건) 31
그림 2.3. 국립재난안전연구원 재난원인사전(628건) 31
그림 2.4. 어휘망 근거값 도출 32
그림 2.5. 주요 키워드 대한 어휘 벡터 생성 방안 설계 32
그림 2.6. 안전기준 추출 라벨링 1 33
그림 2.7. 안전기준 추출 라벨링 2 33
그림 2.8. OPEN API 활용 가이드 34
그림 2.9. 국가법령정보센터 '안전기준 등록' 검색 조회 화면 1 35
그림 2.10. 국가법령정보센터 '안전기준 등록' 검색 조회 화면 2 36
그림 2.11. 목록화 작업 산출물(엑셀) - 행정규칙, 법령 구분 진행 36
그림 2.12. 시행일 법령 목록 조회 및 행정규칙 목록 조회 결과 XML 37
그림 2.13. 안전기준목록정보 테이블 정의서 37
그림 2.14. 빅데이터 정제 38
그림 2.15. 이미지 비정형 데이터 처리 프로세스 43
그림 2.16. 도표 비정형 데이터 처리 프로세스 44
그림 2.17. 반정형 데이터 처리 프로세스 45
그림 2.18. 템플릿 매칭 통한 좌표 기반 추출 기법 적용 46
그림 2.19. 데이터 처리 과정 및 지식 추출 흐름도 47
그림 2.20. 문장구조(두괄식 미괄식) 48
그림 2.21. 문장 내 형태소 구분 49
그림 2.22. 형태소 추출 과정 50
그림 2.23. 딥러닝 아키텍처(TabStruct-Net) 53
그림 2.24. OCR 자동 추출이 필요한 이미지 데이터 54
그림 2.25. OCR 자동 추출 55
그림 2.26. OCR 자동 추출 결과 55
그림 2.27. 첨부파일 및 내용 동시 제공 형태 56
그림 2.28. 건설기계 안전기준에 관한 규칙 中 OCR 기술 필요 예시 57
그림 2.29. 건설기계 안전기준에 관한 규칙 中 이미지 테이블 파싱 기술 필요 예시 58
그림 2.30. 건설기계 안전기준에 관한 규칙 中 수식 정규화 기술 필요 예시 58
그림 2.31. 건설기계 안전기준에 관한 규칙 中 수학 기호 정규화 기술 필요 예시 58
그림 2.32. 건설기계 안전기준에 관한 규칙 中 모든 케이스에 해당하지 않는 경우 59
그림 2.33. 잡영 제거 과정 61
그림 2.34. 학습모델: Inception-v3, TensorFlow, VGG 등(Inception-v3+TensorFlow 정확도 96%) 62
그림 2.35. 딥러닝 기반 OCR 파이프라인 63
그림 2.36. 전/후처리기 시스템 구성 64
그림 2.37. 문서 제목 검출 과정 65
그림 2.38. 문서 종류 분류 과정 66
그림 2.39. 어휘이해 기술 동향 67
그림 2.40. 기계독해이해 지식구조 68
그림 3.1. 객체 감지 모델 출력 결과 예시 83
그림 3.2. 모델 학습 프로세스 85
그림 3.3. KPF-BERT 87
그림 3.4. 특허상담 학습 데이터셋 및 특허분야 기계학습 흐름도 89
그림 3.5. 한국어 문어체 분석 91
그림 3.6. 한국어 상식분야 질의응답 기술 92
그림 3.7. 일반조문과 안전기준을 포함한 조문의 길이 분포 94
그림 3.8. 안전기준 전문 파싱 기반 주요 키워드 선별 99
그림 3.9. 언어처리 및 분석 모델링 99
그림 3.10. 주요 키워드 연관키워드 중심 모델 100
그림 3.11. 서술성 명사 동시 등장 비율 100
그림 3.12. 의미역 부착기 101
그림 3.13. 논항 및 의미역 체계 101
그림 3.14. 의존 구문구조 기반 의미역 관계 및 의존구문 분석 102
그림 3.15. 의미역 추출기 102
그림 3.16. 사건정보 추출 103
그림 3.17. 의미역 표지 부착 103
그림 3.18. 안전기준 검색기 연관어 동시검색 104
그림 3.19. 안전기준 검색기 결과 표출 사용자 인터페이스 105
그림 3.20. 문답형 안전기준 분석 절차 및 과정설계 학습데이터 106
그림 3.21. 문답형 안전기준 분석 절차 및 과정설계 학습모델 107
그림 4.1. 단일 검색어 및 연관어 검색 109
그림 4.2. 뉴스기사 관련 안전기준 검색 110
그림 4.3. AI 어휘망 표출 111
그림 4.4. MMR 산정 116
그림 4.5. RAKE Automatic 키워드 추출 116
그림 4.6. 정보 엔트로피 121
그림 4.7. 안전기준 추출검색 지원시스템 설계 - 안내 페이지 124
그림 4.8. 안전기준 추출검색 지원시스템 설계 - 법령 124
그림 4.9. 안전기준 추출검색 지원시스템 설계 - 뉴스검색 125
그림 4.10. 안전기준 추출검색 지원시스템 설계 - 검색어 입력 126
그림 4.11. 안전기준 추출검색 지원시스템 설계 - 연관어 입력 126
그림 4.12. 안전기준 추출검색 지원시스템 설계 - 연관어 표시 127
그림 4.13. 안전기준 추출검색 지원시스템 설계 - 연관어 추가 127
그림 4.14. 안전기준 추출검색 지원시스템 설계 - 연관어 검색 128
그림 4.15. 안전기준 추출검색 지원시스템 설계 - 검색 히스토리창 129
그림 4.16. 안전기준 추출검색 지원시스템 설계 - AI어휘망 129
그림 4.17. 안전기준 추출검색 지원시스템 설계 - AI어휘망 표시 130
그림 4.18. 안전기준 추출검색 지원시스템 설계 - 법령정보센터 1 130
그림 4.19. 안전기준 추출검색 지원시스템 설계 - 삼단비교 131
그림 4.20. 안전기준 추출검색 지원시스템 설계 - 법령정보센터 2 131
그림 4.21. 안전기준 추출검색 지원시스템 설계 - 법령정보센터 3 132
그림 4.22. 안전기준 추출 검색 지원 시스템 안내 화면 133
그림 4.23. 안전기준 추출 검색 지원 시스템 - 법령 134
그림 4.24. 안전기준 추출 검색 지원 시스템 - 법령 검색 134
그림 4.25. 안전기준 추출 검색 지원 시스템 - 자치법규 135
그림 4.26. 안전기준 추출 검색 지원 시스템 - 자치법규 검색 135
그림 4.27. 안전기준 추출 검색 지원 시스템 - 행정규칙 136
그림 4.28. 안전기준 추출 검색 지원 시스템 - 행정규칙 검색 137
그림 4.29. 안전기준 추출 검색 지원 시스템 - 판례 138
그림 4.30. 안전기준 추출 검색 지원 시스템 - 판례 검색 138
그림 4.31. 안전기준 추출 검색 지원 시스템 - 별표서식 139
그림 4.32. 안전기준 추출 검색 지원 시스템 - 별표서식 검색 139
그림 4.33. 안전기준 추출 검색 지원 시스템 - 이미지 검색 140
그림 4.34. 안전기준 추출 검색 지원 시스템 - AI어휘망 상세조회 141
그림 4.35. 안전기준 추출 검색 지원 시스템 - 재난뉴스 142
그림 4.36. AI어휘망-법령 143
그림 4.37. AI어휘망-자치법규 143
그림 4.38. AI어휘망-행정규칙 144
그림 4.39. AI어휘망-판례 144
그림 4.40. 안전기준 추출 검색 지원 시스템 단순 검색어 적용 사례 145
그림 4.41. 안전기준 추출 검색 지원 시스템 연관어 적용 사례 146
그림 4.42. 안전기준 추출 검색지원 시스템 재난뉴스 사례 시연 1 147
그림 4.43. 안전기준 추출 검색지원 시스템 재난뉴스 사례 시연 2 147