목차

표제지

목차

요약문 6

Ⅰ. 서론 13

제1절 연구배경 13

제2절 연구목표 및 내용 14

제3절 연구방법 15

Ⅱ. 문헌연구 및 선행연구에 대한 고찰 18

제1절 자연어 처리를 활용한 텍스트 분석 18

제2절 자연어 처리의 공공부문 활용 28

제3절 데이터 · 인공지능 기반 국가R&D 프로세스 개선 사례 35

제4절 소결: 국가연구개발사업 평가에의 AI 적용 가능성과 이슈 50

Ⅲ. 전략계획서 성과지표 설정 지원 서비스 기획 연구 54

제1절 데이터 54

제2절 모델 탐색 및 보완 57

제3절 평가 및 활용성 검증 90

Ⅳ. 중간평가 등급 설정 지원 서비스 기획 연구 93

제1절 데이터 93

제2절 모델 탐색 및 보완 98

제3절 평가 및 활용성 검증 121

Ⅴ. 결론 및 시사점 124

제1절 결론 124

제2절 시사점 127

[부록] AI 평가지원서비스 개념설계(안) 129

참고문헌 133

[표 1-1] 연구개발과제 추진체계 15

[표 1-2] 연구개발과제 추진일정 16

[표 1-3] 연구진회의 추진일정 및 개요 17

[표 1-4] 소관 부처 보고 및 조정사항 개요 17

[표 2-1] 자연어 처리를 통해 추출된 정보의 유형 및 적용 예 18

[표 2-2] 성과평가 통합관리시스템 프로세스 38

[표 2-3] 국가연구개발사업정보 데이터(2016년~2022년) 48

[표 3-1] 인공지능 활용을 위한 평가데이터셋 구축 결과 개요 54

[표 3-2] PEIS 전략계획서와 성과목표지표계획서의 데이터 입력 항목 비교 55

[표 3-3] KeyBERT 및 SBERT를 활용한 선행연구 57

[표 3-4] 성과지표 설정지원 모델 활용계획 개요 64

[표 3-5] SBERT 샘플사업 3개 유사도분석 결과 요약 66

[표 3-6] SBERT 샘플사업 3개 유사도분석 세부 결과(세부사업명, 사업목적 기준) 67

[표 3-7] SBERT 샘플사업 3개 유사도분석 세부 결과(세부사업명, 사업목적 기준) 68

[표 3-8] KeyBERT diversity 조정에 따른 키워드 추출 결과 예시(bi-gram/5개 키워드 기준) 70

[표 3-9] 중소기업 키워드별 상위 10개 관련사업 추출 결과(diversity 0.7) 71

[표 3-10] 중소기업 키워드별 상위 10개 관련사업 추출 결과(diversity 0.5) 72

[표 3-11] 인력양성 키워드별 상위 10개 관련사업 추출 결과(diversity 0.7) 74

[표 3-12] 인력양성 키워드별 상위 10개 관련사업 추출 결과(diversity 0.5) 75

[표 3-13] 치매 키워드별 상위 10개 관련사업 추출 결과(diversity 0.7) 77

[표 3-14] 치매 키워드별 상위 10개 관련사업 추출 결과(diversity 0.5) 78

[표 3-15] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 80

[표 3-16] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 80

[표 3-17] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 82

[표 3-18] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 82

[표 3-19] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 84

[표 3-20] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 84

[표 3-21] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 86

[표 3-22] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 86

[표 3-23] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 88

[표 3-24] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 88

[표 3-25] AI 관련사업 추천결과에 대한 유사도 판단기준 90

[표 3-26] 전문가 유사도 평가 결과의 예시 91

[표 3-27] (좌) 판단요소별 평가결과와 점수의 관계 / (우) AI 모델과 전문가 평가 일치도 92

[표 4-1] 인공지능 활용을 위한 평가데이터셋 구축 결과 개요 93

[표 4-2] 자체평가 등급별 의견 분포 96

[표 4-3] 랜덤포레스트의 장단점 99

[표 4-4] 랜덤포레스트의 활용분야 99

[표 4-5] SVM의 장단점 102

[표 4-6] 랜덤포레스트의 활용분야 102

[표 4-7] 나이브 베이즈의 장단점 104

[표 4-8] 나이브 베이즈의 활용분야 104

[표 4-9] XG boost 의 장단점 106

[표 4-10] XG Boost의 활용분야 107

[표 4-11] KoBERT의 장단점 109

[표 4-12] KoBERT의 활용분야 109

[표 4-13] RoBERTa의 장단점 111

[표 4-14] RoBERTa의 활용분야 112

[표 4-15] 자체평가 등급 설정지원 모델 활용계획 개요 113

[표 4-16] 성과지표 평가의견에 대한 머신러닝 정확도 117

[표 4-17] 성과지표 평가의견에 대한 머신러닝 정확도 117

[표 4-18] 부스팅 계열 모델 성능 비교(성과) 118

[표 4-19] 부스팅 계열 모델 성능 비교(성과 외) 120

[표 4-20] 딥러닝, 머신러닝 모델별 성능 비교 121

[표 4-21] 22-23년 검증용 데이터 20개에 대한 실험 결과 성능 비교 122

[표 4-22] 19-21년 검증용 데이터 전체와 30개에 대한 실험 결과 성능 비교 123

[그림 2-1] 텍스트 분류 모델의 범주 예측 활용 예시 19

[그림 2-2] 토픽 모델링을 통한 주제 클러스터 목록 생성 개념도 21

[그림 2-3] 이벤트 추출 개념 및 원리 24

[그림 2-4] 이벤트 추출 적용 예시 24

[그림 2-5] 서울남부지방법원 판결문 개체명 인식 및 이벤트 추출을 통한 스토리라인 시각화 25

[그림 2-6] 정책 과정에서의 NLP 활용 개요 28

[그림 2-7] 증거 기반 정책 수립을 위한 데이터 분석용 자연어 처리 29

[그림 2-8] Hiware el al(2020) 연구에서 제시하는 트위터 필요(N) 및 가용(A) 정보의 예 29

[그림 2-9] OPINION 구성 요소 및 구성 요소 내에서 프레이밍 장치를 확인하고 의심하는 예 30

[그림 2-10] 정치적 결정을 해석하는 자연어 처리 방법 31

[그림 2-11] 국가별 COVID 정책을 예측하기 위한 시스템의 데이터 수집 파이프라인 및 아키텍처 32

[그림 2-12] 정책 소통 분석을 위한 자연어 처리 33

[그림 2-13] 성과평가 통합관리시스템 기능 및 기대 효과 36

[그림 2-14] PEIS 전략계획서 입력 화면 예시 36

[그림 2-15] 2022년도 사업평가 정보 대시보드 37

[그림 2-16] PEIS 전략계획서 제공 현황(2022년 예시) 37

[그림 2-17] 과제의 최종보고서 원문 API 연계 소스 샘플 40

[그림 2-18] 차별성검토 프로세스 40

[그림 2-19] 차별성검토 시작하기 웹 입력 화면 예시 41

[그림 2-20] 차별성검토 시작하기 검색결과 예시 41

[그림 2-21] 차별성 검토 대상 검색결과증 예시 42

[그림 2-22] NTIS 과학기술표준분류추천 요약정보 등록화면 예시 44

[그림 2-23] NTIS 과학기술표준분류추천 결과(웹) 45

[그림 2-24] NTIS 과학기술표준분류추천 워드 클라우드 46

[그림 2-25] 국가연구개발사업 및 과제 데이터 지능형 검색 기능(예정) 49

[그림 2-26] 인공지능 기반 국가연구개발사업 평가지원체계 개념(안) 52

[그림 3-1] SBERT 아키텍처(좌: 분류모델 / 우: 인퍼런스) 59

[그림 3-2] 파이썬을 통한 SBERT 활용 예시: 문장 임베딩 61

[그림 3-3] KeyBERT 모델구조(좌) 및 biLSTM 기반 키워드 추출 학습 과정도(우) 62

[그림 3-4] 파이썬을 활용한 KeyBERT 모델링: 키워드 추출 63

[그림 3-5] KeyBERT를 활용한 특허 키워드 추출 프로세스 예시 63

[그림 3-6] 샘플사업에 대한 키워드 클라우드(uni-gram) 81

[그림 3-7] 샘플사업에 대한 키워드 클라우드(uni-gram) 83

[그림 3-8] 샘플사업에 대한 키워드 클라우드(uni-gram) 85

[그림 3-9] 샘플사업에 대한 키워드 클라우드(uni-gram) 87

[그림 3-10] 샘플사업에 대한 키워드 클라우드(uni-gram) 89

[그림 4-1] 자체평가보고서 데이터셋 구축 방법(1차, 2022-2023 자체평가보고서 대상) 94

[그림 4-2] 자체평가보고서 데이터셋 구축 방법(2차, 2019-2021 자체평가보고서 대상) 95

[그림 4-3] 랜덤포레스트 개념도 98

[그림 4-4] SVM 개념도 101

[그림 4-5] 나이브베이즈 개념도 103

[그림 4-6] XG Boost 개념도 106

[그림 4-7] KoBERT 개념도 108

[그림 4-8] RoBERTa 개념도 111

[그림 4-9] 추진과정 지표 평가의견 요약과 답변근거 데이터의 비교와 예측결과 예시(KoBERT) 114

[그림 4-10] KoBERT와 RoBERTa의 평가등급 예측 결과 115

[그림 4-11] 부스팅 계열 top 20 feature importances (주요단어) 비교 119