표제지
목차
요약문 6
Ⅰ. 서론 13
제1절 연구배경 13
제2절 연구목표 및 내용 14
제3절 연구방법 15
Ⅱ. 문헌연구 및 선행연구에 대한 고찰 18
제1절 자연어 처리를 활용한 텍스트 분석 18
제2절 자연어 처리의 공공부문 활용 28
제3절 데이터 · 인공지능 기반 국가R&D 프로세스 개선 사례 35
제4절 소결: 국가연구개발사업 평가에의 AI 적용 가능성과 이슈 50
Ⅲ. 전략계획서 성과지표 설정 지원 서비스 기획 연구 54
제1절 데이터 54
제2절 모델 탐색 및 보완 57
제3절 평가 및 활용성 검증 90
Ⅳ. 중간평가 등급 설정 지원 서비스 기획 연구 93
제1절 데이터 93
제2절 모델 탐색 및 보완 98
제3절 평가 및 활용성 검증 121
Ⅴ. 결론 및 시사점 124
제1절 결론 124
제2절 시사점 127
[부록] AI 평가지원서비스 개념설계(안) 129
참고문헌 133
[표 1-1] 연구개발과제 추진체계 15
[표 1-2] 연구개발과제 추진일정 16
[표 1-3] 연구진회의 추진일정 및 개요 17
[표 1-4] 소관 부처 보고 및 조정사항 개요 17
[표 2-1] 자연어 처리를 통해 추출된 정보의 유형 및 적용 예 18
[표 2-2] 성과평가 통합관리시스템 프로세스 38
[표 2-3] 국가연구개발사업정보 데이터(2016년~2022년) 48
[표 3-1] 인공지능 활용을 위한 평가데이터셋 구축 결과 개요 54
[표 3-2] PEIS 전략계획서와 성과목표지표계획서의 데이터 입력 항목 비교 55
[표 3-3] KeyBERT 및 SBERT를 활용한 선행연구 57
[표 3-4] 성과지표 설정지원 모델 활용계획 개요 64
[표 3-5] SBERT 샘플사업 3개 유사도분석 결과 요약 66
[표 3-6] SBERT 샘플사업 3개 유사도분석 세부 결과(세부사업명, 사업목적 기준) 67
[표 3-7] SBERT 샘플사업 3개 유사도분석 세부 결과(세부사업명, 사업목적 기준) 68
[표 3-8] KeyBERT diversity 조정에 따른 키워드 추출 결과 예시(bi-gram/5개 키워드 기준) 70
[표 3-9] 중소기업 키워드별 상위 10개 관련사업 추출 결과(diversity 0.7) 71
[표 3-10] 중소기업 키워드별 상위 10개 관련사업 추출 결과(diversity 0.5) 72
[표 3-11] 인력양성 키워드별 상위 10개 관련사업 추출 결과(diversity 0.7) 74
[표 3-12] 인력양성 키워드별 상위 10개 관련사업 추출 결과(diversity 0.5) 75
[표 3-13] 치매 키워드별 상위 10개 관련사업 추출 결과(diversity 0.7) 77
[표 3-14] 치매 키워드별 상위 10개 관련사업 추출 결과(diversity 0.5) 78
[표 3-15] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 80
[표 3-16] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 80
[표 3-17] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 82
[표 3-18] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 82
[표 3-19] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 84
[표 3-20] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 84
[표 3-21] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 86
[표 3-22] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 86
[표 3-23] 샘플사업에 대한 SBERT/KeyBERT 추천결과 비교 88
[표 3-24] SBERT/KeyBERT 관련사업의 키워드 순위 비교(빈도수 기준) 88
[표 3-25] AI 관련사업 추천결과에 대한 유사도 판단기준 90
[표 3-26] 전문가 유사도 평가 결과의 예시 91
[표 3-27] (좌) 판단요소별 평가결과와 점수의 관계 / (우) AI 모델과 전문가 평가 일치도 92
[표 4-1] 인공지능 활용을 위한 평가데이터셋 구축 결과 개요 93
[표 4-2] 자체평가 등급별 의견 분포 96
[표 4-3] 랜덤포레스트의 장단점 99
[표 4-4] 랜덤포레스트의 활용분야 99
[표 4-5] SVM의 장단점 102
[표 4-6] 랜덤포레스트의 활용분야 102
[표 4-7] 나이브 베이즈의 장단점 104
[표 4-8] 나이브 베이즈의 활용분야 104
[표 4-9] XG boost 의 장단점 106
[표 4-10] XG Boost의 활용분야 107
[표 4-11] KoBERT의 장단점 109
[표 4-12] KoBERT의 활용분야 109
[표 4-13] RoBERTa의 장단점 111
[표 4-14] RoBERTa의 활용분야 112
[표 4-15] 자체평가 등급 설정지원 모델 활용계획 개요 113
[표 4-16] 성과지표 평가의견에 대한 머신러닝 정확도 117
[표 4-17] 성과지표 평가의견에 대한 머신러닝 정확도 117
[표 4-18] 부스팅 계열 모델 성능 비교(성과) 118
[표 4-19] 부스팅 계열 모델 성능 비교(성과 외) 120
[표 4-20] 딥러닝, 머신러닝 모델별 성능 비교 121
[표 4-21] 22-23년 검증용 데이터 20개에 대한 실험 결과 성능 비교 122
[표 4-22] 19-21년 검증용 데이터 전체와 30개에 대한 실험 결과 성능 비교 123
[그림 2-1] 텍스트 분류 모델의 범주 예측 활용 예시 19
[그림 2-2] 토픽 모델링을 통한 주제 클러스터 목록 생성 개념도 21
[그림 2-3] 이벤트 추출 개념 및 원리 24
[그림 2-4] 이벤트 추출 적용 예시 24
[그림 2-5] 서울남부지방법원 판결문 개체명 인식 및 이벤트 추출을 통한 스토리라인 시각화 25
[그림 2-6] 정책 과정에서의 NLP 활용 개요 28
[그림 2-7] 증거 기반 정책 수립을 위한 데이터 분석용 자연어 처리 29
[그림 2-8] Hiware el al(2020) 연구에서 제시하는 트위터 필요(N) 및 가용(A) 정보의 예 29
[그림 2-9] OPINION 구성 요소 및 구성 요소 내에서 프레이밍 장치를 확인하고 의심하는 예 30
[그림 2-10] 정치적 결정을 해석하는 자연어 처리 방법 31
[그림 2-11] 국가별 COVID 정책을 예측하기 위한 시스템의 데이터 수집 파이프라인 및 아키텍처 32
[그림 2-12] 정책 소통 분석을 위한 자연어 처리 33
[그림 2-13] 성과평가 통합관리시스템 기능 및 기대 효과 36
[그림 2-14] PEIS 전략계획서 입력 화면 예시 36
[그림 2-15] 2022년도 사업평가 정보 대시보드 37
[그림 2-16] PEIS 전략계획서 제공 현황(2022년 예시) 37
[그림 2-17] 과제의 최종보고서 원문 API 연계 소스 샘플 40
[그림 2-18] 차별성검토 프로세스 40
[그림 2-19] 차별성검토 시작하기 웹 입력 화면 예시 41
[그림 2-20] 차별성검토 시작하기 검색결과 예시 41
[그림 2-21] 차별성 검토 대상 검색결과증 예시 42
[그림 2-22] NTIS 과학기술표준분류추천 요약정보 등록화면 예시 44
[그림 2-23] NTIS 과학기술표준분류추천 결과(웹) 45
[그림 2-24] NTIS 과학기술표준분류추천 워드 클라우드 46
[그림 2-25] 국가연구개발사업 및 과제 데이터 지능형 검색 기능(예정) 49
[그림 2-26] 인공지능 기반 국가연구개발사업 평가지원체계 개념(안) 52
[그림 3-1] SBERT 아키텍처(좌: 분류모델 / 우: 인퍼런스) 59
[그림 3-2] 파이썬을 통한 SBERT 활용 예시: 문장 임베딩 61
[그림 3-3] KeyBERT 모델구조(좌) 및 biLSTM 기반 키워드 추출 학습 과정도(우) 62
[그림 3-4] 파이썬을 활용한 KeyBERT 모델링: 키워드 추출 63
[그림 3-5] KeyBERT를 활용한 특허 키워드 추출 프로세스 예시 63
[그림 3-6] 샘플사업에 대한 키워드 클라우드(uni-gram) 81
[그림 3-7] 샘플사업에 대한 키워드 클라우드(uni-gram) 83
[그림 3-8] 샘플사업에 대한 키워드 클라우드(uni-gram) 85
[그림 3-9] 샘플사업에 대한 키워드 클라우드(uni-gram) 87
[그림 3-10] 샘플사업에 대한 키워드 클라우드(uni-gram) 89
[그림 4-1] 자체평가보고서 데이터셋 구축 방법(1차, 2022-2023 자체평가보고서 대상) 94
[그림 4-2] 자체평가보고서 데이터셋 구축 방법(2차, 2019-2021 자체평가보고서 대상) 95
[그림 4-3] 랜덤포레스트 개념도 98
[그림 4-4] SVM 개념도 101
[그림 4-5] 나이브베이즈 개념도 103
[그림 4-6] XG Boost 개념도 106
[그림 4-7] KoBERT 개념도 108
[그림 4-8] RoBERTa 개념도 111
[그림 4-9] 추진과정 지표 평가의견 요약과 답변근거 데이터의 비교와 예측결과 예시(KoBERT) 114
[그림 4-10] KoBERT와 RoBERTa의 평가등급 예측 결과 115
[그림 4-11] 부스팅 계열 top 20 feature importances (주요단어) 비교 119