표제지
목차
요약문 4
제1장 서론 23
제1절 연구 배경 및 필요성 23
가. 추진 배경 23
나. 연구의 필요성 28
제2절 연구 목표 및 내용 33
가. 연구 목표 33
나. 연구 내용 33
제3절 연구 추진전략 및 방법 41
가. 추진전략 및 방법 41
제2장 선행연구 검토 43
제1절 텍스트 자동 분류와 토픽모델링 43
가. 텍스트 자동 분류 43
나. 텍스트 임베딩 77
다. 토픽모델링 개념과 기법 108
제2절 이머징 이슈(기술) 탐색 관련 선행연구 검토 141
가. 이머징 이슈 탐색 방법론 - 논문 서지 정보 기반 141
나. 이머징 이슈 탐색 - 국내외 온라인 뉴스 기반 146
다. 이머징 기술 탐색 - 특허데이터 기반 148
제3장 국가연구개발사업 투자데이터 기반 투자플랫폼 고도화 연구 157
제1절 연구 개요 157
가. 국가연구개발사업 라벨링 157
나. 라벨 회귀분석 167
제2절 연구 결과 173
가. 국가연구개발사업 라벨링 결과 173
나. 중요도 분포 및 회귀분석 186
다. 수소분야 사업 회귀분석 197
제4장 논문 서지 정보 기반 국가R&D 투자 이슈 분석 및 투자전략 도출 연구 244
제1절 과거 국가연구개발 투자방향 및 기준(안) 분석 244
가. 역대 정부별 정부R&D 투자방향 및 기준(안) 내 중점 가치 분석 244
나. 역대 정부별 정부R&D 중점투자방향의 주요 키워드 분석 252
제2절 국가R&D 투자방향의 공통 가치와 관련된 이머징 이슈 탐색 255
가. 국가R&D 투자 관련 이머징 이슈 탐색 255
나. 10대 이머징 이슈 분석 결과 266
다. 10대 이머징 이슈에 대한 국가R&D 투자 아젠다 도출 274
제3절 국가R&D 투자 관련 이머징 키워드와 파급 키워드 조합을 활용한 ChatGPT 4.0 분석 280
제4절 국가R&D 투자 이슈 분석 결과 종합 299
제5장 특허데이터 기반 기술개발 동향 분석방법론 연구 305
제1절 연구 개요 305
가. 연구의 필요성 305
나. 연구 방법 306
다. 분석 대상 309
제2절 특허정보 기반 이머징 기술 분석방법론 개발 311
가. 이머징 기술 탐색을 위한 분석지표 311
나. 특허 기반 방법론의 적합성 분석(인공지능 분야 대상으로 시범적용) 313
제3절 분야별 이머징 기술 분석 결과 318
가. 특허분석 방법론 실증 Ⅰ: 인공지능(AI) 분야 318
나. 특허분석 방법론 실증 Ⅱ: 수소연료전지 분야 340
다. 특허분석 방법론 실증 Ⅲ: 합성생물학 활용 분야 362
라. 특허분석 방법론 실증 Ⅳ: 검색키워드 수에 따른 비교 (수소연료전지 분야) 364
제4절 이머징/파급키워드 조합과 특허 대형언어모델(LLM) 기반의최신기술 트렌드 분석 366
제6장 결론 및 제언 381
제1절 연구 결과 요약 381
가. 국가연구개발사업 투자데이터 기반 투자플랫폼 고도화 연구 381
나. 논문 서지 정보 기반 국가R&D 투자 이슈 분석 및 투자전략 도출 연구 382
다. 특허데이터 기반 기술개발 동향 분석플랫폼 개발연구 385
제2절 연구의 한계점 및 향후 과제 388
가. 국가연구개발사업 투자데이터 기반 투자플랫폼 고도화 연구 388
나. 논문 서지 정보 기반 국가R&D 투자 이슈 분석 및 투자전략 도출 연구 389
다. 특허데이터 기반 기술개발 동향 분석플랫폼 개발연구 390
참고문헌 391
판권기 2
〈표 1-1〉 분석항목별 분석 방법(예시) 29
〈표 1-2〉 과학기술데이터 유형별 정보분석 도구(예시) 31
〈표 2-1〉 클러스터링 결과 2×2분할표 58
〈표 2-2〉 주요 특허지표 153
〈표 3-1〉 NTIS 과제 데이터 현황 157
〈표 3-2〉 국회 공통요구자료 데이터 현황 158
〈표 3-3〉 과제 데이터 한국어 전처리 예시 160
〈표 3-4〉 사업데이터 한국어 전처리 예시 161
〈표 3-5〉 사업데이터 한국어 전처리 예시 162
〈표 3-6〉 LDA 토픽모델 기호 163
〈표 3-7〉 LDA 토픽모델 세트 165
〈표 3-8〉 빈도수 상위 10개 키워드 및 불용어 여부 예시 166
〈표 3-9〉 다중선형회귀분석 기본 가정 168
〈표 3-10〉 사업 중요도 계산 비율 188
〈표 3-11〉 토픽1 Box-Cox 변환 후 선형회귀분석 결과 193
〈표 3-12〉 라벨 중요도 및 log(중요도) 선형회귀분석 결정계수 평균 196
〈표 3-13〉 사업250 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 199
〈표 3-14〉 사업250 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 200
〈표 3-15〉 사업500 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 201
〈표 3-16〉 사업500 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 203
〈표 3-17〉 K03501723 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 204
〈표 3-18〉 K03501723 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 207
〈표 3-19〉 K05001723 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 208
〈표 3-20〉 K05001723 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 211
〈표 3-21〉 K10001723 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 211
〈표 3-22〉 K10001723 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 216
〈표 3-23〉 K15001723 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 217
〈표 3-24〉 K15001723 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 222
〈표 3-25〉 K10001623 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 223
〈표 3-26〉 K10001623 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 226
〈표 3-27〉 K10001523 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 227
〈표 3-28〉 K10001523 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 231
〈표 3-29〉 K10001622 수소분야 상위50% 라벨(토픽) 수소 중요도 및 주요 키워드 232
〈표 3-30〉 K10001622 수소분야 상위50% 라벨(토픽) log(중요도) 회귀분석 결과 235
〈표 3-31〉 K10001521 수소분야 상위 5개 라벨(토픽) 수소 중요도 및 주요 키워드 236
〈표 3-32〉 K10001521 수소분야 상위 5개 라벨(토픽) log(중요도) 회귀분석 결과 237
〈표 3-33〉 분석세트 상위50% 라벨(토픽) log(중요도) 회귀분석 MAE 238
〈표 4-1〉 정부별 정부R&D 투자방향 및 기준(안) 내 중점 가치('07~'24년) 247
〈표 4-2〉 역대 정부별 정부R&D 중점투자방향의 주요 키워드 분포 252
〈표 4-3〉 현 정부의 정부R&D 중점투자방향의 정책/기술키워드 분포 253
〈표 4-4〉 국가R&D 투자 관련 이머징 후보 키워드와 파급 키워드 도출 결과(예시) 256
〈표 4-5〉 국가R&D 투자 관련 이머징 후보 키워드(30개)에 대한 파급 키워드 1차 선별 결과 257
〈표 4-6〉 국가R&D 투자 관련 이머징 후보 키워드와 파급 키워드 조합 2차 선별 결과(16개) 262
〈표 4-7〉 국가R&D 투자 관련 10대 이머징 이슈 주제 도출 결과 265
〈표 4-8〉 10대 이머징 이슈 분석 양식(예시) 266
〈표 4-9〉 10대 이머징 이슈 분석 결과 267
〈표 4-10〉 이머징 키워드와 파급 키워드 조합을 활용한 ChatGPT 4.0 분석을 위한 프롬프트 설계 280
〈표 4-11〉 국가R&D 투자 관련 이머징 키워드와 파급 키워드 조합(10개)에 대한 ChatGPT 4.0 검색 결과 281
〈표 4-12〉 국가R&D 투자 관련 이머징 키워드와 파급 키워드 조합을 활용한 ChatGPT 4.0 분석 결과와 전문가 검토 결과 간 비교 300
〈표 5-1〉 논문 기반 & 특허 기반 시스템의 비교 307
〈표 5-2〉 논문과 특허 기반 분석의 주요 지표 특성 차이 308
〈표 5-3〉 특허 기반 시스템의 적합성 평가기준 309
〈표 5-4〉 인공지능 미국 특허데이터로부터로 특허 용어 복합어 추출 결과 318
〈표 5-5〉 신규성/확장성/파급효과를 통한 1차 분석 결과 319
〈표 5-6〉 1차 분석 기반 전문가 검토의견 328
〈표 5-7〉 1차 분석 기반 전문가 검토의견의 키워드 정리 332
〈표 5-8〉 미국 특허의 특허 용어 복합어 추출 결과 (수소연료전지 분야) 340
〈표 5-9〉 신규성/확장성/파급효과를 통한 1차 분석 결과 (수소연료전지 분야) 341
〈표 5-10〉 1차 분석 기반 전문가 검토 의견 (수소연료전지 분야) 351
〈표 5-11〉 1차 분석 기반 전문가 검토 의견의 키워드 정리 (수소연료전지 분야) 355
〈표 5-12〉 미국 특허의 특허 용어 복합어 추출 결과 (합성생물학 활용 분야) 362
〈표 5-13〉 검색키워드 10개/30개 조건에 따른 키워드 이머징 키워드 비교 364
〈표 5-14〉 검색키워드 10개/30개 적용에 따른 타분야 파급 키워드 비교(예시) 365
〈표 5-15〉 이머징/파급키워드 조합을 활용한 특허 대형언어모델(LLM) 기반의 최신기술 트렌드 분석 결과 367
〈표 5-16〉 이머징/파급키워드 조합에 대한 전문가 검토 vs 특허 대형언어모델(LLM)과 이머징/파급키워드 기반의 최신기술 트렌드 분석 378
〈표 6-1〉 국가R&D 투자 관련 10대 이머징 이슈 주제 도출 결과 383
〈표 6-2〉 인공지능분야 이머징 기술 도출 결과 386
〈표 6-3〉 수소연료전지분야 이머징 기술 도출 결과 387
[그림 1-1] 범부처 통합적 예산 배분ㆍ조정 체계 24
[그림 1-2] 일본의 e-CSTI 제공 서비스(예시) 26
[그림 1-3] IRIS 시스템의 중장기 추진 방향성 27
[그림 1-4] 범부처 통합적 R&D예산 배분ㆍ조정 프로세스 28
[그림 1-5] 국가연구개발사업 투자플랫폼 고도화 프로세스(안) 30
[그림 1-6] 국가연구개발사업 투자데이터 기반 투자플랫폼 고도화 연구 프로세스 35
[그림 1-7] 정부R&D 투자 규모 예측 방법론(예시) 36
[그림 1-8] 논문 서지 정보 기반 이머징 이슈 탐색 프로세스(국회미래연구원) 37
[그림 1-9] 특허데이터 기반 기술개발 동향 분석 프로세스(안) 39
[그림 2-1] 한글 형태소 분석기 코모란(Komoran)과 꼬꼬마(kkma) 45
[그림 2-2] 한글 형태소 분석기 한나눔(Hannanum)과 Okt(트위터분석기) 45
[그림 2-3] 선형 분류기 48
[그림 2-4] k-NN 분류기 50
[그림 2-5] SVM 분류기 51
[그림 2-6] 계층적 클러스터링의 덴드로그램 53
[그림 2-7] 계층적 클러스터링 기법 54
[그림 2-8] 응집적 클러스터링, K-means, DBSCAN 기법의 클러스터링 결과 57
[그림 2-9] 단일 계층 feed-forward neural network 60
[그림 2-10] 다계층 feed-forward neural network(5-3-2 네트워크) 61
[그림 2-11] Doc2vec의 학습모형 63
[그림 2-12] 순환 신경망 구조 65
[그림 2-13] LSTM 구조 67
[그림 2-14] LDA와 SVM을 활용한 특허 문헌의 자동 분류 69
[그림 2-15] ST LDA를 활용한 반지도학습 문헌 분류 72
[그림 2-16] SVM과 LDA의 범주에 속한 단어들 비교 75
[그림 2-17] sLDA와 Dependency-LDA 그래픽 모형 76
[그림 2-18] 빈도 기반의 문헌-용어행렬(좌)과 용어출현 여부에 따른 이진 용어-문헌행렬(우) 예 79
[그림 2-19] M개의 단어와 N개의 문헌으로 구성된 용어-문헌행렬 연산을 통해 단어공기행렬 산출 80
[그림 2-20] 단순 TF-IDF를 사용한 단어 가중치의 예 82
[그림 2-21] 특이값 분해의 예시 84
[그림 2-22] 용어-문헌행렬의 특이값 분해 85
[그림 2-23] 단어의 조건부 확률을 기반으로 한 pLSA의 용어-문헌행렬 구성 86
[그림 2-24] pLSA의 판표기법(좌)과 LDA 기법의 판표기법(우) 87
[그림 2-25] CBOW(좌)는 문맥 단어를 기반으로 현재위치단어를 학습, Skip-gram은 현재의 단어로 주변단어를 예측 89
[그림 2-26] CBOW의 신경망 모델(좌)과 원핫인코딩을 대입한 행렬계산 표현(우) 90
[그림 2-27] 가중치벡터로부터 softmax 함수를 적용해 예측값을 구하는 과정 91
[그림 2-28] PMI행렬의 행렬분해 예시 93
[그림 2-29] RNN의 인코더와 디코더 98
[그림 2-30] 트랜스포머의 구조(좌)와 간략화한 모형(우) 101
[그림 2-31] 셀프어텐션의 개념이 반영된 문장의 예 102
[그림 2-32] 셀프어텐션과 FFNN과정에서 각 단어 벡터들이 유지 103
[그림 2-33] 트랜스포머 관점에서의 GPT(좌)와 BERT(우) 106
[그림 2-34] 토픽모델링 과정 110
[그림 2-35] Gaussian Mixture Model 112
[그림 2-36] Basic Graphical Model of LDA 115
[그림 2-37] Smoothed LDA (Blei, Ng, & Jordan 2003) 116
[그림 3-38] Graphical Model of DTM 124
[그림 2-39] Graphical Model of CTM 130
[그림 2-40] Graphic model of DMR 132
[그림 2-41] Graphical model of hLDA 137
[그림 2-42] Graphical model of sLDA 139
[그림 2-43] 논문 기반 이머징 이슈 탐색 프로세스 143
[그림 2-44] 분산을 활용한 신규성 분석 개념 144
[그림 2-45] 출현 가속도를 활용한 확장성 분석 개념 145
[그림 2-46] 타 분야 파급효과 분석 개념 146
[그림 2-47] 이머징 키워드에서 이머징 이슈로 전환되는 과정 146
[그림 2-48] 특허 빅데이터 기반 산업 혁신전략 추진 절차 155
[그림 2-49] 부상기술 도출 과정에서의 주요 특허 분석지표 155
[그림 2-50] 중점기술 도출 과정 156
[그림 3-1] LDA 토픽모델 세트 164
[그림 3-2] 사전분석 세트의 a) 사업1, b) 과제40 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽1000 키워드 분포, f) 토픽1000 워드클라우드 175
[그림 3-3] 사업250 세트의 a) 사업1, b) 사업10 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽250 키워드 분포, f) 토픽250 워드클라우드 176
[그림 3-4] 사업500 세트의 a) 사업1, b) 사업10 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽500 키워드 분포, f) 토픽500 워드클라우드 177
[그림 3-5] K03501723 a) 사업1, b) 과제40 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽350 키워드 분포, f) 토픽350 워드클라우드 178
[그림 3-6] K05001723 a) 사업1, b) 과제40 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽350 키워드 분포, f) 토픽500 워드클라우드 179
[그림 3-7] K10001723 a) 사업1, b) 과제40 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽1000 키워드 분포, f) 토픽1000 워드클라우드 180
[그림 3-8] K15001723 a) 사업1, b) 과제1 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽1000 키워드 분포, f) 토픽1000 워드클라우드 181
[그림 3-9] K10001623 세트의 a) 사업1, b) 과제40 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽1000 키워드 분포, f) 토픽1000 워드클라우드 182
[그림 3-10] K10001523 세트의 a) 사업1, b) 과제40 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽1000 키워드 분포, f) 토픽1000 워드클라우드 183
[그림 3-11] K10001622 세트의 a) 사업1, b) 과제1 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽1000 키워드 분포, f) 토픽1000 워드클라우드 184
[그림 3-12] K10001521 세트의 a) 사업1, b) 과제1 토픽분포, c) 토픽1 키워드 분포, d) 토픽1 워드클라우드, e) 토픽1000 키워드 분포, f) 토픽1000 워드클라우드 185
[그림 3-13] 2023년 사업 토픽 분포 및 예산, 예산가중치 현황 예시 186
[그림 3-14] 사전분석 세트의 a) 사업, b) 과제 중요도 현황 187
[그림 3-15] a) 사업250, b) 사업500, c) K03501723, d) K05001723, e) K10001723, f) K15001723 세트의 라벨 중요도 선형회귀분석에 따른 R² 분포 189
[그림 3-16] a) K10001623, b) K10001523, c) K10001622, d) K10001521 세트의 라벨 중요도 선형회귀분석에 따른 R² 분포 190
[그림 3-17] 사전분석 세트 중요도의 Box-Cox 변환 후 분포 191
[그림 3-18] 토픽1 연도별 변환된 중요도 192
[그림 3-19] a) 사업250, b) 사업500, c) K03501723, d) K05001723, e) K10001723, f) K15001723 세트의 라벨 log(중요도) 선형회귀분석에 따른 R² 분포 194
[그림 3-20] a) K10001623, b) K10001523, c) K10001622, d) K10001521 세트의 라벨 log(중요도) 선형회귀분석에 따른 R² 분포 195
[그림 3-21] 토픽100 중요도 구성 예시 197
[그림 3-22] 사업250 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 199
[그림 3-23] 사업500 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 202
[그림 3-24] K03501723 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 205
[그림 3-25] K05001723 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 209
[그림 3-26] K10001723 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 214
[그림 3-27] K15001723 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 220
[그림 3-28] K10001623 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 225
[그림 3-29] K10001523 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 230
[그림 3-30] K10001622 수소분야 중요도 상위50% 라벨(토픽)의 연차별 log(중요도) 234
[그림 3-31] K10001521 수소분야 중요도 상위 5개 라벨(토픽)의 연차별 log(중요도) 237
[그림 3-32] 분석세트 중요도 상위50% 라벨(토픽)의 ETS예측/실제 239
[그림 3-33] 분석세트 중요도 상위50% 라벨(토픽)의 Linear예측/실제 240
[그림 3-34] 연도별 정부R&D 예산 241
[그림 3-35] 전체 중요도 라인 차트 243
[그림 3-36] K-means 클러스터링 9개 유형 분류 243
[그림 4-1] 역대 정부별 정부R&D 중점투자방향에 대한 워드클라우드 분석 253
[그림 4-2] 현 정부의 정부R&D 중점투자방향에 대한 워드클라우드 분석 254
[그림 4-3] 국가R&D 투자 관련 10대 이머징 이슈 도출 결과와 미래 아젠다 제안 279
[그림 5-1] 제안하는 이머징 기술 탐색 방법 306
[그림 5-2] 키워드의 출현 빈도에 따른 신규성 판단 311
[그림 5-3] 키워드 출현횟수에 대한 가속도 값 312
[그림 5-4] 파급효과의 개념 312
[그림 5-5] 특허 요약키워드의 평균 및 분산 산출 예시 313
[그림 5-6] 파일럿 분석을 통한 시계열 분포 확인 결과 314
[그림 5-7] 선후행 특허 인용관계 확인 결과 315
[그림 5-8] 타분야 인용의 정량적 결과 확인 316
[그림 5-9] IPC 코드 수어 체계 316
[그림 5-10] 이머징 기술 후보 키워드 최종 결과 도출(training data 사례) 317
[그림 5-11] 인공지능 유동 학습 기술 관련 의학 분야 적용의 최근 등장 사례 334
[그림 5-12] 수소연료전지 연료전지 및 차량제어 기술 관련 최근 등장 사례 357