표제지
목차
요약 6
제1장 서론 7
제2장 데이터과학 연구 추진경과 8
제1절 데이터과학 연구팀 신설 8
제2절 데이터과학 기법 국가통계 활용 해외사례 검토 9
제3절 인공지능 통계분류 시험분석 10
제4절 인공지능 통계분류 자동화 시스템 개발(2022) 14
제5절 인공지능 통계분류 결과 시험적용 및 고도화 검토(2023) 18
제3장 인공지능 통계분류 결과분석 20
제1절 건설업조사 공종ㆍ발주자분류 개요 20
제2절 인공지능 통계분류 방법론 23
제3절 인공지능 통계분류 예측결과 및 실무활용 27
제4절 학습데이터 갱신 및 재학습을 통한 분류정확도 향상 29
제4장 인공지능 통계분류 실무활용성 제고방안 30
제1절 분류체계 개선 30
제2절 조사단계에서 인공지능 통계분류 예측결과 활용 32
제3절 기존 시스템을 인공지능 통계분류 시스템으로 대체 33
제4절 인공지능 통계분류 예측 결과를 활용한 내검 효율화 35
제5장 결론 및 시사점 36
참고문헌 37
[부록] 2022년 AI 통계분류 자동화 시스템 구축 결과 38
Abstract 54
판권기 56
〈표 2-1〉 비정형 텍스트 분석을 통한 분류 자동화 적용 사례 9
〈표 2-2〉 다출처 자료의 연계 및 보완 적용 사례 9
〈표 2-3〉 머신러닝 기반 산업분류 예측 성능 평가 12
〈표 2-4〉 건설업조사 공종ㆍ발주자분류 AI 분류예측 성능 평가 14
〈표 2-5〉 분류모델 구축(5종 분류, 5개 조사) 및 성능평가 결과 17
〈표 2-6〉 기존 시스템과의 분류예측 성능비교('20년 인총데이터 분석결과) 17
〈표 3-1〉 건설업조사 공종ㆍ발주자분류 조사문항 예시 20
〈표 3-2〉 건설업조사 공종분류코드(64종) 및 발주자분류코드(96종) 예시 21
〈표 3-3〉 건설업조사 공종ㆍ발주자분류 데이터 예시 22
〈표 3-4〉 건설업조사 공종ㆍ발주자분류 학습데이터 27
〈표 3-5〉 건설업조사 공종ㆍ발주자분류 성능평가 결과 28
〈그림 2-1〉 데이터 사이언스의 구조 8
〈그림 2-2〉 지역별고용조사 산업ㆍ직업분류 조사화면 예시 10
〈그림 2-3〉 지역별고용조사 산업직업분류 입력과 코딩 예시 11
〈그림 2-4〉 지도학습 기반 분류 학습을 위한 초기 기준 모델 11
〈그림 2-5〉 통계청 통계분류 자료처리 시스템 개요 12
〈그림 2-6〉 건설업조사 사례사전 자동코딩 활용 현황 13
〈그림 2-7〉 목표시스템 개념도 15
〈그림 2-8〉 AI 통계분류 자동화 시스템 구성도 16
〈그림 2-9〉 AI 통계분류를 위한 학습데이터 구성 16
〈그림 2-10〉 기존 시스템과의 처리속도 성능비교('20년 인총데이터 분석결과) 18
〈그림 2-11〉 AI 통계분류 자동화 확대 적용 검토 대상 조사 19
〈그림 3-1〉 기존 시스템과 AI 통계분류 시스템 방법론 비교 23
〈그림 3-2〉 사전학습 언어모델 선정기준 24
〈그림 3-3〉 시스템 적용 사전학습 언어모델 성능 벤치마크 25
〈그림 3-4〉 시스템 적용 지도학습 모델 26
〈그림 3-5〉 건설업조사 공종ㆍ발주자분류 데이터 분포 예시 27
〈그림 3-6〉 AI 통계분류 예측결과를 활용하여 내검효율성 제고 28
〈그림 3-7〉/〈그림 3-5〉 재학습을 통한 분류정확도 향상(붉은색: 기존, 파란색: 추가학습) 29
〈그림 4-1〉 AI 통계분류 예측 정확도 저하 요인 분석 31
〈그림 4-2〉 현장조사에 AI 통계분류 예측결과 활용 예시 32
〈그림 4-3〉 기존 규칙기반 통계분류 시스템 활용 예시 33
〈그림 4-4〉 사례사전 자동코딩과 AI 통계분류 정확도 비교 34
〈그림 4-5〉 AI 통계분류 예측결과를 활용한 선택적 내검(안) 35