표제지
국문초록
목차
Ⅰ. 서론 10
1. 연구 배경 10
2. 연구 목적 11
Ⅱ. 이론적 배경 및 선행연구 13
1. 이론적 배경 13
1) 리스크 기반 테스트 13
2) 토픽모델링 13
2. 선행연구 14
Ⅲ. 연구방법 18
1. 연구 설계 18
2. 실험 환경 18
3. 데이터 수집 및 선정 19
4. 데이터 전처리 21
5. LDA 파라미터 최적화 25
Ⅳ. 연구결과 29
1. LDA 시각화 29
2. 토픽모델링 분석 30
1) 확률 기준 상위 키워드 30
2) 토픽별 분석 32
3) 시계열 분석 39
3. 적용 42
1) 리스크 기반 테스트 42
2) 코드리뷰 43
3) 라이브러리 안정화 버전 사용 44
Ⅴ. 결론 46
참고문헌 49
Abstract 53
〈표-1〉 선행연구 목록 14
〈표-2〉 LDA 모델의 파라미터 25
〈표-3〉 토픽모델 및 Top10 토픽 Keyword 30
〈표-4〉 토픽 모델링 분석 결과 38
〈그림-1〉 Spring Framework의 Github - Issue 20
〈그림-2〉 Java 기반의 Github Issue 크롤링 프로그램 20
〈그림-3〉 전처리 전 단어별 빈도수 22
〈그림-4〉 전처리 후 단어별 빈도수 22
〈그림-5〉 전처리 전 Wordcloud 23
〈그림-6〉 전처리 후 Wordcloud 23
〈그림-7〉 Bag of Words(bow) 24
〈그림-8〉 passes에 따른 coherence 및 perplexity 비교 26
〈그림-9〉 num_topics에 따른 coherence 및 perplexity 비교 27
〈그림-10〉 iterations에 따른 coherence 및 perplexity 비교 28
〈그림-11〉 토픽모델링 결과 시각화 29
〈그림-12〉 Topic 3으로 분류되는 문서에서 볼 수 있는 에러 로그 34
〈그림-13〉 Topic 9으로 분류되는 문서에서 볼 수 있는 에러 로그 37
〈그림-14〉 연도별 Issue 등록 건수 39
〈그림-15〉 Topic-연도별 등록 건수 41