본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

목차보기

표제지

국문초록

목차

Ⅰ. 서론 15

1. 연구의 필요성 15

2. 연구 목적 19

3. 연구 문제 19

4. 용어의 정의 20

1) 한국야구위원회(Korea Baseball organization) 20

2) KBO 골든글러브(KBO Golden Glove Award) 20

3) 야구 포지션(Baseball Position) 20

4) 정량적 범위(Range of quantitative data) 21

5) 세이버메트릭스(sabermetrics) 21

Ⅱ. 이론적 배경 24

1. 한국 프로야구 골든글러브 24

1) 골든글러브 선정 24

2) 연도별 골든글러브 선정 조건의 변화 24

3) 미국프로야구 골든글러브와의 차이점 25

2. 정량적 자료분석의 중요성 26

1) 세이버 메트릭스의 정의 26

2) 스포츠 경기분석의 통계적 접근 27

3. 머신러닝 기법 29

1) 머신러닝의 정의 29

2) 머신러닝의 종류 29

3) 학습의 원리 30

4) 머신러닝과 수학 31

4. 로지스틱 회귀분석 32

1) 로지스틱 회귀분석의 개요 32

2) 로지스틱 함수와 확률 예측 33

3) 모델 추정과 최적화 33

4) 모델 평가와 해석 33

5. 서포트 백터 머신(Support vector machine) 34

6. 랜덤포레스트(Random Forest) 35

7. XGBoost 37

Ⅲ. 연구방법 39

1. 연구대상 39

2. 자료수집 도구 42

3. 연구절차 44

4. 자료처리 46

1) 데이터 전처리 46

2) 예측모델 선정 49

3) 성능평가 49

Ⅳ. 연구결과 50

1. 골든글러브 후보 및 수상자 간 포지션별 기록 비교 50

1) 투수 변인별 기록 51

2) 1루수 변인별 기록 53

3) 2루수 변인별 기록 55

4) 3루수 변인별 기록 57

5) 유격수 변인별 기록 59

6) 포수 변인별 기록 61

7) 외야수 변인별 기록 63

8) 지명타자 변인별 기록 65

2. 로지스틱 회귀분석 및 머신러닝 예측모델 분석 결과 67

1) 로지스틱 회귀분석 및 머신러닝 예측 모델별 최적 변수 결정 67

2) 로지스틱 회귀분석 및 머신러닝 예측 모델별 성능평가 결과 114

Ⅴ. 논의 118

1. 골든글러브 후보 및 수상자 간 포지션별 기록 비교 118

2. 로지스틱 회귀분석 및 머신러닝 예측모델 분석 결과 121

1) 로지스틱 회귀분석 및 머신러닝 예측 모델별 최적 변수 결정 121

2) 로지스틱 회귀분석 및 머신러닝 예측 모델별 성능평가 결과 122

Ⅵ. 결론 및 제언 124

1. 결론 124

2. 제언 126

참고문헌 127

Abstract 132

표목차

표 1. 2003년~2022년 골든글러브 후보 수 39

표 2. 프로야구 타자기록(기본 기록, 세이버메트릭스 기록) 40

표 3. 프로야구 투수기록(기본 기록, 세이버메트릭스 기록) 41

표 4. 골든글러브 수상자 예측 모델 개발 연구 절차 45

표 5. 투수 세이버 메트릭스 기록 변인 설명 46

표 6. 투수 기본 기록 변인 설명 47

표 7. 타자 세이버 메트릭스 기록 변인 설명 48

표 8. 타자 기본 기록 변인 설명 48

표 9. 로지스틱 회귀분석 및 머신러닝 모델 49

표 10. 투수 기본 기록 기술통계 51

표 11. 투수 세이버 메트릭스 기록 기술통계 52

표 12. 1루수 기본 기록 기술통계 53

표 13. 1루수 세이버 메트릭스 기록 기술통계 54

표 14. 2루수 기본 기록 기술통계 55

표 15. 2루수 세이버 메트릭스 기록 기술통계 56

표 16. 3루수 기본 기록 기술통계 57

표 17. 3루수 세이버 메트릭스 기록 기술통계 58

표 18. 유격수 기본 기록 기술 통계 59

표 19. 유격수 세이버 메릭스 기록 기술통계 60

표 20. 포수 기본 기록 기술통계 61

표 21. 포수 세이버 메트릭스 기록 기술통계 62

표 22. 외야수 기본 기록 기술통계 63

표 23. 외야수 세이버 메트릭스 기록 기술통계 64

표 24. 지명타자 기본 기록 기술통계 65

표 25. 지명타자 세이버 메트릭스 기록 기술통계 66

표 26. 로지스틱 회귀분석 파라미터 설명 67

표 27. 로지스틱 회귀분석 모델 1 투수 및 포수 Hyper parameter 68

표 28. 로지스틱 회귀분석 모델 1 내야수 Hyper parameter 68

표 29. 로지스틱 회귀분석 모델 1 외야수 및 지명타자 Hyper parameter 69

표 30. 로지스틱 회귀분석 모델 2 투수 및 포수 Hyper parameter 73

표 31. 로지스틱 회귀분석 모델 2 내야수 Hyper parameter 74

표 32. 로지스틱 회귀분석 모델 2 외야수 및 지명타자 Hyper parameter 74

표 33. 서포트 백터 머신 파라미터 설명 80

표 34. 서포트 백터 머신 모델 1 투수 및 포수 Hyper parameter 80

표 35. 서포트 백터 머신 모델 1 내야수 Hyper parameter 81

표 36. 서포트 백터 머신 모델 1 외야수 및 지명타자 Hyper parameter 82

표 37. 서포트 백터 머신 모델 2 투수 및 포수 Hyper parameter 83

표 38. 서포트 백터 머신 모델 2 내야수 Hyper parameter 84

표 39. 서포트 백터 머신 모델 2 외야수 및 지명타자 Hyper parameter 85

표 40. 랜덤포레스트 파라미터 설명 86

표 41. 랜덤포레스트 모델 1 투수 및 포수 Hyper parameter 86

표 42. 랜덤포레스트 모델 1 내야수 Hyper parameter 88

표 43. 랜덤포레스트 모델 1 외야수 및 지명타자 Hyper parameter 89

표 44. 랜덤포레스트 모델 2 투수 및 포수 Hyper parameter 94

표 45. 랜덤포레스트 모델 2 내야수 Hyper parameter 95

표 46. 랜덤포레스트 모델 2 외야수 및 지명타자 Hyper parameter 97

표 47. XGBoost 파라미터 설명 102

표 48. XGBoost 모델 1 투수 및 포수 Hyper parameter 102

표 49. XGBoost 모델 1 내야수 Hyper parameter 103

표 50. XGBoost 모델 1 외야수 및 지명타자 Hyper parameter 104

표 51. XGBoost 모델 2 투수 및 포수 Hyper parameter 108

표 52. XGBoost 모델 2 내야수 Hyper parameter 108

표 53. XGBoost 모델 2 외야수 및 지명타자 Hyper parameter 109

표 54. 각 포지션별 로지스틱 회귀분석 모델별 성능평가 결과표 114

표 55. 각 포지션별 서포트 백터 머신 모델별 성능평가 결과표 115

표 56. 각 포지션별 랜덤포레스트 모델별 성능평가 결과표 116

표 57. 각 포지션별 XGBoost 모델별 성능평가 결과표 117

그림목차

그림 1. 로지스틱 회귀분석 모델 32

그림 2. Support vector machine 모델 34

그림 3. 랜덤포레스트 모델 36

그림 4. XGBoost 모델 37

그림 5. 골든글러브 후보 검색 엔진 42

그림 6. 골든글러브 후보 및 수상선수 기록 정리 예시 43

그림 7. 로지스틱 회귀분석 모델 1 투수, 포수 변인 중요도 70

그림 8. 로지스틱 회귀분석 모델 1 1루수, 2루수, 3루수 변인 중요도 71

그림 9. 로지스틱 회귀분석 모델 1 유격수, 외야수, 지명타자 변인 중요도 72

그림 10. 로지스틱 회귀분석 모델 2 투수, 포수 변인 중요도 76

그림 11. 로지스틱 회귀분석 모델 2 1루수, 2루수, 3루수 변인 중요도 77

그림 12. 로지스틱 회귀분석 모델 2 유격수, 외야수, 지명타자 변인 중요도 78

그림 13. 랜덤포레스트 모델 1 투수, 포수 변인 중요도 91

그림 14. 랜덤포레스트 모델 1 1루수, 2루수, 3루수 변인 중요도 92

그림 15. 랜덤포레스트 모델 1 유격수, 외야수, 지명타자 변인 중요도 93

그림 16. 랜덤포레스트 모델 2 투수, 포수 변인 중요도 98

그림 17. 랜덤포레스트 모델 2 1루수, 2루수, 3루수 변인 중요도 99

그림 18. 랜덤포레스트 모델 2 유격수, 외야수, 지명타자 변인 중요도 100

그림 19. XGBoost 모델 1 투수, 포수 변인 중요도 105

그림 20. XGBoost 모델 1 1루수, 2루수, 3루수 변인 중요도 106

그림 21. XGBoost 모델 1 유격수, 외야수, 지명타자 변인 중요도 107

그림 22. XGboost 모델 2 투수, 포수 변인 중요도 110

그림 23. XGBoost 모델 2 1루수, 2루수, 3루수 변인 중요도 111

그림 24. XGBoost 모델 2 유격수, 외야수, 지명타자 변인 중요도 112

초록보기

 야구는 타 종목에 비해 기록이 다양하고 완벽하게 보존되며, 경기에서 일어난 모든 기록들을 통해 경기내용 및 경기결과의 복기가 가능하다. 이로 인해 야구는 흔히 기록의 스포츠라 불린다. 이처럼 다양한 기록이 존재하는 야구에서 각 포지션별로 최고의 선수에게 주어지는 "골든글러브"상이 존재한다. 현재 골든글러브 수상은 취재기자, 중계 PD, 해설위원 등 미디어 관계자를 대상으로 투표를 진행하다보니 포지션별 명확한 기준 및 중요 변인을 알아보는데 한계가 있다. 따라서 본 연구에서는 2003년~2022년까지 한국프로야구 골든글러브 후보 및 수상자의 기록을 기반으로 로지스틱 회귀분석과 머신러닝을 활용한 골든글러브 수상자 예측모델을 설계하고 설계된 예측모델의 성능을 비교·분석하여 골든글러브 수상자 예측에 적합한 모델을 알아보는데 목적이 있다. 또한, 각 포지션별로 수상에 중요한 영향을 미치는 변인을 도출하고자 한다. 이 연구의 목적을 달성하기 위해 로지스틱 회귀분석과 서포트 백터 머신(Support vector machine), 랜덤포레스트(Random Forest), XGboost 모델을 설계하고 각 모델별 하이퍼 파라미터를 제시하였다. 값을 표준 점수화 하여 나타내는 zscoring값과 최대-최소 정규화를 하여 나타내는 minmax값을 사용하여 각각의 모델을 두가지 형태로 나타냈으며, 모델별로 최적화 변인 탐색 후 성능평가를 실시하였다.

첫째, 한국프로야구 골든글러브 예측모델을 설계하는데 있어 로지스틱 회귀분석 모델에서는 L1, L2, elasticnet이 커널(kernel)로 사용되었고, 서포트 백터 머신 모델에서는 rbf, poly가 커널(kernel)로 사용되었으며, 비선형 모델로서 중요 변인은 탐색하지 못하였다. 랜덤포레스트 모델에서는 gini, entropy가 준거(criterion)로 사용되었으며, XGBoost 모델에서는 exact, approx, hist가 준거(criterion)로 사용되었다. F1 score가 높아지도록 하기 위하여 변인을 하나씩 제거하는 방식으로 진행하였고, 각 모델에서 포지션별 사용 변인은 모두 다르게 선정되었다.

둘째, 머신러닝 예측모델의 예측 성능을 비교한 결과 각 포지션별 차이는 존재하지만 서포트 백터 머신 모델 2와 XGBoost 모델의 예측 정확도, 그리고 F1 score가 높게 나타났으며, 로지스틱 회귀분석 모델과 랜덤포레스트 모델의 정확도와 F1 score는 상대적으로 낮게 나타났다. 전체적으로 zsocring으로 표준화 한 모델 1보다 minmax로 표준화 한 모델 2의 예측 능력이 뛰어나게 나타났다.

결론적으로 골든글러브 후보 및 수상자의 기록을 기반으로 골든글러브 수상자 예측이 가능하였으며, 각 모델별 중요 변인을 탐색할 수 있었다. 또한, 성능평가를 통해 XGBoost 모델 2가 가장 적합한 모델로 나타났다.

따라서, 골든글러브 수상자를 예측하기 위해서는 minmax를 사용한 XGBoost 모델 2를 활용하여 예측하는 것이 바람직하며, 추후 수비기록을 포함하여 예측한다면 보다 뛰어난 결과가 나타날 것이라 사료된다.