본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

목차보기

Title Page 2

Abstract 5

Contents 8

Chapter 1. Literature Review 17

1.1. Whole genome sequencing for epidemiological surveillance 18

1.1.1. Whole genome sequencing 18

1.1.2. WGS applications in outbreak investigation 19

1.2. Typing methods for foodborne pathogens 19

1.2.1. Foodborne pathogens 19

1.2.2. Conventional typing method 20

1.2.3. Subtyping method based on WGS era 21

1.3. Horizontal gene transfer 22

Chapter 2. Complete Genome of Vibrio parahaemolyticus FORC014 Isolated from the Toothfish 24

2.1. Abstract 25

2.2. Introduction 27

2.3. Materials and Methods 29

2.4. Results and Discussion 34

2.5. Conclusion 47

Chapter 3. Unraveling the Genomic Epidemiology of Foodborne Pathogens with a Single Nucleotide Polymorphism Detection Pipeline Leveraging Whole Genome Sequencing Data 48

3.1. Abstract 49

3.2. Introduction 50

3.3. Materials and Methods 53

3.4. Result 62

3.5. Conclusion and Discussion 76

Chapter 4. Machine Learning Approach to Pathotype Classification of Diarrheagenic Escherichia coli Using Genomic Information 80

4.1. Abstract 81

4.2. Introduction 82

4.3. Materials and Methods 85

4.4. Result 94

4.5. Discussion 111

4.6. Conclusion 115

Chapter 5. Construction of a Database for Intra-species and Inter-species Horizontal Gene Transfer Events in Escherichia coli Using the Tree-Reconciliation Method 116

5.1. Abstract 117

5.2. Introduction 118

5.3. Materials and Methods 120

5.4. Result and Discussion 124

5.5. Conclusion 138

General Discussion 141

References 145

Appendix 16

Appendix 1. List of genes and their functional annotation (COG, GO and KEGG pathway) in each genomic feature, which were candidate genomic regions resulting from the classification models 162

요약 (국문초록) 199

List of Tables 10

Table 2.1. Summary of V. parahaemolyticus FORC_014 genome 30

Table 2.2. Genomic features of V. parahaemolyticus FORC014 35

Table 2.3. List of Type III secretion system-2 related genes in the complete genome of V. parahaemolyticus strains 41

Table 2.4. Virulence factors of V. parahaemolyticus FORC_014 43

Table 3.1. Epidemiological information for foodborne pathogen WGS data used in this study 59

Table 3.2. Summary of the dataset and analysis time for this study. The "Number of Isolates" represents the total count of isolates incorporated into each dataset, "File Size" refers to the volume of data in each dataset measured in megabytes, "Total SNP Positions" denotes the total number of positions classified... 68

Table 3.3. The difference of SNP count and Jaccard distance within and between groups used in this study 73

Table 4.1. Description of the collected E. coli samples from public database. The information of collected E. coli samples from NCBI and DDBJ database. The accession... 86

Table 4.2. The best gamma and cost parameters for SVM classifier, obtained as a result of tunning SVM model 91

Table 4.3. Model accuracies for each classifier. This table displays the score of the models' accuracies computed either as F1-score or Matthews Correlation Coefficient for each type of DEC (EHEC, EPEC, EAEC, EIEC, and ETEC). The highest score for each model are shown in bold type highlight. The table is... 97

Table 4.4. The top 20 variable importance results from the Randomforest model. The mean decrease in accuracy describes the importance of each feature. The importance score displayed below the pathotype describes the feature's contribution to pathotype classification 105

Table 4.5. The details of the candidate genomic regions resulting from the classification models. This table displays the related genomic islands and a gene list of each candidate genomic region that was selected using RandomForest (RF) and SVM models. The genomic islands prediction method was implemented... 108

Table 5.1. The list of virulence genes used for pathotype classification of E. coli and classification results 135

List of Figures 12

Figure 2.1. Functional categorization of FORC_014 based on (A) the COG database and (B) the SEED database 36

Figure 2.2. Distance dendrogram among Vibrio parahaemolyticus strains based on ANI values. The dendrogram indicated that FORC_014 closely related with UCM-V493 based on ANI value 39

Figure 2.3. Comparative genome map between UCM-V493 chromosome 1 and FORC_014 chromosome 1. (A) Visualization of unmatched regions between UCM-V493 and FORC_014 using the Artemis Comparison Tool. (B) Gene map of unmatched regions. The unmatched regions... 40

Figure 2.4. Cytotoxicity analysis for two strains of V. parahaemolyticus. INT-407 cells were infected with V. parahaemolyticus FORC_014 and KCTC2471 (tdh... 46

Figure 3.1. Comprehensive overview of SNPing. (A) Analysis workflow within the SNPing pipeline. (B) Web interface of SNPing. The upper panel displays the data input... 55

Figure 3.2. Pipeline performance evaluation result by sequencing depth. (A) Comparative performance of SNPing with other tools, including CFSAN SNP-Pipeline,... 64

Figure 3.3. Comparison of PFGE and SNPing results. The figure presents a side-by-side comparison of sub-typing results obtained from PFGE and SNP. The phylogenetic tree was constructed using concatenated SNP sequences derived from SNPing. The box adjacent to the right side of each node indicates the... 69

Figure 3.4. Box plot visualizing count of SNP differences within the same epidemiologically identified group. The upper, middle, and lower bounds of boxes... 70

Figure 3.5. Phylogenetic results from WGS data. The tree was constructed using concatenated SNP sequences derived from SNPing. The epidemiologically identified... 71

Figure 3.6. Phylogenetic tree result of 60 Salmonella outbreak isolates using SNPs. The tree was constructed with concatenated SNP sequences. On the right side of the each... 72

Figure 4.1. The work flow for classification of pathogenic E. coli used in this study 89

Figure 4.2. The model accuracy of each classifier. The graph below is each model accuracy that calculated F1-score (A) and Matthews Correlation Coefficient (B) values by... 96

Figure 4.3. The harmonic accuracy per model. The box plot illustrated the harmonic accuracy for each pathotype per model. The color boxes indicated five pathotype of DEC 99

Figure 4.4. Feature importance of RF and SVM classifier. The top 5% important features were selected for this analysis. The figures are shown feature importance for RF (A) and... 104

Figure 4.5. The candidlate genomic regions from the Nissle 1917 for DEC pathotype classification. The middle gray line is a representation of the Nissle 1917 genome. Based on this, the upper part shows the variable importance of each position using the RF model. The numbers in brackets are the order of... 106

Figure 4.6. COG annotation result. The COG categorization was conducted by eggNOG. The color bar indicated by RF, random forest; SVM, support vector machine 107

Figure 5.1. The flowchart of this research. The green line is the workflow for HGT analysis in the whole bacterial species and the blue dashed line is the workflow for HGT analysis in... 123

Figure 5.2. The ratio of KEGG pathway annotations. Colors correspond to the respective categories of transferred genes between E. coli and other species. Sub-categories are... 129

Figure 5.3. The ratio of KEGG pathway and sub-categories of transferred genes among E. coli. The most transferred genes were annotated in "Metabolism (81.7%)", followed by... 130

Figure 5.4. The results of transferred virulence genes. (A) The ratio of virulence factor categories for Inter species (between E. coli and other species) and Intra species (among E.... 131

Figure 5.5. Box plot showing the ratio of horizontal gene transfer within E. coli species. The x-axis represents the pathotype of E. coli and the y-axis represents the ratio of genes... 136

Figure 5.6. The ratio of pathotypes involved in virulence factor transfer in hybrid EAEC/STEC. (A) The proportion of pathotypes that transferred virulence factors as... 137

Figure 5.7. The command-line pipeline to detect horizontal gene transfer for the user. The user can input the complete genome of E. coli using Python to detect HGT in E. coli.... 140

초록보기

 전장유전체염기서열 분석법의 발전은 공중보건, 특히 식품안전 분야에서 매우 중요한 도구로서 큰 기여를 하고 있다. 이를 기반으로 한 생물정보학적 분석 도구와 데이터베이스는 박테리아의 유전적 특성 및 병원성을 분석하여 정밀한 동정 및 분류를 가능하게 하며, 특히 식중독 사고에서 식중독의 원인 파악과 추적에 중요한 역할을 하고 있다. 본 논문에서는 전장유전체염기서열을 활용하여 식중독균의 유형화와 역학조사를 위한 분석과 프로그램 개발 연구를 수행하였다.

본 논문은 총 5개의 장으로 구성되어 있다. 제1장에서는 본 논문과 관련된 배경 지식을 정리하였다. 제2장에서는 전장유전체를 이용하여 식중독균의 유전체 특성을 규명하고자 하는 연구를 소개하며 제3,4,5장에서는 생물정보학적 분석 기법을 활용하여 식중독 균주를 분류하고, 출현 원인을 밝히고자 개발한 분석 파이프라인과 데이터베이스를 소개한다.

제2장에서는 국내에서 분리된 Vibrio parahaemolyticus FORC_014 균주의 표준전장유전체를 조립하고 비교유전체 분석을 수행한 연구로서, 기존에 보고되어 있던 V. parahaemolyticus의 표준전장유전체와 비교하여 FORC_014 균주의 특성을 규명하였다. 이 연구는 V. paraheamolyticus FORC_014 균주가 임상 균주의 특징을 나타내는 내열성 용혈소와 내열성 용혈소 관련 용혈소가 모두 부재하지만, 그 외의 다른 병원성을 통해서 식중독 발병의 원인으로 작용할 수 있음을 제안하였다. 제 3장에서는 생물정보학분석을 식중독 사고 원인 조사에 활용할 수 있도록 식중독균의 전장유전체염기서열을 기반으로 한 비교유전체 분석 파이프라인을 구축한 사례를 제시하였다. 이 연구에서는 식중독균의 염기서열을 비교 분석하여 유전체 상의 단일염기다형성을 발굴하는 파이프라인을 구축하고, 이를 기반으로 식중독 원인조사에 활용할 수 있는 생물정보학적 분석 프로그램을 개발하였다. 특히 낮은 서열 생산량에도 높은 정확성을 보이며 웹을 기반으로 하여 다양한 환경에서도 활용할 수 있도록 하였다. 더하여 국내외에서 일어난 실제 식중독 사고와 모니터링 데이터를 이용하여 식중독 사고의 역학 조사 도구로서 개발한 분석 프로그램의 정확성과 활용성을 확인하였다.

제 4장에서는 기계학습을 사용하여 병원성 대장균의 전장유전체 서열을 기반으로 한 병원성 분류 모델을 소개한다. 이 연구에서는 대장균의 독성 유전자 이외의 다른 유전체 영역을 이용하여 의사결정나무, 랜덤포레스트, 나이브베이즈, SVM 분류 모델을 통해 병원성 대장균을 분류하고, 분류 성능을 평가하였다. 가장 성능이 높은 랜덤포레스트, SVM 분류모델에서 제시한 대장균의 유전체 영역과 유전자 목록을 제시하여 해당 영역이 병원성 대장균의 분류에 중요한 역할을 하고 있음을 제시하였다.

제 5장에서는 공개되어 있는 모든 박테리아의 유전체 서열을 사용하여, 계통수 조화법을 기반으로 대장균과 다른 종, 그리고 대장균 종내 에서 수평적 유전자 이동을 탐색하고 이를 기반으로 분석 파이프라인 및 데이터베이스를 구축한 연구로서, 수평적 이동 유전자 중 병원성 유전자의 분포를 확인하고 대장균에서 병원성 유전자의 수평적 유전자 이동을 탐색하였다. 또한, 종내 수평적 유전자 이동이 변종 병원성 대장균의 출현에 준 영향을 제시하였다.

본 논문의 연구 결과들은 식중독균의 전장유전체염기서열을 표준유전체 구축 및 특성 규명과 역학조사에 활용하는 사례를 보여준다. 본 연구를 통해 식품 미생물 안전 분야에서 전장유전체염기서열을 기반으로 역학조사에 활용할 수 있을 것으로 기대한다.