권호기사보기
기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
---|
대표형(전거형, Authority) | 생물정보 | 이형(異形, Variant) | 소속 | 직위 | 직업 | 활동분야 | 주기 | 서지 | |
---|---|---|---|---|---|---|---|---|---|
연구/단체명을 입력해주세요. |
|
|
|
|
|
* 주제를 선택하시면 검색 상세로 이동합니다.
표제지
목차
국문요약 9
1. 서론 12
1.1. 연구의 배경 및 목적 12
1.2. 연구의 범위 및 방법 13
2. 이론적 배경 15
2.1. 토픽 검색의 개념 15
2.1.1. 초기 연구에서의 토픽 검색 15
2.1.2. TREC 연구에서의 토픽 검색 17
2.2. 토픽 검색 접근 방법 20
2.2.1. 링크 구조 기반 토픽 검색 21
2.2.2. 사이트 구조 기반 토픽 검색 23
2.3. 주요 선행연구 26
3. 실험 및 결과 분석 32
3.1. 실험 설계 32
3.1.1. 실험 개요 32
3.1.2. 실험 문헌 집단 32
3.1.3. 웹 페이지 검색 과정 35
3.1.4. 토픽 검색 과정 38
3.1.5. 실험 결과 평가 척도 46
3.2. 실험 결과 및 평가 47
3.2.1. 웹페이지 검색 결과 47
3.2.2. 토픽 검색 결과 48
3.2.3. 토픽 검색 성능 평가 57
3.2.4/3.2.5. TREC 적합 페이지/사이트 URL과의 비교 분석 61
4. 결론 69
참고문헌 73
ABSTRACT 79
〈그림 1〉 적합성 값 결합 알고리즘의 예(Zhang et al. 2003) 27
〈그림 2〉 웹 사이트 구조의 예시 31
〈그림 3〉 실험 과정 33
〈그림 4〉 실험 문헌의 예시 34
〈그림 5〉 토픽 검색 질의의 예시 35
〈그림 6〉 검색된 웹 사이트 구조의 예시 40
〈그림 7〉 P(10)으로 평가한 토픽 검색 결과 55
〈그림 8〉 TREC-2004 토픽 검색 결과와의 비교-P(10) 59
〈그림 9〉 토픽 검색 질의에 대한 적합문헌 리스트의 예시 62
〈그림 10〉 토픽 검색 결과 웹 페이지 URL 리스트의 예시(Q153) 68
웹이 가진 정보의 양이 점차 증가하여 이용자에게 중요한 정보원이 되어감에 따라, 웹 정보로의 접근점을 제공하는 웹 검색 엔진은 더욱 필수적인 도구가 되었다. 웹 검색 엔진의 성능을 향상시키기 위한 연구가 계속되고 있으며, 웹 검색 과제의 하나로 토픽 검색이 연구되고 있다. 토픽 검색은 질의에 적합한 웹 사이트 및 하위 사이트를 검색하는 방법으로 이용자에게 신뢰성 있는 자원을 제공한다.
본 논문에서는 사이트 검색으로써의 토픽 검색에 초점을 맞추어, 질의에 적합한 사이트를 선정하는 토픽 검색 알고리즘을 제안하고 검색의 성능을 평가하였다. 실험을 위하여 TREC의 웹 실험 문헌 집단 .GOV와 TREC-2004의 질의 및 적합 문헌 집합을 이용하였다.
웹 페이지 검색은 전체 실험 문헌 집단을 대상으로 하여 수행하였으며 오카피 시스템의 BM25 함수를 이용하였다. 웹 페이지 검색 결과에서 토픽 검색 대상 사이트 및 하위 사이트, 각 사이트/하위 사이트의 엔트리 페이지를 선정하였다. 선정된 사이트/하위 사이트의 질의에 대한 토픽 점수를 계산하고, 이 점수에 따라 사이트/하위 사이트의 엔트리 페이지를 정렬하였다.
토픽 점수는 사이트의 적합성 점수와 인링크의 수를 이용한 링크 점수를 결합하여 산출하였다. 엔트리 페이지와 하위 페이지, 하위 사이트의 적합성 값을 결합하는 적합성 점수 공식에서 하위 페이지/하위 사이트의 가중치를 달리하는 다섯 가지 모형과 토픽 접수 공식에서 적합성 점수와 링크 점수의 반영 비율을 조절하는 두 가지 상수 값을 설정하여 가중치 및 상수 값의 변화에 따른 토픽 검색의 성능을 평가하였다. 성능 평가 척도로는 MAP와 P(10)을 이용하였다.
실험 결과 적합성 점수 계산 시 하위 페이지와 하위 사이트의 가중치 값을 높일 때 토픽 검색의 성능이 향상되었다. 고정 가중치 모형과 유사도 가중치 모형에서 각각 최고 0.217, 0.193의 P(10) 값을 가져, 하위 페이지의 영향력이 높게 반영된 고정 가중치 모형이 유사도 가중치 모형보다 우수한 성능을 보였다. 하위 사이트의 경우에도 하위 페이지의 경우와 같이 사이트의 적합성 점수에서 하위 사이트의 가중치가 높을수록 토픽 검색의 성능이 향상된 것으로 나타났다. 동일한 환경에서 하위 사이트의 가중치를 높였을 때 P(10)은 유사도 가중치 모형에서는 0.177에서 0.193로, 고정 가중치 모형에서는 0.210에서 0.217로 향상하였다. 사이트의 적합성 접수에서 하위 페이지/하위 사이트 적합성 점수가 중요하게 작용함을 알 수 있었고, 따라서 사이트의 계층 구조를 반영하여 질의에 대한 사이트의 적합성 정도를 평가하는 것이 토픽 검색에 적절한 전략임을 증명하였다.
사이트의 토픽 점수에서 링크 점수가 적합성 점수와 동일한 비율로 반영될 때 가장 좋은 성능을 보이는 것으로 나타났으며, 이를 통하여 인링크의 수를 토픽 검색에서 이용하는 것이 적절하다는 것을 확인하였다.
또한 실험 결과 토픽 점수를 구성하는 세 가지 값 즉 엔트리 페이지의 적합성 값과 하위 페이지/하위 사이트의 적합성 값, 링크 점수 모두가 검색 성능에 영향을 주었다. 이들 세 가지 값이 적절히 반영되어 토픽 점수를 구성되어야 토픽 검색의 성능이 향상될 수 있음을 알 수 있었다.
본 연구에서 제안한 토픽 검색 알고리즘의 성능을 TREC-2004의 토픽 검색 실험 결과와 비교하였다. TREC-2004에 참여한 18개 기관 중 P(10) 값이 높은 상위 7개 기관과의 성능을 비교한 결과 본 연구의 알고리즘은 0.217로, 상위 5위 수준의 우수한 성능을 갖는 것으로 나타났다. 그러나 MAP를 이용한 비교 평가에서는 TREC 실험에 비해 성능이 낮은 것으로 나타났는데 그 이유는 본 연구에서는 사이트를 단위로 하여 토픽 검색을 수행하였던 반면 TREC-2004의 토픽 검색의 적합문헌에는 페이지도 포함되었기 때문이다.
TREC-2004에서는 토픽 검색을 사이트 검색으로 정의하였기 때문에, TREC-2004 토픽 검색의 적합문헌 리스트를 그 정의와 비교하였다. 임의로 4개의 질의를 선택하여 이들의 적합문헌 리스트를 분석한 결과 TREC-2004의 적합문헌 선정에 있어 토픽 검색의 정의가 적용되지 않는 경우가 있음을 확인하였고, 분석 결과를 반영하여 적합문헌 리스트를 적합 사이트의 리스트로 수정하였다. 수정된 적합문헌 리스트를 이용하여 토픽 검색 알고리즘의 성능을 재평가하였을 때 토픽 검색의 성능이 MAP에서 97% P(10)에서 50% 향상하였다.
결론적으로 이 연구에서 제안한 토픽 검색 알고리즘이 우수한 성능을 보였으며 토픽 검색의 대상이 되는 사이트의 정의에 충실한 적합문헌 리스트가 제공된다면 그 성능이 더욱 높아질 것으로 기대된다.*표시는 필수 입력사항입니다.
전화번호 |
---|
기사명 | 저자명 | 페이지 | 원문 | 기사목차 |
---|
번호 | 발행일자 | 권호명 | 제본정보 | 자료실 | 원문 | 신청 페이지 |
---|
도서위치안내: / 서가번호:
우편복사 목록담기를 완료하였습니다.
*표시는 필수 입력사항입니다.
저장 되었습니다.