본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

결과 내 검색

동의어 포함

목차보기

[표지]

제출문

단계보고서 초록

요약문

Summary

Contents

목차

1장 연구개발과제의 개요 36

1절 연구개발 최종 목표(2021-2026 기준) 36

2절 국내·외 기술개발 현황 36

3절 단계별 연구개발 로드맵 53

4절 단계별 연구개발과제 목표 및 내용 54

1. 성과지표 및 연차별 목표 54

2. 1단계(2021-2022) 성과지표 달성도 : 100% 55

3. 전략목표(대과제)-성과목표(중과제)-성과지표(세부과제) 성과 연계도 56

4. 추진전략 및 협력 네트워크 56

5. 1단계('21~'22) 대표성과 58

2장 연구개발과제의 수행 과정 및 수행 내용 59

3장 연구개발과제의 수행 결과 170

1절 정성적 연구개발성과 170

2절 정량적 연구개발성과 174

4장 연구개발성과의 관련 분야에 대한 기여 정도 182

5장 연구개발성과의 관리 및 활용 계획 184

6장 참고문헌 185

[뒷표지] 190

표목차

〈표 I-1〉 ECP 프로젝트의 수치 라이브러리 소프트웨어 40

〈표 I-2〉 PRACE의 수치 라이브러리 소프트웨어 41

〈표 I-3〉 이기종 아키텍처 기반 디버거 기술 동향 44

〈표 I-4〉 소프트웨어 디버거 44

〈표 I-5〉 이기종 아키텍처 기반 프로그래밍 모델 기술동향 45

〈표 I-6〉 가상머신 기반 Cloud Federation 46

〈표 I-7〉 애플리케이션 가상화 49

〈표 I-8〉 Openstack 참여업체 50

〈표 II-1〉 자체개발 계산노드 클러스터 시스템 구성요소 59

〈표 II-2〉 자체개발 계산노드 주요 구성요소 및 상세사양 60

〈표 II-3〉 개발 시스템 검증 결과 61

〈표 II-4〉 DevCloud에서 OpenCL 프로그래밍 순서 93

〈표 II-5〉 RTL AFU을 이용한 FPGA 개발 순서 94

〈표 II-6〉 CLBlast BLAS 루틴 구현 타입 및 목록 96

〈표 II-7〉 BLAS 루틴 커널 별 성능 파라미터 예시 97

〈표 II-8〉 주요 HPL 함수의 세부 내용 99

〈표 II-9〉 HPL broadcast 알고리즘 101

〈표 II-10〉 HPL 후행행렬 업데이트 알고리즘 102

〈표 II-11〉 NVIDIA HPL 실행 및 프로파일링 환경 103

〈표 II-12〉 NVIDIA HPL 프로파일링 시 HPL 입력 파라미터 값 103

〈표 II-13〉 ECP 프로젝트의 수치 라이브러리 소프트웨어 108

〈표 II-14〉 PRACE의 수치 라이브러리 소프트웨어 110

〈표 II-15〉 SYCL 개발 환경을 위한 시스템 사양 121

〈표 II-16〉 개발 완료 단위계산 루틴 127

〈표 II-17〉 공개 프로젝트로 개발 중인 소프트웨어 분석 도구 133

〈표 II-18〉 ECP 프로젝트의 소프트웨어 개발도구 포트폴리오 136

〈표 II-19〉 EXAPAPI가 지원하는 GPU 컴포넌트 목록 137

〈표 II-20〉 NVIDIA GPU의 프로파일링을 위한 메트릭 목록 139

〈표 II-21〉 NVIDIA GPU의 프로파일링 도메인 및 주요 이벤트 목록 139

〈표 II-22〉 NVIDIA CUPTI Metric 140

〈표 II-23〉 NVIDIA CUPTI의 주요 특징 및 GPU 별 지원 기능 143

〈표 II-24〉 다중 가속기 기반 HPL 개발 동향 조사 150

〈표 II-25〉 KI Cloud@Kairos 구성 내용 163

〈표 II-26〉 KI Cloud 취약점 점검 대상 164

〈표 II-27〉 KI Cloud 지속적 관리 및 기능 개선 현황 166

그림목차

〈그림 I-1〉 ECP 프로파일링 도구 TAU 아키텍처 44

〈그림 I-2〉 C-Ports 서비스 프로세스 47

〈그림 I-3〉 Kubernetes Cluster Federation(KubeFed) 구성도 48

〈그림 I-4〉 OpenShift 포탈 화면(관리자 페이지) 50

〈그림 I-5〉 SpaceOne 대시보드 51

〈그림 I-6〉 SpaceOne 서버 인스턴스 목록 51

〈그림 I-7〉 클라우드 바리스타 구성 52

〈그림 I-8〉 성과지표별 연구개발 로드맵 53

〈그림 I-9〉 전략목표-성과목표-성과지표 성과 연계도 56

〈그림 II-1〉 클러스터 시스템 구성도 및 시스템 형상 59

〈그림 II-2〉 계산노드 주요 구성도 및 시스템 형상 60

〈그림 II-3〉 한국정보통신기술협회(TTA) 시험결과서 HPC-21-007 60

〈그림 II-4〉 주요 PCIe 스위치 제조사의 NTB 관련 특성 비교 61

〈그림 II-5〉 백플레인보드 포트 구성, 구현물 및 HCA 카드 구현물 62

〈그림 II-6〉 개발 결과물 검증 테스트 62

〈그림 II-7〉 ChipLink를 통한 PCIe 스위치의 링크 상태 검증 63

〈그림 II-8〉 Linux에서 lspci 명령을 통한 디바이스 확인 63

〈그림 II-9〉 PCIe LTSSM 및 하위 상태 정의 64

〈그림 II-10〉 ChipLink를 활용한 NTB용 BAR 설정 64

〈그림 II-11〉 TCP/IP over PCIe 테스트 과정 64

〈그림 II-12〉 KCU105 보드에서 xDMA기반 PCIe용 DMA 엔진 블록 구성 65

〈그림 II-13〉 이기종 확장 하드웨어 관리를 위한 시스템 아키텍처 제안 및 개념도 65

〈그림 II-14〉 OpenBMC 커널 개발 환경 구축 및 환경 설정 66

〈그림 II-15〉 Open BMC 기반 자체 개발을 통한 KISTI-PURLEY-R2 고성능 서버 노드 관리... 67

〈그림 II-16〉 다양한 이기종 시스템 관리를 위한 센서 템플릿 기술 설계 및 개발 68

〈그림 II-17〉 BMC 기반 시스템 자원 모니터링 기술 설계 및 구현 68

〈그림 II-18〉 가상 머신 기반 원격 관리 통합 시스템 구성도 및 연동 결과 69

〈그림 II-19〉 PXE 기반 원격 운영체제 설치 기술 흐름도 및 이미지 백업/복원 예제 69

〈그림 II-20〉 PXE 기반 비디스크 운영체제 설치 기술 검증 테스트 70

〈그림 II-21〉 DHCP 설정 페이지 : Host의 BMC 매칭 추가 70

〈그림 II-22〉 PXE 템플릿 설정 페이지 : 이미지 이름 및 순서 설정 추가 70

〈그림 II-23〉 노드 현황 : PXE 이미지 선택 추가 71

〈그림 II-24〉 부팅 엔트리 확인 71

〈그림 II-25〉 원격 관리도구 구조 개선 72

〈그림 II-26〉 MaaS 서비스 구조 72

〈그림 II-27〉 MaaS 노드 관리 주기 73

〈그림 II-28〉 MaaS 공식 이미지 다운로드 74

〈그림 II-29〉 MaaS 커스텀 이미지 등록 74

〈그림 II-30〉 MaaS 운영체제 배포 75

〈그림 II-31〉 이기종 시스템 클러스터 구축 기술 흐름도 75

〈그림 II-32〉 Commissioning 중 서버로 하드웨어 정보 전달 및 BMC 매칭 76

〈그림 II-33〉 MaaS 구조 기반 KiERA 배포 과정 76

〈그림 II-34〉 PIM-HBM 구조 77

〈그림 II-35〉 UPMEM PIM 시스템 구조 77

〈그림 II-36〉 PIM-HBM 통합 프로세서 구조 78

〈그림 II-37〉 NVidia V100 GPU의 채널 해싱 78

〈그림 II-38〉 NVidia V100 GPU의 뱅크 맵핑 및 해싱 79

〈그림 II-39〉 NVidia V100 GPU의 주소 매핑 79

〈그림 II-40〉 해싱을 고려한 주소 맵이 PIM 아키텍처에 미치는 영향 80

〈그림 II-41〉 단일 채널 시스템에서 제안 아키텍처 80

〈그림 II-42〉 단일 모듈-다 채널 시스템에서 제안 아키텍처 80

〈그림 II-43〉 UPMEM PIM 서버 구축 81

〈그림 II-44〉 UPMEM SDK 구조 82

〈그림 II-45〉 UPMEM PIM 프로그래밍 기술 문서 82

〈그림 II-46〉 PrIM 벤치마크 83

〈그림 II-47〉 PrIM 워크로드의 CPU버전의 루프라인 모델 83

〈그림 II-48〉 UPMEM PIM 기반 워크로드 성능 분석 84

〈그림 II-49〉 UPMEM PIM 기반 2D NTT 커널 구현 워크플로우 85

〈그림 II-50〉 UPMEM PIM 기반 2D NTT 커널 성능 개선 전후 비교 85

〈그림 II-51〉 UPMEM PIM 기반 2D NTT 커널의 CPU-DPU간 전송... 85

〈그림 II-52〉 All-flash Lustre 순차 쓰기 성능 86

〈그림 II-53〉 Checksum 연산 파이프라인 86

〈그림 II-54〉 동적 스레드 개수 할당시 CPU 사용량 87

〈그림 II-55〉 파일시스템 실험 결과 성능 비교 87

〈그림 II-56〉 멀티스트림 SSD 성능 감소 효과 확인 87

〈그림 II-57〉 4종류 매니코어 CPU 쓰기 실험 성능 비교 88

〈그림 II-58〉 스레드 수에 따른 odinfs 읽기 쓰기 성능 비교 89

〈그림 II-59〉 OptanePM 구성도 90

〈그림 II-60〉 OptanePM 작동 흐름 90

〈그림 II-61〉 AWS FPGA Programming Flow 91

〈그림 II-62〉 KCU105 평가 키트 91

〈그림 II-63〉 Xilinx Vivado 개발 도구 92

〈그림 II-64〉 SDAccel(OpenCL Application Environment) 92

〈그림 II-65〉 Intel DevCloud 구성도 93

〈그림 II-66〉 OpenCL for FPGA 개발환경 93

〈그림 II-67〉 OpenCL Kernel Scheduler Viewer 93

〈그림 II-68〉 OpenCL 컴파일러 레포트 93

〈그림 II-69〉 OpenCL 커널 코드 실행 결과(예시) 93

〈그림 II-70〉 RTL AFU를 이용한 예제 실행 94

〈그림 II-71〉 FPGA 개발 플랫폼 컴포넌트 및 CCI : Core Cache Interface 94

〈그림 II-72〉 CLBlast SGEMM 커널 동작을 위한 호출 구조 분석 결과 95

〈그림 II-73〉 CLBlast GEMM 루틴 커널함수 구현 형태 분석 97

〈그림 II-74〉 GPU 계산자원 수준에 따른 계층적 CUTLASS GEMM 구현 요소 98

〈그림 II-75〉 계산자원의 계층적 특성을 반영한 CUTLASS GEMM 실행 구조 99

〈그림 II-76〉 CPU 중심 HPL 실행 흐름 99

〈그림 II-77〉 BLAS 루틴 기반의 LU 분해 과정 100

〈그림 II-78〉 문제 크기(N)별 메모리 요구량, HPL 성능, 통신 비중의 변화 104

〈그림 II-79〉 블록 크기(NB)별 메모리 요구량, HPL 성능, 통신 비중 변화 104

〈그림 II-80〉 문제 크기별 PCIe 통신 모니터링 결과 105

〈그림 II-81〉 블록 크기별 PCIe 통신 모니터링 결과 106

〈그림 II-82〉 문제 크기가 60,000일 때 PCIe 통신 모니터링 106

〈그림 II-83〉 전체 실행 프로파일링 결과 107

〈그림 II-84〉 통신-B 구역 프로파일링 결과 107

〈그림 II-85〉 통신-C 구역 및 HPL 핵심 연산 프로파일링 107

〈그림 II-86〉 루프 1구간 프로파일링 결과 108

〈그림 II-87〉 인텔 OneAPI 소프트웨어 스택 114

〈그림 II-88〉 주요 SYCL 구현물 115

〈그림 II-89〉 기타 SYCL 구현물 115

〈그림 II-90〉 DPC++ 컴파일러의 워크플로우 116

〈그림 II-91〉 인텔 llvm의 구조 117

〈그림 II-92〉 hipSYCL의 구조 117

〈그림 II-93〉 ComputeCPP가 지원하는 OS 및 디바이스 118

〈그림 II-94〉 Sylkan의 컴파일 과정 및 관련 런타임 요소의 개요 119

〈그림 II-95〉 Ascend AI 칩을 위한 CCE 백엔드 추가 120

〈그림 II-96〉 SYCL 개발 환경 구조 121

〈그림 II-97〉 SYCL 런타임 성능 최적화 전략 122

〈그림 II-98〉 계층적 구조 측면에서 본 SYCL 런타임 최적화 122

〈그림 II-99〉 roc-obj-ls 사용의 예 123

〈그림 II-100〉 hsa_code_object_reader_create_from_memory() 사용의 예 123

〈그림 II-101〉 HSA 런타임 함수를 이용한 커널 런칭 코드 125

〈그림 II-102〉 SYCL 기반 소프트웨어 스택 구조도 126

〈그림 II-103〉 개발 및 기능검증 대상 단위계산 루틴 126

〈그림 II-104〉 개발 소프트웨어 패키지 구성 및 구조도 127

〈그림 II-105〉 개발된 SAXPY 계산루틴 SYCL 코드 127

〈그림 II-106〉 Level-1 SAXPY 계산루틴 기능검증 실행화면 128

〈그림 II-107〉 Level-2 SGEMV 계산루틴 기능검증 실행화면 128

〈그림 II-108〉 Level-3 SGEMM 계산루틴 기능검증 실행화면 128

〈그림 II-109〉 GDB를 이용하는 방법 129

〈그림 II-110〉 Oclgrind의 대화형 디버깅 세션 131

〈그림 II-111〉 Intel SDK for OpenCL Application 132

〈그림 II-112〉 Support Matrix 132

〈그림 II-113〉 이기종 시스템을 위한 병렬 프로그램 디버거 개발 계획 134

〈그림 II-114〉 이기종 시스템을 위한 디버거 개발 실험 환경 구성(안) 134

〈그림 II-115〉 병렬 프로그램 디버거 프로토타입 개발 아키텍처 135

〈그림 II-116〉 NVIDIA GPU의 Events와 Metrics 138

〈그림 II-117〉 CUPTI 기반 프로파일링 141

〈그림 II-118〉 Nsight를 사용한 애플리케이션 프로파일링 141

〈그림 II-119〉 NVIDIA GPU 이벤트 수집 프로세스 142

〈그림 II-120〉 NVIDIA GPU 메트릭 수집 프로세스 142

〈그림 II-121〉 프로파일링 데이터 기반 HPC 성능 분석 144

〈그림 II-122〉 계층적 메모리 성능 최적화를 위한 데이터 이주기술 145

〈그림 II-123〉 이기종 아키텍처 프로파일링 기술 145

〈그림 II-124〉 NVIDIA Software Relationships 146

〈그림 II-125〉 이기종 멀티 GPU 모니터링 툴 설계 및 개발 147

〈그림 II-126〉 이기종 멀티 GPU 모니터링 툴 실행 화면 147

〈그림 II-127〉 GPU_DGEMM_SPLIT 파라미터에 따른 연산 오프로딩 성능 분석 148

〈그림 II-128〉 재귀적 패널 분해 및 패널 LU분해 알고리즘의 실행 개요 148

〈그림 II-129〉 BLAS 루틴별 LU분해 알고리즘과 포인터 사용 분석 149

〈그림 II-130〉 다중 가속기 환경의 HPL 병렬 최적화 기술 구현 시나리오 150

〈그림 II-131〉 KI Cloud 고도화 방향 수립 151

〈그림 II-132〉 시스템 구성도 152

〈그림 II-133〉 시스템 주요 기능 테스트 실행 화면 153

〈그림 II-134〉 Slurm 기술조사 153

〈그림 II-135〉 OpenPBS 기술조사 153

〈그림 II-136〉 가상 클러스터링 환경 구성 154

〈그림 II-137〉 기존 클러스터링 환경 vs 가상 클러스터링 환경 작업배치 비교 154

〈그림 II-138〉 MPI Job Isolation을 위한 가상 클러스터 생명주기 155

〈그림 II-139〉 NVIDIA vGPU Internal Architecture 155

〈그림 II-140〉 vGPU 환경 구축 및 테스트 완료 156

〈그림 II-141〉 HP Applo 4200 Cen 10 Plus 서버 구조 156

〈그림 II-142〉 K-MDS 스토리지 장애 100% 복구 완료(48시간내) 157

〈그림 II-143〉 Lustre NodeMap 157

〈그림 II-144〉 Lustre NodeMap Client Test 157

〈그림 II-145〉 단일 노드를 통한 가상머신 접속 방법 158

〈그림 II-146〉 Kubernetes에서 적용 사례 158

〈그림 II-147〉 KI Cloud에 Albatross 어플리케이션 적용 159

〈그림 II-148〉 소재데이터 플랫폼 시스템 구성도 160

〈그림 II-149〉 소재데이터 플랫폼 네트워크 구성도 160

〈그림 II-150〉 소재데이터 플랫폼 클라우드를 위한 마이그레이션 161

〈그림 II-151〉 바이오 데이터 스테이션 플랫폼 시스템 구성도 161

〈그림 II-152〉 K-BDS 연구성과물 적용 프로세스 162

〈그림 II-153〉 KI Cloud@Nurion 시스템 구성도 163

〈그림 II-154〉 KI Cloud KAIROS Ceph 스토리지 증설 현황 164

〈그림 II-155〉 KAIROS CCE 취약점 점검 결과 요약(일부) 164

〈그림 II-156〉 KAIROS CVE 취약점 점검 결과 요약(일부) 165

〈그림 II-157〉 KI Cloud KAIROS 누적 사용자 현황 167

〈그림 II-158〉 KI Cloud Nurion 누적 사용자 현황 167

〈그림 II-159〉 유전체 분석 프로세스 168

〈그림 II-160〉 서비스중인 Imputation 서버 168

〈그림 II-161〉 TransDreamer : 트랜스포머-기반 모델기반 강화학습 168

〈그림 II-162〉 기술이전 기업의 활용사례 언론보도 169