목차

표제지

목차

ABSTRACT 9

제1장 서론 10

제1절 배경 10

제2절 연구목적 12

제2장 배경 이론 13

제1절 강화학습 13

제2절 심층강화학습 14

제3절 가치기반, 정책기반 16

1. 가치기반 16

2. 정책기반 18

제4절 DDPG 알고리즘 20

제3장 시뮬레이션 환경 구성 및 강화학습 설계 23

제1절 Unity와 ROS를 이용한 시뮬레이션 환경 구성 23

1. 사용 로봇 23

2. Unity환경 구성 25

3. Unity와 ROS의 통신 26

제2절 Unity환경과 ML-Agents패키지를 통한 강화학습 27

1. ML-Agents 패키지 27

2. 시뮬레이션 환경에서의 강화학습 설계 28

3. Point Cloud 데이터와 Bounding Box 데이터 32

제3절 중간 학습 결과 33

제4장 강화학습 결과 및 성공률 측정 35

제1절 5각형 모양 물체의 학습 결과 35

제2절 7각형 모양 물체의 학습 결과 39

제3절 9각형 모양 물체의 학습 결과 41

제4절 최종 결과 43

제5장 결론 및 한계점 45

제1절 결과를 통한 결론 45

제2절 한계점 46

참고문헌 47

국문초록 51

〈표 3-1〉 State, Action, Reward 정의 29

〈표 4-1〉 5각형의 데이터에 따른 성공률 38

〈표 4-2〉 7각형의 데이터에 따른 성공률 40

〈표 4-3〉 9각형의 데이터에 따른 성공률 42

〈표 4-4〉 도형에 따른 하이퍼 파라미터 차이 43

〈표 4-5〉 도형에 따른 Picking 성공률 43

〈표 4-6〉 데이터에 따른 Picking 성공률 44

〈그림 2-1〉 강화학습 방식 13

〈그림 2-2〉 Neural Network 14

〈그림 2-3〉 Neural Network의 노드와 활성화 함수 15

〈그림 2-4〉 DDPG 알고리즘 20

〈그림 3-1〉 A0912모델과 RG6모델을 결합한 모습 23

〈그림 3-2〉 Unity환경에서 URDF파일을 불러온 모습 25

〈그림 3-3〉 Unity환경에서 Picking을 진행할 물체들 25

〈그림 3-4〉 Unity와 ROS의 통신 26

〈그림 3-5〉 Unity와 ROS와 Python의 통신 27

〈그림 3-6〉 1자유도를 가지는 RG6모델 28

〈그림 3-7〉 에피소드 과정 31

〈그림 3-8〉 Point Cloud 데이터와 Bounding Box 데이터 32

〈그림 3-9〉 중간 학습 결과 33

〈그림 3-10〉 위치가 고정된 물체들 34

〈그림 4-1〉 5각형의 Point Cloud 데이터 평균 보상 그래프 35

〈그림 4-2〉 5각형의 Point Cloud 데이터 학습 결과 36

〈그림 4-3〉 5각형의 Bounding Box 데이터 평균 보상 그래프 37

〈그림 4-4〉 5각형의 Bounding Box 데이터 학습 결과 38

〈그림 4-5〉 7각형의 Point Cloud 데이터 학습 결과 39

〈그림 4-6〉 7각형의 Bounding Box 데이터 학습 결과 39

〈그림 4-7〉 9각형의 Point Cloud 데이터 학습 결과 41

〈그림 4-8〉 9각형의 Bounding Box 데이터 학습 결과 41