본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

결과 내 검색

동의어 포함

목차보기

title page

Abstract

Contents

Chapter I. Introduction 14

1.1. Biologically inspired artificial brain 14

1.2. Two essential components for artificial intelligence: Hebbian learning and reinforcement learning 17

Chapter II. Synaptic plasticity by Hebbian learning 20

2.1. Spike-based Hebbian learning: Spike-timing dependent plasticity 20

2.2. Rate-based Hebbian learning: Activity-variation-timing dependent plasticity(AVTDP) 27

2.2.1. General rate code of STDP 29

2.2.2. Simplified rate code of STDP: Activity-variation-timing dependent plasticity(AVTDP) 35

2.3. Graphical interpretation of simplified AVTDP 39

2.3.1. Physical meaning of terms of simplified VATDP 39

2.3.2. Formulation for graphical interpretation 42

2.3.3. Drawing(Rpre,Rpost)(이미지참조) curve 43

2.3.4. Examples for graphical interpretation 46

2.3.5 Comparision between AVTDP and STDP 50

Chapter III. Synaptic plasticity by reinforcement learning 58

3.1. Eligible synapse 60

3.2. Pre- and postsynaptic spike correlator (PPSC) 62

3.3. Simulation 69

Chapter IV. Synaptic plasticity in a dopamine neuron for reward prediction 78

4.1. Spike code for dopamine reward prediction 78

4.2. Rate code for dopamine reward prediction 83

Chapter V. Conclusions 85

Appendix A. Neuron model using a second order differential equation 88

Appendix B. Multiplicative neuron model 100

Appendix C. Slow update of synaptic efficacy 105

요약문(Summary in Korean) 109

References 112

감사의 글 119

Curriculum vitae 123

List of Figure

Figure 1.1.1. Summary of the developed synaptic plasticity rules (solid blocks) 17

Figure 2.1.1. Types of spike-timing dependent plasticity in several brain areas (reproduced from Abbot and Nelson, 2000, Nature Neurosci) 22

Figure 2.1.2. Spike-timing dependent plasticity 23

Figure 2.1.3. Schematic diagram of STDP model of Senn (Senn, 2001) 25

Figure 2.2.1. A block diagram for a rate code of STDP, Eq (2.2.6) 33

Figure 2.2.2. A modified diagram equivalent to the diagram of Fig. 2.2.1 33

Figure 2.2.3. A simplified diagram from Fig. 2..2 34

Figure 2.2.4. Final block diagram of general rate code of STDP 34

Figure 2.2.5. A simplified diagram from Fig. 2.2.4. by setting 36

Figure 2.3.1. Examples of neuron activities 40

Figure 2.3.2 A simple case of pre-and postsynaptic neuron activities 43

Figure 2.3.3. Procedure of drawing (Rpost, Rpre)(이미지참조) curve 45

Figure 2.3.4. Various neuron activities and corresponding (Rpost, Rpre)(이미지참조) curves 47

Figure 2.3.5. Division of an entangled (Rpost, Rpre)(이미지참조) curves of Fig. 4h 49

Figure 2.3.6. Role of the bilateral ter (II) of Eq. (2.3.1) 50

Figure 2.3.7. A smooth neuron activity and corresponding poisson spike train 52

Figure 2.3.8. A comparison between AVTDP and Senn's STDP algorithm 53

Figure 2.3.9. A comparison between AVTDP and Senn's STDP algorithm 54

Figure 2.3.10. Influence of deviated parameters 57

Figure 3.1.1. Determination of eligible synapses. The number denotes the order of firing time 61

Figure 3.2.1. A simple test of PSI and PPSC 64

Figure 3.2.2. Comparison between STDP and reinforcement learning 66

Figure 3.2.3. Synaptic modification using PPSC and reward 67

Figure 3.3.1. Simulation setup 71

Figure 3.3.2. Pseudo-code for simulation 72

Figure 3.3.3. Pseudo-code for simulation 74

Figure 3.3.4. The movement of the robot after 100 seconds of learning (drawn in the global coordinate of he workspace) 75

Figure 3.3.5. Transition of synaptic efficacies during learning 76

Figure 4.1.1. A block diagram of the proposed dopamine model 79

Figure 4.1.2. Simulation result under identical conditions to the animal experiment of Schultz et al 81

Figure 4.1.3. Simulation result under identical conditions to the animal experiment of Hollerman et al 82

Figure 4.2.1. Simulation results by the rate-code of the dopamine model 84

Figure A.1. Classification of neuron models 89

Figure A.2. Comparison between 1st order and 2nd order equations 94

Figure A.3. Alpha function 95

Figure A.4. The behavior of the proposed neuron model 98

Figure B.1. A example of a mulitiplicative neuron 101

Figure B.2. An example of instability of mulitiplicative neuron model 101

Figure B.3. A linearized equation using Taylor expansion 102

Figure B.4. Comparison between the proposed multiplicative model and an existing model 104

Figure C.1. Examples of slow update of synaptic plasticity with four differing time constants 106

Figure C.2. Integration of slows update is equal to the original update 107

초록보기

로봇을 위한 인공 두뇌를 개발하기 위한 기초 연구로서 실제 생물의 지능은 자가조직화와 강화학습의 동시 작용에 의해 발현될 것이라는 가설을 바탕으로 신경 세포 단위의 기본 모델들을 개발하였다. 동물이 학습하는 과정은 크게 [인식→ 판단→행동→평가→수정]의 단계로 단순화 할 수 있다. 동물은 새로운 자극을 반복적으로 경험하게 되면 그 새로운 자극과 기존에 알고 있던 자극을 구분할 수 있게 되고 그 자극에 대한 반응을 결정하여 행동한 후, 그 행동의 결과에 따라 학습해 나가는 일련의 과정을 지속적으로 거치게 된다. 이와 같은 과정을 동물의 두뇌에서 발생하는 현상과 비교하여 단순화 하면 자가조직화(self-organization)와 강화학습(reinforcement learning)으로 재분류할 수 있다. 자가 조직화는 주어진 자극으로부터 신경세포(neuron)의 발화 패턴이 점차적으로 특정한 패턴으로 수렴해 가는 과정으로 해석할 수 있고 강화학습은 뇌의 신호 처리 결과가 초래 하는 보상이나 손실에 따라 기존의 행동 패턴이 강화되거나 약화되는 과정으로 해석할 수 있다. 자가 조직화와 강화 학습은 동물이 학습하는 각 과정에서 항상 동시에 작용할 것으로 보인다. 현재로서는 자가 조직화와 강화학습만으로 지능이 발현될 수 있을 지에 대한 명확한 해답은 없으나 자가 조직화와 강화 학습이 뇌를 모방하여 구현할 인공 지능 알고리즘의 필수 요소라는 것은 분명하다. 비교적 최근에 생물 실험을 통해 발견된 발화 시간 기반 가소성(Spike-Timing Dependent Plasticity, STDP)은 동물 두뇌에서 자가조직화를 일으키는 원동력이 될 것으로 여겨진다. Senn이 제안한 Spike-code 기반의 STDP 모델로부터 시간 기반 특성이 보존되는 Rate-code인 활성도 변화 시간 기반 가소성(Activity-Variation-Timing Dependent Plasticity, AVTDP) 모델을 제안하고, AVTDP의 연접 효율 변화량 특성을 치환적분법을 응용하여 도식적으로 설명하였다. 강화 학습을 위해 동물의 뇌는 도파민이라는 신경전달물질을 이용한다. 도파민에 의해 연접 효율이 변화할 때는 도파민이 분비된 영역의 모든 연접이 변화되는 것이 아니라 특정한 규칙에 따라 선택된 연접만이 변화하는 것으로 보인다. 본 연구에서는 어떤 신경 연접들이 도파민 보상 신호에 의해 강화 또는 약화되어야 하는지, 그리고 어떤 방식으로 학습할 지에 대한 모델을 제시하고 있다. 제안된 모델에서, 보상 신호에 의해 변화하는 연접을 적격 연접(Eligible Synapse)로 정의 하였고 적격 연접은 연접 이전 신경 세포가 발화한 후 짧은 시간 이내에 연접 이후 신경 세포가 발화할 때 적격도(Eligibility)가 증가하도록 하였다. 비전 센서를 장착하고 2자유도의 평면 움직임이 가능한 가상의 로봇에 85개의 신경세포와 324개의 연접으로 이루어진 인공신경망을 이용하여 제안한 모델을 적용한 결과 목표 지점을 찾아 움직이는 행동 특성이 발현됨을 시뮬레이션으로 보였다. 제안한 모델은 등가의 Rate-code로 변환되었다. 도파민 시스템은 단지 보상 신호를 전달하는 역할만 하는 것이 아니라 미래에 받게 될 보상을 예측하거나 보상이 주어지는 시간을 예측하는 기능을 가지고 있다는 증거가 잇따른 동물 실험 연구 결과로부터 입증된 바 있는데, 본 연구에서는 보상 예측 및 보상 시간 예측이 가능한 도파민 신경 세포 모델과 신경 연접 가소성 모델을 Spike-code와 Rate-code 두 가지 방식으로 제안하였고 시뮬레이션을 통해 Schultz와 Hollerman이 수행한 원숭이를 이용한 동물 실험 결과와 동일한 보상 예측 결과를 얻을 수 있었다. 향후 연구로서, 제안된 모델의 생물 실험을 통한 분석 및 수정, STDP를 이용한 자가조직화 구현, 자가조직화와 강화학습이 동시에 이루어지는 통합 모델 개발, 통합 모델의 SoC 구현을 수행하고자 한다.