콘텐츠 바로가기

시황분석

강화 학습 = 결정론적 밸류 함수 + 확률론적 정책 함수의 결합 (1)



1.   원래.. 강화 학습의 백그라운드가... optimal control이다. 제어 공학에서 나온 것이다...



2.   학습이라는 것은 다시 말해서.. 어떻게 컨트롤하느냐의 문제다...


     그러니까.. 학습의 연구는 동물 행동 연구에서 나온 거죠...


     동물의 행동을 연구한다는 말은 무엇인가???   관심 사항은 무엇일까???


     어떤 동물이.. 특정 행동을 반복하더라.... 그렇다.. 반복적으로 똑같은 행동을 하더라...




3.    왜.. 그러할까??? ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ


      그 원인을 볼 것이다.. 기본적으로.. 자극이 있고  ==> 반응이 있는 것이다..


      이러한 깨달음은 파블로프 개의 실험에서 확대되고..  ==> 손다이크라고 하는데요..ㅋㅋㅋㅋㅋㅋ


      나쁜 사람이에요.. 원래는..ㅋㅋㅋㅋㅋㅋㅋ 


      이 파블로프를 인간의 교육에 접목시킨 사람이에요..ㅋㅋㅋㅋㅋㅋㅋㅋㅋ


      개를 똑같이 반복 훈련할 수 있자나요 ==> 인간 교육도 그렇게 학습시킬 수 있다는 거에요...




4.    여기서. .공돌이의 마인드를 잠시 살피면...


       제어의 문제죠. 시스템 제어죠.. 


       공돌이의 눈에는... 동물하고... 로봇이 같아요..ㅋㅋㅋㅋㅋㅋㅋㅋㅋ


       똑같은 존재야..ㅋㅋㅋㅋㅋㅋㅋ


       그러면.. 원래. 로봇같은... 기계 시스템의 제어 문제를 고민하다가.....


        이 컨트롤의 문제가.. 어차피. 인간도 기계니까요..ㅋㅋㅋㅋㅋㅋㅋㅋ


        이 컨트롤의 문제를 학습의 문제에 접목할 수 있구나라고 뒤 늦게 알게 된 것..ㅋㅋㅋㅋㅋㅋㅋㅋ




5.     그래서. 제어 공학자는요.. RL의 문제를 거의 optimal control의 문제로 보고 있다...


         그러나. .RL의 문제 상황은... 제어 공학 관점과 다른 부분이 있다...


          제어 변수가 무수히 많을 뿐만 아니라.. 결정되어 있지도 않다..


          그래서... RL의 문제는. 환경 변수는 통제가 가능하다는 건데요...


           에이전트의 액션 문제는???  =======>   out of control의 영역이 되는 것이다...




6.       그래서.. RL의 핵심은... 밸률 함수 쪽보다는.. 정책 함수 쪽에 잇는 것이다....


           이 부분을 1950년대.. 벨만이 다 알고 있었어요...


           그런데.. 기술적으로.. 계산적으로.. 조건적으로...... 확률적인 부분에 서 할 수 있는 것은 없어...


           제어 조건으로 밸류 함수는 다이나믹 프로그램으로 구할 수는 있다..


           그리고. 행동 요인을 확률적으로..MDP로 결합시켜서. 기술할 수는 있다..ㅋㅋㅋㅋㅋㅋ




7.       그 첫번째가..  벨만 기대 방정식..  ==>   밸류 함수 구하는 것...


           두번째. 이론적으로는..액션을 확률과 결합시켜서..MDP로 기술 할 수는 있어요...


           그렇죠.. 그러나.. 문제는 풀 수가 없어..ㅋㅋㅋㅋㅋㅋㅋㅋ


           아무튼.. 기술 할 수는 있다. .그것이.. 벨만 최적 방정식이다...




8.         승부사가 생각하는 결정적인 부분은...


            바로. 정책 함수 부분이다....  벨만이 최적 정책을 기술할 수 는 있었으나...


            풀 수는 없었던.. 저.. 정책 함수 부분을....


             누가 풀게 해 주었나???  그것이.. 바로 뉴럴 네트워크가 해결해 주었다...




9.        그래서. 정책과 가치가 통합이 되어서... 최적의 정책 문제가 해결된 것이다....



            그 결과가  ===>  로봇이다..ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ




10.     이 문제를 꺼내는 이유는????     트레이딩 문제가 똑같습니다...


           시작과 끝은 결정되어 잇으나.. 그 경로는 그렇하지 않다...


           바로... 트레이딩은.. 결정론과 확률론이 결합되는 부분이다.....


           이 부분을 앞으로 이야기하겠다...


0/1000 byte

등록

목록 글쓰기

글쓰기