콘텐츠 바로가기

시황분석

강화학습의 3가지 방법론 = 다이나믹 프로그래밍, 몬테카를로, 템포랄 디퍼런스(1)!!!



1.  승부사의 대학교 때부터의 원칙은. .무조건 대가를 찾아라.


    어설프게 유투브 수백개 보다가, 위대한 1인이 하나 딱 강의를 보고.. 깨달음이 밀려오는 상황...



2.   무조건 대가를 찾아라...


     민주당 = 좌파 공산당, 유시민, 조국은 그냥 하수들이에요...


     게네들이 할 수 있는 것은.. 주둥아리 밖에 없다는 사실...




3.   기본적으로.. 강화학습은, optimal control이라고 했죠.. 이 제어 공학적인 아이디어가 주류였어요..


      그래서. 여기서 기인한 벨만 방정식의 가치 함수에 기반한 접근법이 대세였다가...


     value based 와 policy based다 라고 할 때...


     순수하게.. 강화학습.. 환경과의 상호작용을 통한 시행착오를 통한 학습이라는 모토에 근접한 것은...


     후자에요...




4.    기본적으로 policy gradient 에 기반한 몬테카를로 방식이 trial and error의 오리지날 방식이다


       우리가 결국  임의의 시작점에서 도달하려는 목적지가 있죠 Goal이 있죠..


       강화 학습의 목표는.. 이 G에 도달하는 것이 아니다... 도달하는 것은 1차 목표다.


       우리가 여러 변수를 가진 방정식을 풀 때.. 해를 구하는 것으 목표죠...


       그러나.. 강화 학습의 목표는 해를 구하는 것이 아니다...



1)   해를 일단 구하고  ==> 이 여러 해중에서.. 최적의 해를 구하는 것이 목적이다 ㅋㅋㅋㅋ


2)    그러니까. 강화 학습을 시키는 목적은..


        국가 대표를 뽑는 것이 목적이 아니라.. EPL이나 스페인 리그에 보내는 것이 목적이다..


3)   그러니까. 강화 학습의 목적은 애시당초, 인간의 능력을 능가하는 에이전트를 만드는 것이 목표다.




5.    optimal control 관점이 아니라..


      원래의 강화 학습의 모토 = 환경과의 상호작용으로 경험을 통해서 = 시행착오를 통해서,


      최대의 numerical cummulative rewards를 maximize 하는 것을 목표라고 했을 때.. 


      여기에 충실해서 펼치는 방법론은???  ==>  몬테카를로 방식이라고 한다...



6.    몬테카를로란???  그냥 해보는 거에요.. 랜덤하게...


       A에서 (출발점)  ======> 목표 G까지. 랜덤하게.. 시행하는 거에요...


       그러면.. 일단.. 목표지점까지...도달하면 하나의 에피소드가 끝나게 되거든요...


       그 종결이 바로 해를 구하는 거에요... 목표까지 일단 도달해야 한다..


       중간에.. 함정에 빠져서 죽거나.. 용한테..디어서 죽으면 게임이 끝나는 거에요...


       일단 목적지까지 가야 한다...




7.     그 경우의 수는 당연히.. 상태 - states의 수에 따라 달라지겠지만...


        대략 상당한 경우의 수가 나온다... 경로의 수는 매우 많다..


        다시 말해서 해가 매우 많다...

   

         그러나, 다시 한번 말하지만. 우리의 목적은 해를 구하는 것이 아니라..


         최적의 해를 구하는 것이다...


         해를 구하는 것이.. 바로 의사 결정 과정인데요...


         의사 결정을 best 가장 잘하는 방법을 찾는 것이 =  강화 학습이자나요...


         다시 말해서. decision-making은 앞에 여러 선택지가 있는데...

   

          가장 좋은 결과를 가져올 선택을 하는 것이  ==> 가장 좋은 의사 결정이다...


          이것을 수학적으로 표현한 것이  =  누적 보상이 최대인 정책을 찾는 것이다라고 환원시킨 것이다.



8.      그렇다면 몬테카를로라는 것은 무엇인가???


        이 다양한 해를 모두 구해보는 거에요...ㅋㅋㅋㅋㅋㅋㅋㅋㅋ


        구해보는 거에요.. 시행을 늘려서.. 일단 최대로 구하는 거에요...


        그리고. .그 평균을 구한다...  여기서 보상의 총합의 평균 = 기대값이 value가 되는데요..


        value 구하는 것이 목적이 아니라...


        value없이 최적의 정책을 구할 수 있다가  ==> policy gradient기 때문에...




9.      다양한 경로를 구한다 ==> 일단 해를 구하고..


         여기서.. 최적의 해를 다시 구한다.. 어떻게???


         제한 조건을 만드는 것이다... 그러니까.. 경로를 가장 짧게 가져간다...


         로봇에게.. G까지 이동하게 만드는데... 걸어서, 최단 경로로 가게 만드는 거죠...


         로봇에게 G까지 가장 빠르게 이동하라고 했더니. 사족 로봇이...

   

         이상한 형태로 점프하면서 이동하는 경우가 있다고 합니다.. 걸어서 가는 것이 아니라...


         그래서.. 제한 조건을 두는 거에요....


          이 제한 조건을 만드는 것이  바로  ==> 보상 함수라고 하는 것이다....




10.    물론. 목적지에 도달하면 , 가장 큰 보상을 받지만. 중간 중간에.. 보상을 심어주어야.. 효율을 높인다..


         이것이.. 강화 학습에서..  시그마 (직접 보상 + 지연 보상) = 리턴 Gt이라고 표현을 합니다..


         그러니까.. 보상을 누적해서 최대로 하는 건데...


         이 직접 보상만 가지고는 전체 과정을 기술할 수 없다.. 그래서.. 지연 보상이라는 것이 등장한다..




11.    그러나. .이를 차치하고.. policy gradient의 관점에서...


         가치 함수 없이, 정책을 최적화하는 방법론으로 되돌아가서...


         몬테카를로 방식은 일단 여러 해를 구하지만. 그 중에서 최적의 해를 구하기 위해서...


         중간에 제한 조건을 = 보상 함수로 심어준다.


         일종의 페널티인데요.. 각 이동마다 cost function으로 예를 들면 -1의 보상을 부여하는 것이다.


         그렇게 되면.. 경로를 무한정 늘릴 수가 없다...


         가능한 빠른 경로를 선택하면서도, 중간의 추가 보상을 탐색할 수 있는 가능성을 타진하게 된다...




12.     이것을 머라고 하냐면... exploitation vs. exploration trade off라고 부른다....


          서로 역의 관계라는 말이죠... 기존 성공 방식이 정착되면.. 거기에 몰두를 하지만..


           그 외의 방법도 탐색을 해야 하지만.. cost이슈로 무한정 탐색을 할 수가 없다..




13.     그래서. 몬테카를로 방식은.. 목표지점의 최대 보상 + cost function을 고려한 탐색을 절충하면서


           최적의 정책을 추구하게 된다...


            결론은...


         (  state , action )  ===>  ( new state,  reward ) 의 함수 관계에서...


         각 스테이트에서 발생하는 reward를 모두 누적해서.. 전체 스텝으로 나누어 주면 된다...


         이 값을 최대화하면 된다...




14.      결국, 보상이라는 것은.. action의 결과물이다.....


            action1, action2..... action n이 만들어내는 보상값을 누적해서 퉁치는 것이다..


            그러나.. 문제는... 특정 action이 전체 결과에 얼마나 기여했는지는 알 수 없다...





15.     그래서.. 필요한 것이???   바로 neural network 가 된다...


           우리는 지금 딥러닝 이전 시대를 논하고 있는 것이다....


           (말이 길어져서... 나중에 이어서.....


            왜. 이 이야기를 하는가??? 금융 시장의 대응은 바로.. 강화 학습의 메커니즘이랑 동일하다는 것을 


            말하기 위함이다..




16.     지금 금융시장의 state가 바뀌고 있다....


           가장 중요한 요인은 금리 요인이 된다...



0/1000 byte

등록

목록 글쓰기

글쓰기