프로그래밍 농장

ML-Agents 학습 알고리즘 이론 [ Unity ] 본문

Unity

ML-Agents 학습 알고리즘 이론 [ Unity ]

Tennessee201 2022. 2. 25.
728x90

Unity ML-Agents 2.0에서 제공하는 알고리즘에 대한 정리


- Reinforcement Learning ( 강화학습 )

1. Proximal Policy Optimization (PPO)   :  일반적으로 많이쓰이면 좋은학습성능을 보임

2. Soft Actor Critic (SAC)   :  일반적으로 많이쓰이면 좋은학습성능을 보임

3. Curiosity based Exploration (ICM,RND)  : 호기심 기반 탐험 알고리즘 / 탐험성능향상 (보상을 얻기까지 복잡한 탐험수행을 위한 어려운 문제들을 위한 특수한 알고리즘 )

4. Multi-Agent POsthumous Credit Assignment(MA-POCA)  : 하나의 환경에서 다수의 에이전트들이 학습할떄 사용 / 일부를 희생하더라도 공동의 목표를 학습하도록 할떄 사용 ( 협력 or 경쟁 )

ex. 다수의 물류로봇, 다수의 자율주행제어, 드론 군집 제어 등. . 


- Imitation Learning ( 모방학습 ) 

: 사람의 플레이 데이터를 기반으로 에이전트가 사람의 플레이를 모방하도록하는 학습기법

1. Behavioral Cloning : 단순히 사람의 행동을 모방 

2. Generative Adversarial Imitation Learning (GAIL) 


- ML-Agents에서 제공하는 학습 방식 

 

1. Solving Complex Tasks Using Curriculum Learning 

   : 처음부터 가장 어려운 난이도의 문제를 학습하기 어렵기 떄문에 순차적으로 단계를 높여가면서 학습을 수행

   ex) 소코반에서 맵의 크기, 박스의 수 등을 늘려가면서 순차적으로 난이도를 높이며 학습을 진행 

Solving Complex Tasks Using Curriculum Learning 


2. Training Robust Agents using Environment Parameter Randomization 

   : 환경내의 다양한 파라미터를 변경해가면서 다양한 환경에서의 강인한 에이전트를 학습하는 방식 

   ex) 3D-Ball 예제의 경우 학습하는 공의 크기를 다양하게 하여 학습을 시킨다. / 드론제어시 바람의 세기를 다양화 . .


3. Training in Competitive Multi-Agent Environments with Self-Play

   : =경쟁적인 에이전트 학습 / 각 에이전트가 서로 경쟁을하여 서로 학습을 진행한다. ( 공튀기기 )


4. Training in Cooperative Multi-Agent Environments 

  : 여러 에이전트들이 서로 협력하여 공통의 목표를 수행하도록 학습을 진행한다. 

728x90