- Today
- Total
프로그래밍 농장
ML-Agents 학습 알고리즘 이론 [ Unity ] 본문
Unity ML-Agents 2.0에서 제공하는 알고리즘에 대한 정리
- Reinforcement Learning ( 강화학습 )
1. Proximal Policy Optimization (PPO) : 일반적으로 많이쓰이면 좋은학습성능을 보임
2. Soft Actor Critic (SAC) : 일반적으로 많이쓰이면 좋은학습성능을 보임
3. Curiosity based Exploration (ICM,RND) : 호기심 기반 탐험 알고리즘 / 탐험성능향상 (보상을 얻기까지 복잡한 탐험수행을 위한 어려운 문제들을 위한 특수한 알고리즘 )
4. Multi-Agent POsthumous Credit Assignment(MA-POCA) : 하나의 환경에서 다수의 에이전트들이 학습할떄 사용 / 일부를 희생하더라도 공동의 목표를 학습하도록 할떄 사용 ( 협력 or 경쟁 )
ex. 다수의 물류로봇, 다수의 자율주행제어, 드론 군집 제어 등. .
- Imitation Learning ( 모방학습 )
: 사람의 플레이 데이터를 기반으로 에이전트가 사람의 플레이를 모방하도록하는 학습기법
1. Behavioral Cloning : 단순히 사람의 행동을 모방
2. Generative Adversarial Imitation Learning (GAIL)
- ML-Agents에서 제공하는 학습 방식
1. Solving Complex Tasks Using Curriculum Learning
: 처음부터 가장 어려운 난이도의 문제를 학습하기 어렵기 떄문에 순차적으로 단계를 높여가면서 학습을 수행
ex) 소코반에서 맵의 크기, 박스의 수 등을 늘려가면서 순차적으로 난이도를 높이며 학습을 진행
2. Training Robust Agents using Environment Parameter Randomization
: 환경내의 다양한 파라미터를 변경해가면서 다양한 환경에서의 강인한 에이전트를 학습하는 방식
ex) 3D-Ball 예제의 경우 학습하는 공의 크기를 다양하게 하여 학습을 시킨다. / 드론제어시 바람의 세기를 다양화 . .
3. Training in Competitive Multi-Agent Environments with Self-Play
: =경쟁적인 에이전트 학습 / 각 에이전트가 서로 경쟁을하여 서로 학습을 진행한다. ( 공튀기기 )
4. Training in Cooperative Multi-Agent Environments
: 여러 에이전트들이 서로 협력하여 공통의 목표를 수행하도록 학습을 진행한다.
'Unity' 카테고리의 다른 글
Metamask 연동하기 (Chainsafe SDK) [ Unity ] (0) | 2022.03.19 |
---|---|
Unity ML-Agents 2.0 Parameter description [ Unity ] (0) | 2022.02.28 |
Unity ML-Agents 2.0 머신러닝 - 1 [ Unity ] (0) | 2022.02.23 |
Unity ML-Agents 2.0 환경설정 및 설치 - 2 [ Unity ] (0) | 2022.02.21 |
Unity ML-Agents 2.0 환경설정 및 설치 - 1 [ Unity ] (0) | 2022.02.17 |