基于深度强化学习的目标跟踪sim-to-real迁移策略

一种基于零和博弈的奖励函数用以加快目标跟踪算法收敛,做到策略自适应不同场景