多智能体系统场景下的分层内在奖励机制