本文由清华大学、上海人工智能实验室、上海交通大学等机构联合完成。第一作者为上海 AI Lab 博士生樊钰辰,研究方向是 Agent 以及强化学习;通讯作者为清华大学周伯文教授。 此前的 Agentic Search RL 任务大多采用真实搜索引擎,导致训练效率低,速度慢,稳定 ...