首页版面好友提醒登录
返回实习版

【智源研究院实习】具身智能应用及世界模型能力评估

SherryYuArlene 2026-03-06 22:11:43
[楼主]1楼

Robotics泛化还需时日, 

那如何最大程度Leverage已有设备,

让Lifelong Agent 触达智能与泛化? 

现实世界里最基础的交互单元是什么?

似乎不是长文本,也不是抽象知识,

是集鲁棒性与易用性于一体的:

Tangible Control Interfaces!

于是我们做了 SWITCH,

一个专门围绕“开关”构建的 benchmark。

检验​模型持续状态建模、因果结构理解,以及情境化策略调整能力~

GitHub:https://github.com/BAAI-Agents/SWITCH


Leadedboard@HF:

https://huggingface.co/spaces/BAAI-Agents/SWITCH-Basic-Leaderboard 

Paper:

https://arxiv.org/abs/2511.17649

​Dataset:

https://huggingface.co/datasets/BAAI-Agents/SWITCH-Basic-v1-open


初版benchmark release之后收到community的大量好评, 我们计划进一步扩增benchmark的影响力。

在过去的探索中,我们已经有了清楚的定义和认知,

接下来的研究目标很明确,但也欢迎随时讨论,辩论,甚至Argue!

希望对机器人应用场景及世界模型能力评估感兴趣的同学来实习,一起定义具身智能的未来!


实习要求:

1/ 对具身智能应用和世界模型能力评估有热情

2/ 动手能力强,能快速改善已有pipeline

3/ 数据分析能力强, 犀利诊断模型问题

4/ 大胆假设,严谨求证

5/ 熟悉多模态评估或Robotics的评估


我希望你至少可以花三个月的时间专注在这个工作, 和我们一起打磨出最佳“验金石”

我们有数据标注团队支持收集数据, 你可以专注洞察数据和模型产生的反应,

也有机会直接加入世界模型相关的工作。


欢迎投递简历: zwyu@baai.ac.cn

或者也可以ICLR 线下讨论!巴西见~

SherryYuArlene 2026-03-06 22:39:40
[楼主]2楼

up-up-up

快来一起当Benchmark Wizard~

智源embodied AI团队都在鼎好, 离学校超级近, 通勤很方便哦!

SherryYu (Arlene) 在 ta 的帖子中提到:

Robotics泛化还需时日, 

那如何最大程度Leverage已有设备,

让Lifelong Agent 触达智能与泛化? 

……