【智源研究院实习】具身智能应用及世界模型能力评估
Robotics泛化还需时日,
那如何最大程度Leverage已有设备,
让Lifelong Agent 触达智能与泛化?
现实世界里最基础的交互单元是什么?
似乎不是长文本,也不是抽象知识,
是集鲁棒性与易用性于一体的:
Tangible Control Interfaces!
于是我们做了 SWITCH,
一个专门围绕“开关”构建的 benchmark。
检验模型持续状态建模、因果结构理解,以及情境化策略调整能力~
GitHub:https://github.com/BAAI-Agents/SWITCH
Leadedboard@HF:
https://huggingface.co/spaces/BAAI-Agents/SWITCH-Basic-Leaderboard
Paper:
https://arxiv.org/abs/2511.17649
Dataset:
https://huggingface.co/datasets/BAAI-Agents/SWITCH-Basic-v1-open
初版benchmark release之后收到community的大量好评, 我们计划进一步扩增benchmark的影响力。
在过去的探索中,我们已经有了清楚的定义和认知,
接下来的研究目标很明确,但也欢迎随时讨论,辩论,甚至Argue!
希望对机器人应用场景及世界模型能力评估感兴趣的同学来实习,一起定义具身智能的未来!
实习要求:
1/ 对具身智能应用和世界模型能力评估有热情
2/ 动手能力强,能快速改善已有pipeline
3/ 数据分析能力强, 犀利诊断模型问题
4/ 大胆假设,严谨求证
5/ 熟悉多模态评估或Robotics的评估
我希望你至少可以花三个月的时间专注在这个工作, 和我们一起打磨出最佳“验金石”
我们有数据标注团队支持收集数据, 你可以专注洞察数据和模型产生的反应,
也有机会直接加入世界模型相关的工作。
欢迎投递简历: zwyu@baai.ac.cn
或者也可以ICLR 线下讨论!巴西见~
up-up-up
快来一起当Benchmark Wizard~
智源embodied AI团队都在鼎好, 离学校超级近, 通勤很方便哦!
SherryYu (Arlene) 在 ta 的帖子中提到:
Robotics泛化还需时日,
那如何最大程度Leverage已有设备,
让Lifelong Agent 触达智能与泛化?
……