AI Agent 计算科学题目征集 | 单题 5k–10k 元
[复制链接] 分享:【某大厂 AI Agent 计算科学 Benchmark 题目开发 | 单题 5k–10k 元】
项目简介
我们正在构建一套面向 AI Agent 的计算科学 Benchmark,评估模型在真实科研计算任务中的长期迭代、调试与优化能力。当前核心需求是各计算学科有深度积累的高年级博士生/博后,把自己熟悉的子方向里几个公认算例整理为可复现、可评分的 benchmark 题目。
理想合作模式:一个细分方向对应一位深耕的同学,在某个具体子问题上能拿出几个被同行认可的标准算例 + 最好算法即可。
方向举例
各向同性湍流谱、某体系的自由能计算(FEP/TI)、某类反应的 CCSD(T) 基准、某类 PDE 的谱方法实现、特定稀疏矩阵的求解器调优、AMR 在某具体问题上的应用、Ising 模型临界指数、某具体 pipeline(如 variant calling、单细胞聚类)在公开数据集上的复现、其他计算学科同样欢迎来聊。
工作内容
把这几个公认算例整合为可评分、可复现的题目,包括:任务描述(含问题背景与最佳算法);起始代码、参考输入/参数、参考解;自动化评分脚本(精度指标、性能指标或两者结合);自测确保题目可跑通且对当前主流模型有区分度(不能全是接近满分)。环境层面尽量做到可复现(Docker 化最佳),如果遇到复杂依赖等问题,这边可以提供支持,一起想办法,尽量依赖开源生态。
要求
对所投子方向有第一手了解,清楚里面哪几个算例是公认的、目前最好的算法在什么水平;有实际工程能力;3 天内可开始,首批题目 10 天内交付;近期能稳定投入,有完整交付意识。
报酬
单题 5000–10000 元,视复杂度与交付质量而定。项目有论文产出计划,有实质贡献的同学可参与署名。
联系方式
📮 thinkinglogit@163.com
备注格式:年级/单位 + 子方向(越具体越好)+ 姓名 + 熟悉的算例/软件栈 + 可投入时间 + 联系方式 建议附上 GitHub、发表论文、参与过的开源项目或大型计算项目经历,方便快速匹配方向。
