人工智能软件开发实习 - 北大创业团队招募
[复制链接] 浏览该主题帖关于我们
我是 LJ 联合创始人兼CTO,你将主要和我一起合作。我在美国长大,曾在大厂和创业公司工作,后来来到光华读MBA。在Flexport时,我领导开发了处理约3亿美元GMV的物流基础设施,实现了每天处理10万+事件的数据管道和事件架构。在 Amazon 时,我在 audiobook 团队工作,使用AWS服务处理了1亿+ DAU 客户记录。我拥有卡内基梅隆大学的工程学士学位,现在在北京大学光华管理学院的MBA学位。
我们正在寻找约2名对AI应用感兴趣的软件工程师——主要工作是将非结构化数据转化为embeddings,用于vector databases,以实现RAG + LLMs。这是一个带薪实习机会。请将你的简历和相关信息发送至我的邮件 llj0824@stu.pku.stu.edu。以下是你会参与的项目信息。
1) 【中文】我们的客户是一家帮助中小企业改善运营的咨询公司,我们正在构建一个AI应用,为他们的顾问生成定制化建议,以服务各个企业客户。
技术栈:
- 后端: FastAPI + LLM集成 (Deepseek [生产环境], OpenAI [本地])
- 前端: React (Web) + IOS (Swift - 即将上线)
- 数据库: MongoDB用于用户交互, ChromaDB (vectordb)用于文档embeddings
- RAG: 不会用 framework,自己做。说实话,我觉得大多数 orchestration layers (langchain, haystack, llamaindex) 都会过时。
关键技术挑战:
- 协调复杂的RAG工作流,包括LLM路由、问题和行业分类、报告生成(基本上是为中国中小企业定制的DeepResearch)
- 尝试不同的chunking策略,以改进文档embeddings的检索,为LLMs提供更好的上下文。
2) 【英文】我们的客户是一家生物科技投资公司,我们正在与他们及其内部科学家合作开发一个科学研究 Agent。
一个自主 agent,旨在分析研究趋势,并为临床前试验公司的投资决策提供信息。
技术栈:
- 后端: FastAPI + LLM集成
- 前端: Next.js
- 数据库: MongoDB 6+用于用户交互, ChromaDB (vectordb)用于文档embeddings, Knowledge Graph (Neo4j)用于生物关系
3) 【中文/英语】Autonomous Marketing Agent
我们自己正在构建一个软件,用于监控特定领域的KOLs,该应用通过直接将各种软件工具应用于tweet内容来展示其价值,从而识别展示这些工具的机会。
技术栈:
- 后端: FastAPI + LLM集成 (Deepseek [生产环境], OpenAI [本地])
- 前端: React (Web) + IOS (Swift - 即将上线)
- 数据库: MongoDB用于用户交互, ChromaDB (vectordb)用于文档embeddings
- RAG实现: 自定义retrieval。说实话,我觉得大多数orchestration layers (langchain, haystack, llamaindex) 一年内都会过时。
