May 1 AI 日报
1️⃣ DeepSeek-Prover V2:数学AI突破
Zhihong Shao宣布发布DeepSeek-Prover V2,一个专注于数学问题解决的AI系统。它在miniF2F测试中达到89.5%的通过率,解决了49个PutnamBench问题和4个AIME 24 & 25问题,显著优于其前代版本和其他模型(如Grok、Copilot)。
该项目已开源,代码和文档可在GitHub上获取。这表明AI在自动定理证明和数学教育领域的潜力正在快速增长。
2️⃣ Rork:文本生成移动应用
Min Choi在X平台上介绍了Rork,一个通过文本描述快速生成移动应用的平台。用户只需输入应用创意,Rork即可在几分钟内生成跨平台应用,无需编码技能。帖子展示了10个示例,如“朋友版Tinder”(社交应用)、“AI作业解题器”(教育工具)和“健身风格分享”(健身应用)。
Rork的界面显示了一个简单的文本输入框,用户可描述应用需求,并选择如社交媒体、电子商务等模板。这可能显著降低应用开发的门槛,尤其对非技术用户。
🔗 Rork发布
3️⃣ CAMEL-AI整合Novita
CAMEL-AI宣布与Novita整合,作为新的大语言模型提供商。支持的模型包括Llama 3、Gemma、DeepSeek,以及专业模型如Airoboros和Midnight Rose。
CAMEL-AI提供了一个Python代码示例,展示如何使用Novita的Llama3-8b模型创建AI代理。这增强了CAMEL-AI的模型生态系统,为开发者提供了更多选择,适用于多代理系统和开源社区协作。
🔗 CAMEL-AI
4️⃣ Gradio简化MCP实现
Gradio推出了一种通过单行代码(demo.launch(mcp_server=True))将Gradio应用转变为大语言模型MCP服务器的方法。MCP(模型控制协议)允许大语言模型与外部应用交互,Gradio的简易实现降低了开发复杂性。
其提供的图表展示了Gradio支持人类用户界面、软件API和LLM的MCP,显示了其多功能性。这可能推动更多开发者探索AI与应用的集成。
5️⃣ Google DeepMind的SAS提示
Google DeepMind通过SAS提示(总结、分析、综合)利用大语言模型(如Gemini)帮助机器人自我改进。以乒乓球为例,机器人通过分析历史动作提出优化建议,类似人类教练。
他们还发布了乒乓球数据集和MuJoCo模拟环境。这表明AI在机器人学习和物理任务优化中的潜力。
🔗 SAS提示
6️⃣ Google AI的TRINDs数据集
Google AI推出了TRINDs,一个使用合成人物评估大语言模型在热带和传染病领域表现的数据集和基准测试管道。
这些疾病通常是大语言模型的分布外数据,TRINDs通过模拟专业场景(如医生或研究者)提升模型性能。这对全球健康领域的AI应用具有重要意义。
7️⃣ LlamaIndex多语言多模态RAG
LlamaIndex结合Qdrant和Langfuse,开发了一个支持多语言(英语、西班牙语、汉语等)和多模态(文本和图像)的检索增强生成(RAG)系统。
其架构包括嵌入、摄取和检索代理,使用vdr-2B-multi-v1模型生成嵌入,Qdrant存储向量,Langfuse提供可观测性。这为跨语言和跨模态的信息检索提供了高效解决方案。
🔗 RAG系统
8️⃣ Perplexity与FinChat合作
Braden Dennis宣布Perplexity与FinChat合作,通过FinChat的数据API为Perplexity用户提供实时金融数据。这在财报季尤为重要,数据可在几分钟内获取,显著提升投资者的决策效率。
两家公司致力于通过AI提供更快、更可靠的金融信息。
来自 GitHub 的热门 AI 项目
Daytona项目
Daytona 是一个为运行AI生成代码设计的安全且弹性的基础设施,提供零风险的沙箱环境。其主要特点包括:
快速创建沙箱(<90毫秒)。
隔离运行时,确保代码安全。
支持大规模并行化(即将推出)。
提供文件、Git、LSP和执行API的程序化控制。
支持OCI/Docker镜像,兼容性强。
提供Python和TypeScript SDK。
🔗 Github链接