June 12 AI 日报
1️⃣ Meta 发布 V-JEPA 2 模型,助力机器人零样本规划
Meta AI 推出了 V-JEPA 2,这是一个拥有 1.2 亿参数的模型,通过视频数据训练,专注于视觉理解和预测 (Meta AI V-JEPA 2)。它支持机器人在未知环境中进行零样本规划,无需预先训练即可执行任务。这种能力对于机器人需要在动态或新环境中操作的场景尤为重要,例如制造业或服务行业。
此外,Meta AI 发布了三个新基准,用于评估 AI 模型从视频中推理物理世界的能力。这些基准为研究人员提供了标准化工具,推动了机器人和视觉 AI 领域的发展,体现了 Meta AI 对开源研究社区的贡献。
🔗 推文:https://x.com/AIatMeta/status/1932808881627148450
2️⃣ ManusAI 推出 Manus Chat Mode,免费无限聊天
ManusAI 推出了 Manus Chat Mode,提供免费且无限的 AI 聊天功能,用户可以快速提问并获得即时回答 (ManusAI Chat Mode)。该模式支持一键升级到 Agent Mode,以处理更复杂的任务,例如生成详细的报告或执行多步骤工作流程。
通过展示视频,该功能在创建季度销售分析报告中的应用得到突出显示,表明其在简化工作流程和提升生产效率方面的潜力。视频中展示了如何通过与 Manus 的对话生成包含图表和关键指标的报告,适用于商业分析等场景。
🔗 推文:https://x.com/ManusAI_HQ/status/1932862389717995710
3️⃣ OpenAI 允许使用 DPO 微调 GPT-4.1 系列模型
OpenAI 现允许用户使用直接偏好优化(DPO)微调 GPT-4.1 系列模型,包括 GPT-4.1、GPT-4.1-mini 和 GPT-4.1-nano (OpenAI DPO Fine-Tuning)。DPO 通过比较响应来定制模型,特别适合需要特定语气或风格的主观任务,例如品牌语音调整或创意写作。
这种方法使非技术用户也能轻松调整模型以满足个性化需求,无需依赖固定训练数据。DPO 的引入降低了定制 AI 的门槛,使其更适合小型企业或个人开发者使用。
🔗 推文:https://x.com/OpenAIDevs/status/1932858051876565475
4️⃣ Nvidia 开源 Gr00t N 1.5 3B 模型,助力人形机器人推理
Nvidia 发布了 Gr00t N 1.5 3B,这是一个为机器人推理设计的开源基础模型,采用商业友好许可证发布 (Nvidia Gr00t N 1.5)。还提供了与 LeRobotHF SO101 配合使用的微调教程,方便开发者根据特定需求调整模型。
此举旨在通过提供易于访问的工具和模型,加速机器人领域的开发和创新。社区反应热烈,认为这一开源举措将推动人形机器人技术的广泛实验和进步。
🔗 推文:https://x.com/reach_vb/status/1932915717541683495
5️⃣ Higgsfield AI 整合 Flux.1 Kontext,提供全功能内容创作管道
Higgsfield AI 推出了 Flux.1 Kontext,将照片编辑、电影运动、视觉特效(VFX)和头像语音整合到一个管道中 (Higgsfield Flux.1 Kontext)。该解决方案以每月 9 美元的价格提供,简化了内容创作流程,适合内容创作者和营销团队。
用户可以在不同镜头间保持头像一致性,编辑图像、应用电影化摄像机运动、添加特效,甚至让头像根据脚本说话,所有功能集中在一个平台上。这种一体化设计消除了对多种编辑工具的依赖,提升了创作效率。
🔗 推文:https://x.com/higgsfield_ai/status/1932895609738178704
6️⃣ Sakana AI 推出 Text-to-LoRA (T2L),基于文本描述生成任务特定 LLM 适配器
Sakana AI 在 ICML2025 上展示了 Text-to-LoRA(T2L),这是一个超网络,可根据任务的文本描述生成特定任务的 LoRA 适配器 (Sakana AI Text-to-LoRA)。T2L 使模型能够快速适应新任务,无需繁琐的微调过程,极大地提高了效率。
这一创新降低了非技术用户定制大型语言模型的门槛,只需自然语言描述即可生成高效的适配器。T2L 还能泛化到未见过的任务,为广泛的应用场景提供了灵活性。
🔗 推文:https://x.com/SakanaAILabs/status/1932972420522230214
7️⃣ Mistral AI 宣布 Mistral Compute,提供灵活的 AI 基础设施选项
Mistral AI 宣布了 Mistral Compute,这是一个在欧洲的 AI 基础设施项目,提供从裸金属到 AI Studio 的多种计算选项 (Mistral AI Compute)。它旨在帮助全球国家、企业和研究实验室保持 AI 创新的领先地位,减少对少数大公司的依赖。
该项目提供从原始计算能力到用户友好工具的多样化服务,确保用户能够根据自身需求灵活构建 AI 解决方案。其分层设计满足了从高级研究人员到初学者的不同需求。
🔗 推文:https://x.com/MistralAI/status/1932798814840332307
来自 GitHub 的热门 AI 项目
awesome-llm-apps
awesome-llm-apps 是一个精选的大型语言模型(LLM)应用集合,涵盖了使用 RAG、AI Agents、Multi-agent Teams 和 Voice Agents 等技术构建的创意项目 (GitHub awesome-llm-apps)。它支持 OpenAI、Anthropic、Google 以及 DeepSeek、Qwen 等开源模型的应用,这些模型可本地运行。
🔗 GitHub:https://github.com/Shubhamsaboo/awesome-llm-apps