1️⃣ OpenAI:模型迭代、功能更新与内部动态
模型测试周期缩短:《Financial Times》报道称,OpenAI近期大幅压缩了新模型的安全测试周期,o3 模型最快将在下周发布。
GPT-4 退役与 GPT-4o 扩展:OpenAI 公告显示,GPT-4 将于 4 月 30 日下线,GPT-4o 图像生成功能已默认对所有用户开放,包括教育与企业账户。
记忆能力增强:ChatGPT 的记忆功能升级,现可参考所有历史对话内容,Pro 用户今日起可使用,Plus 用户即将覆盖(部分地区除外)。
GPT-4.5 研发播客发布:OpenAI 团队成员就 GPT-4.5 的开发细节录制播客,分享模型演进与技术路线。
Benchmarks 开源:OpenAI 公布 BrowseComp 基准测试,包含 1,266 道题目,评估 AI 在复杂信息检索中的表现。
开发工具成果:Adam Silverman 展示 OpenAI Agents SDK 所构建的十大 demo,涵盖内容创作与自动化等应用。
治理争议曝光:内部邮件显示 Elon Musk 曾试图将 OpenAI 并入 Tesla,相关争议已引发法律反击。
🔗 模型发布
🔗 产品结构调整
🔗 记忆功能
🔗 GPT-4.5 播客
🔗 BrowseComp
🔗 SDK 项目
🔗 内部争议
2️⃣ Google:硬件发布、代理工具与多模态展示
Gemini OCR 演示:Jeff Dean 展示 Gemini 2.5 Pro 自动将图像文档转换为结构化 JSON,展现其多模态处理能力。
ADK 工具发布:新推出的 Agent Development Kit(ADK)支持多代理协同及工具整合,采用代码优先策略,旨在优化代理通信机制。
学术认可:Google AI 宣布 Balu Adsumilli 获评 2025 年度 IEEE Fellow,表彰其在视频处理领域的贡献。
3️⃣ Gemini 产品整合与渠道探索
Perplexity 集成:Gemini 2.5 Pro 已开放至 Perplexity 平台 Pro 用户,并计划支持 Grok 3,提升搜索与分析能力。
跨平台投票调研:Aravind Srinivas 发起投票,征询用户是否希望将 AskPerplexity 接入 WhatsApp,探索 AI 工具的通讯平台整合路径。
🔗 Gemini on Perplexity
🔗 渠道融合调研
4️⃣ LLM 理论局限性研究
Yann LeCun 分享观点称,大型语言模型存在“反转诅咒”问题,即难以学习可逆事实之间的逻辑关联,为模型推理能力的进一步改进提供研究方向。
🔗 反转诅咒
来自 GitHub 的热门 AI 项目
KrillinAI
KrillinAI 是一个开源的 AI 视频翻译与配音工具,支持多语种字幕识别、段落级翻译、语音克隆、视频重构等功能,可一键实现从视频导入到成品导出。它适用于 YouTube、TikTok、小红书等平台的视频本地化,支持桌面版和 Web UI 部署,适合创作者、教育内容制作、跨语种传播等场景使用。
firecrawl
Firecrawl 是一个面向开发者的网页数据抓取与结构化提取平台,支持将任意网站内容转换为适用于大语言模型(LLM)的 Markdown 或结构化 JSON 数据。它提供强大的 API、SDK 和动态交互(点击、滚动等)能力,支持大规模批量抓取、PDF/Docx 解析、自定义 schema 提取等,广泛用于 AI 应用中的知识获取、RAG 数据准备和网页数据分析等任务。