7月10日 AI 日报: Grok 4 正式推出、Google MedGemma医疗模型发布、OpenAI基础设施团队扩张
1️⃣ xAI正式发布Grok 4模型
Elon Musk在7月9日的直播中宣布Grok 4推出,称其为他最雄心勃勃的AI模型,并夸耀“我们已经用尽了测试问题来提问”,强调现实是最终的推理。该模型在xAI的Colossus超级计算机上训练,具备高级推理、实时速度、多模态能力(如文本、图像和视频支持),旨在与OpenAI的GPT-5和Anthropic的Claude 4 Opus竞争。
Grok 4包括专为编码设计的变体Grok 4 Code,用于编写、调试代码,还支持自然语音对话、实时网络访问和幽默解读。尽管面临早期版本种族主义回应和内容 moderation争议,xAI定位其为注重个性与幽默的“非觉醒”AI,突出其在开发者社区的吸引力。
🔗 推文:https://x.com/testingcatalog/status/1943154796497637627
2️⃣ OpenAI加强基础设施团队建设
OpenAI总裁兼联合创始人Greg Brockman表示,公司正在扩展物理基础设施团队,并欢迎多名优秀新成员加入,其中包括从Apple挖来的数据中心工程总监。
该举措旨在支持OpenAI在AI领域的快速发展,确保计算资源的高效管理和扩展。这一团队扩张反映了OpenAI对基础设施的重视,随着AI模型的复杂性增加,强大的后端支持变得至关重要。新成员的加入有望加速OpenAI在数据中心建设和优化方面的进展。
🔗 推文:https://x.com/gdb/status/1943043253009551608
3️⃣ Gemini Gems支持Canvas功能
Google Gemini App团队宣布,Gems现在与Canvas集成,用户可以直接从自定义和预制Gems中使用Canvas来创建专家并构建文档和应用。该功能响应了用户的反馈,提升了Gemini的实用性和灵活性。
通过这一更新,用户能够更高效地处理复杂任务,如编写文档或开发小型应用。Canvas的加入使Gems成为更强大的工具,适用于创意和生产力场景。
🔗 推文:https://x.com/GeminiApp/status/1943037539146961084
4️⃣ Gemini Live扩展到Samsung应用
Google Gemini App透露,Gemini Live已开始支持Google应用如Calendar、Tasks、Maps和Keep,并即将从Galaxy Z Fold7和Z Flip7开始,直接连接Samsung应用如Samsung Calendar、Reminder和Notes。
用户可以通过语音或相机轻松添加事件,例如扫描海报并询问“能否将这些事件添加到我的日历中”,Gemini会自动处理。这一扩展增强了Gemini在移动设备上的集成性,提高了用户体验的便利性。未来,该功能将进一步优化跨平台协作,推动AI在日常任务中的应用。
🔗 推文:https://x.com/GeminiApp/status/1942977410875433237
5️⃣ Google发布MedGemma医疗AI模型
Google DeepMind和Google Research首席科学家Jeff Dean宣布推出MedGemma 27B Multimodal模型,该模型专为健康应用的研究与开发设计,能够处理复杂的多模态和纵向电子健康记录(EHR)解释。
MedGemma支持医疗文本和各种模态的医疗图像分析,包括放射学、皮肤病学、病理学和眼科等领域,帮助研究人员更好地理解患者数据。此外,还介绍了MedSigLIP,这是一个轻量级的图像和文本编码器,用于分类、搜索及相关任务。该模型的开源权重允许开发者在医疗AI领域进行创新,提升诊断和治疗的准确性。
🔗 推文:https://x.com/JeffDean/status/1943071419698680212
来自 GitHub 的热门 AI 项目
MoGe
MoGe是一个由Microsoft开发的AI项目,专注于单目几何估计,通过最优训练监督实现对开放域图像的准确几何分析,其技术特点包括多模态处理和CVPR'25口头报告认可,使用Python语言实现,支持深度学习框架。
该项目适用于计算机视觉应用场景,如3D重建、增强现实(AR)和图像搜索等领域,帮助开发者处理复杂图像数据。社区反响热烈,今天新增29颗星,总星数达1280,显示出其在AI研究领域的快速受欢迎度。