三十六的人工智能周刊,本系列每周末更新,记录这周我看到的有价值的信息,主要人工智能 AI 领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。( hello@sanshiliu.com )
本周新闻
OpenAI 发新模型 o3 和 o4-mini 首次实现“图像思维”
4 月 17 日,OpenAI 进行了技术直播,发布了其最强、最智能模型 o4-mini 和满血版 o3。o4-mini 和 o3 是两款多模态模型,能同时处理文本、图像和音频,并且能作为 Agent 智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思考图像)。根据 OpenAI 公布的测试数据显示,o4-mini 在 AIME 2024 和 2025 中,分别达到了 93.4% 和 92.7%,比满血版 o3 还强,成为目前准确率最高的模型;在 Codeforces 测试中达到了 2700 分,成为全球前 200 名最强程序员。
马斯克旗下 xAI 宣布上线 Grok Studio
当地时间 4 月 15 日,马斯克旗下 xAI 正式发布 Grok Studio 的首个版本,新增代码执行功能与 Google 云端硬盘支持。Grok 现已支持生成文档、代码、报告及网页游戏。Grok Studio 会将用户的内容在独立窗口打开,让用户和 Grok 可以共同协作处理内容。
阿里开源通义万相首尾帧生视频 14B 模型
阿里开源通义万相首尾帧生视频 14B 模型,这是业界首个开源的百亿级参数规模首尾帧生视频模型。可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的 720p 高清视频。满足延时摄影、变身等视频生成需求。
谷歌推出 Veo 2,生成超逼真视频
4 月 16 日,谷歌 (GOOG.O)DeepMind 终于将大家期待已久的 Veo2 整合到 GeminiApp 应用中,全面开放使用。Veo2 可以最高生成 8 秒 720P 电影级视频,在运镜、文本语义还原、物理模拟、动作一致性等方面非常优秀,同时支持图片转视频功能。根据谷歌公布的测试数据显示,Veo2在用户偏好和提示还原方面已经超过了 Sora、可灵 1.5、MetaMovieGen 和 Minimax。此外,从今天开始开发人员可以在 GoogleAIStudio 中通过 API 使用 Veo2。
月之暗面 Kimi 发布新模型 Kimina-Prover Preview
《月之暗面 Kimi 与 Numina 团队合作开发的数学定理证明模型 Kimina-Prover 推出预览版。据介绍,该模型在数学定理证明基准测试 MiniF2F上取得了 80.7% 的成绩,超过此前最佳水平 (SOTA) 模型 10.6%,创下新高。
美国 AI 购物应用被发现实际由人类手动操作
近日,据美国司法部发布的新闻稿称,承诺提供快捷结账体验的 AI 应用程序 Nate 的创始人兼前首席执行官阿尔伯特·萨尼格被指控欺诈投资者。Nate 成立于 2018 年,从投资者那里筹集了超过 5000 万美元。Nate 声称,得益于 AI,其应用程序用户只需点击一下即可在任何电商网站上购物。然而,美国司法部纽约南区法院指控,Nate 实际上严重依赖菲律宾呼叫中心的数百名人工承包商手动完成这些购买。
OpenAI 招聘,寻求计算机人才
OpenAI 首席执行官山姆・奥特曼(Sam Altman)发文称,若对基础设施和大规模计算系统感兴趣,当前 OpenAI 正在开展的项目规模惊人,面临诸多艰巨且有趣的挑战,诚邀相关人才加入。他特别指出,若有优化系统性能经验,或具备编译器设计、编程语言设计背景,OpenAI 期待与其交流合作。
谷歌开源 Agent SDK,支持 MCP、A2A
谷歌在 GoogleCloudNext25 大会上,开源了首个 Agent 开发套件— ADK。这也是 OpenAI 之后第二家大厂发布的标准化智能体 SDK。ADK 能帮助开发人员极大简化开发超复杂流程的智能体,从大模型选择、自动化流程编排、测试到应用部署可一站式完成,并且支持双向音频、视频、MCP 和最新的 A2A 协议。
昆仑万维开源 7B 和 32B 最强数学代码推理模型
继 2025 年 2 月发布首款中文逻辑推理大模型 Skywork-o1 之后,昆仑万维天工团队在此基础上持续迭代优化,4 月 13 日,推出全新升级的 Skywork-OR1(Open Reasoner 1) 系列模型。该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时,Skywork-OR1 全面开放、免费使用。
发表回复