三十六的人工智能周刊(第 5 期):中美顶级模型性能差距缩至 0.3%

三十六的人工智能周刊,本系列每周末更新,记录这周我看到的有价值的信息,主要人工智能 AI 领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。( hello@sanshiliu.com )

本周新闻

Shopify 要求员工证明 AI 无法取代其工作

Shopify CEO Tobi Lutke 强调公司将全面拥抱人工智能 (AI)。未来,员工需要证明特定工作无法由 AI完成,才能申请增加人力。Lutke 在一份公开的员工备忘录中表示,全体员工都应在日常工作中积极应用 AI,并将其视为生产力“倍增器”。

亚马逊推出 Nova Sonic 语音到语音新模型

亚马逊宣布推出一款全新的基础模型 Amazon Nova Sonic,将语音理解与语音生成统一于单一的模型中,使 AI 应用程序中的语音对话更贴近真人交流。该模型通过 Amazon Bedrock 上的新 API 提供,可简化语音应用开发流程,例如客户服务通话自动化及覆盖旅游、教育、医疗、娱乐等领域的跨行业 AI agents。

中美顶级模型性能差距缩至 0.3%

著名 AI 科学家李飞飞领衔的斯坦福大学人工智能研究所近日发布了最新一期《2025 年人工智能指数报告》,报告指出中美顶级 AI 大模型性能已经由 2023 年的 17.5% 大幅缩至 0.3%,接近抹平。

Kimi 开源多模态模型 Kimi-VL、Kimi-VL-Thinking

4 月 10 日,月之暗面 Kimi 开源轻量级视觉语言模型 Kimi-VL 和 Kimi-VL-Thinking,新模型采用 MoE 架构,支持 128K 上下文,激活仅约 30 亿参数;多模态推理能力在多个基准测试中,超过 10 倍大小的大模型。

谷歌发布 Gemini 2.5 Flash AI 模型

4 月 10 日消息,谷歌推出了一款名为 Gemini 2.5 Flash 的全新 AI 模型,该模型注重高效能,并提供强劲的性能。谷歌公司表示,该模型具备“动态且可控”的计算能力,开发者能够根据查询请求的复杂程度灵活调整处理时间。Gemini 2.5 Flash 适合用于“高容量”和“实时”的应用场景,例如客户服务和文档解析。

OpenAI 开源浏览智能体评测基准 BrowseComp

4 月 10 日,美国开放人工智能研究中心(OpenAI)宣布开源包含 1266 个挑战性问题的基准测试 BrowseComp。OpenAI 表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。

OpenAI 升级 ChatGPT 记忆能力

4 月 11 日,OpenAI 宣布 ChatGPT 记忆能力大幅提升,能够参考用户所有的历史聊天记录,以提供更加个性化的回复。ChatGPT 的记忆功能改进将从即日起逐步向所有 Plus 和 Pro 订阅用户开放。

商汤发布多模态推理大模型

商汤技术交流日上,商汤科技发布了“商汤日日新 SenseNova V6(简称日日新 V6)”,它具备最长 64K 思维链、多模态深度推理、全局记忆等能力,支持 10 分钟的视频推理及深度推理。

ChatGPT 成 3 月全球下载量最高非游戏类应用

市场调查机构 AppFigures 发布博文,报告 2025 年 3 月全球非游戏应用下载量,ChatGPT 以 4600 万次成为全球下载量最高(仅统计苹果 AppStore 和谷歌 Play Store 两大官方应用商店)的非游戏应用。

百度推出外贸企业 AI 扶持计划

4 月 12 日消息,百度宣布将利用AI技术和平台流量优先扶持 100 万家企业出口转内销,开拓国内市场。在数字人直播层面,百度慧播星数字人计划助力 100 万家企业免费数字人直播,同时安排专业技术和交付团队助力各外贸商家在各大平台低门槛实现直播带货。在电商商家运营层面,针对外贸商家再加码佣金补贴为外贸商家减负;增设亿级流量池助力商家在百度快速冷启与成长等四大专项政策。


订阅我们

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注