三十六的人工智能周刊(第 7 期):谷歌在 AI 聊天机器人中嵌入广告

三十六的人工智能周刊,本系列每周末更新,记录这周我看到的有价值的信息,主要人工智能 AI 领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。( hello@sanshiliu.com )

本周新闻

谷歌在 AI 聊天机器人中嵌入广告

谷歌的广告网络已经开始在聊天机器人的对话流程中展示广告——这是谷歌母公司 Alphabet 为了保持其在数字广告领域的优势,在生成式人工智能兴起之际所采取的措施之一。

Kimi 发布全新通用音频基础模型 Kimi-Audio

4 月 26 日,Kimi 发布新的开源项目——全新通用音频基础模型 Kimi-Audio。据介绍,该模型支持语音识别、音频理解、音频转文本、语音对话等多种任务。

谷歌推出 Gemini 本地图像编辑功能

谷歌在当地时间周三发布的博客中宣布,Gemini 聊天机器人应用目前支持修改由 AI 生成的图像以及用户从手机或计算机上传的图像。Gemini 的本地图像编辑功能将逐步推向全球,预计在未来几周内,服务将扩展至大多数国家,并支持超过 45 种语言。

阿里巴巴 AI 旗舰应用夸克发布全新“AI 相机”

阿里巴巴 AI 旗舰应用夸克 AI 超级框发布全新 AI 相机,上新“拍照问夸克”功能。基于 AI 超级框背后的视觉理解和推理模型能力,全新的夸克 AI 相机能深入理解用户意图,更好地实现视觉搜索、多轮问答、图像处理与创作。

字节 Seedream 3.0 登场

字节跳动最新推出全新文本生成图像模型 Seedream 3.0,其性能在内部和外部评测中均表现出色,超越前代 Seedream 2.0,并与 GPT-4o、Midjourney v6.1 和 Imagen 3 等主流系统一较高下。该模型训练数据量翻倍,新增了经过预处理掩码的瑕疵图像,同时采用分辨率自适应采样和混合分辨率训练等新技术,确保不同尺寸图像的高保真输出。

昆仑万维 SkyReels 团队发布并开源 SkyReels-V2

4 月 21 日,昆仑万维 SkyReels 团队正式发布并开源 SkyReels-V2 ——全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。

生数科技上线视频大模型 Vidu Q1

4 月 22 日消息,生数科技上线全新视频大模型 Vidu Q1。据视频生成模型测评基准 VBench 系列测评结果,Vidu Q1 在 VBench-1.0 的视频质量、视频语义一致性以及 VBench-2.0 常识推理、物理理解等综合维度上达到 SOTA 水平,得分超过 Runway、Sora、Kling 等国内外模型。

Hugging Face 旗下机器人上线

4 月 22 日消息,Hugging Face 收购法国初创公司 Pollen Robotics 后,宣布正式推出开源人形机器人 Reachy2。该机器人是专为AI研究和教育设计的“实验室伙伴”,由 Pollen Robotics 开发,价格 7 万美元,已在康奈尔大学和卡内基梅隆大学等顶级实验室投入使用。

智谱旗下多款大模型产品降价

智谱宣布对旗下多款大模型产品进行价格调整, 其中,GLM-4-Plus 降价 90%,从 50 元/百万 tokens 降至 5 元/百万 tokens(相当于每亿 tokens 500 元),较行业价格低 92%。

百度发布文心大模型 4.5 Turbo

4 月 25 日消息,百度 Create 开发者大会上,百度创始人李彦宏发布了文心大模型 4.5 Turbo。对比文心 4.5,速度更快、价格下降 80%,每百万 token 的输入价格仅为 0.8 元,输出价格 3.2 元,仅为 DeepSeek-V3 的 40%。

蚂蚁集团加码 AGI 领域

4 月 25 日消息,蚂蚁集团 4 月 25 日宣布推出“Plan A”AI 人才专项计划,面向全球一流高校招募顶尖 AI 硕博毕业生,以加强在 AGI(通用人工智能)领域的研发投入。

马斯克的 XAI 正与投资者洽谈,

4 月 26 日消息,马斯克旗下的 xAI 正与投资者洽谈,为其人工智能初创公司及社交媒体业务筹集约 200 亿美元资金。该笔交易将使公司估值超过 1200 亿美元,所得资金或可用于偿还马斯克将推特私有化所产生的债务。此轮融资预计将在未来几个月内完成,且有可能筹集到超过 200 亿美元的资金。

比尔·盖茨之女创办 AI 购物应用

当地时间 4 月 25 日,比尔·盖茨的女儿菲比·盖茨宣布与好友共同发布人工智能购物应用“Phia”,该应用旨在帮助消费者比较服装、鞋类和配饰的价格,已上线 iOS 平台,并可作为 Chrome 浏览器的扩展使用。

阶跃星辰开源图像编辑模型 Step1X-Edit

4 月 27 日,阶跃星辰宣布开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。

Adobe 发布 Firefly Image Model 4 模型

Adobe 发布博文,推出 Firefly Image Model 4 和 Firefly Image Model 4 Ultra 两款文本生成图像 AI 模型,并预告针对 Photoshop 和 Illustrator 的 Creative Cloud 应用更新。Firefly Image Model 4 强调速度与操控性,被 Adobe 称为“迄今最快、最可控、最逼真的图像模型”,最高支持生成 2K 分辨率的图像,风格、尺寸和相机角度控制更加精准。

阿里千问 3 发布并开源

阿里巴巴开源了新一代通义千问模型 Qwen3(简称千问 3),参数量仅为 DeepSeek-R1 的 1/3,宣布成本大幅下降,性能超越 R1、OpenAI-o1 等领先模型。千问3是一个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,极大节省了算力消耗。


订阅我们

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注