google

公司120 篇资讯

2026年1月20日

Google Cloud Next 2025 发布多项 AI 新功能

Google Cloud Next 2025 大会宣布多项 AI 更新。Ironwood TPU 提供五倍计算能力和六倍内存容量。Vertex AI 新增 Lyria 模型，支持视频、图像、语音和音乐生成。Gemini 2.5 Flash 模型即将在 Vertex AI 上线。

Visual Salamandra 发布，扩展多模态理解能力

语言技术实验室发布了 Visual Salamandra，将 Salamandra 大语言模型扩展至图像和视频处理。该模型基于 70 亿参数基础模型，整合了 Google SigLIP 编码器和先进融合技术。Visual Salamandra 支持从图像、视频到文本的多样化输入，并强调欧洲语言多样性。

Google AI 推出 DolphinGemma 模型，助力解码海豚通信

Google 开发了大型语言模型 DolphinGemma，用于研究海豚的通信方式。该模型旨在帮助科学家分析海豚的声音和行为模式。目标是探索海豚可能表达的含义，推动跨物种沟通研究。

谷歌发布Gemini 2.5 Flash：首款全混合推理模型

谷歌推出了Gemini 2.5 Flash模型，这是其首款全混合推理模型。该模型允许开发者根据需要开启或关闭推理功能。这一发布旨在为开发者提供更灵活的AI工具选择。

Music AI Sandbox 新增功能并扩大访问范围

Google DeepMind 宣布 Music AI Sandbox 新增功能并扩大访问范围。该工具基于 Lyria 2 模型开发，由 Google DeepMind 团队和 YouTube 合作完成。新增功能旨在为音乐创作者提供更多 AI 辅助工具。

Gemini 2.5 Pro 预览版发布，编程性能进一步提升

Google 提前发布了 Gemini 2.5 Pro 预览版，旨在让开发者更早体验。该版本在编程性能方面有所改进，基于开发者使用反馈进行优化。

AlphaEvolve：Gemini驱动的编码代理，用于设计高级算法

DeepMind推出AlphaEvolve，这是一个由大语言模型驱动的进化编码代理，用于通用算法发现和优化。AlphaEvolve结合Gemini模型的创意问题解决能力和自动化评估器，通过进化框架改进算法。该代理已应用于Google数据中心、芯片设计和AI训练过程，提升了效率并解决了数学和计算问题。

DeepMind高管在达沃斯论坛探讨AI负责任发展

Google DeepMind首席运营官Lila Ibrahim在达沃斯世界经济论坛上发言。她表示论坛对话为讨论AI负责任发展提供了机会。Ibrahim通过彭博电视分享了相关观点。

前谷歌CEO警告欧洲需投资开源AI以防依赖中国

前谷歌CEO埃里克·施密特呼吁欧洲投资本土开源AI实验室。他警告若不行动，欧洲将迅速依赖中国AI模型。施密特还提到需解决能源价格飙升问题。

Gemini 2.5 模型更新：引入 Deep Think 增强推理模式

Google 宣布 Gemini 2.5 Pro 模型继续受开发者青睐，成为最佳编程模型。Gemini 2.5 Flash 模型通过新更新得到进一步改进。模型新增 Deep Think 功能，这是一个针对 2.5 Pro 的实验性增强推理模式。

谷歌推出SynthID Detector门户，助力识别AI生成内容

谷歌在I/O大会上宣布推出SynthID Detector门户。该门户旨在帮助用户了解在线内容的生成方式。这是谷歌在AI内容识别领域的最新举措。

谷歌发布Veo 3和Imagen 4生成式媒体模型及Flow电影制作工具

谷歌推出了新的生成式媒体模型Veo 3和Imagen 4。同时发布了名为Flow的电影制作工具。这些工具旨在支持创意内容创作。

谷歌发布白皮书详述Gemini 2.5安全防护策略

谷歌DeepMind发布白皮书介绍Gemini 2.5模型安全防护措施。该团队采用自动化红队测试方法持续攻击模型以发现潜在漏洞。模型强化训练显著提升了Gemini识别和忽略恶意指令的能力。

谷歌扩展Gemini为世界模型，模拟现实以规划与想象

谷歌宣布扩展Gemini AI助手，使其成为能够模拟世界方面的世界模型。这一扩展旨在让Gemini能够制定计划和想象新体验。此举是谷歌构建通用AI助手愿景的一部分。

Google I/O 2025 大会发布 Gemini AI 新进展

Google 在年度开发者大会 I/O 2025 上宣布了 AI 技术的新进展。公司展示了如何利用前沿技术构建智能个性化产品。从 Gemini 2.5 模型升级到 AI Mode 搜索功能在美国全面推出，Google 正将创新 AI 融入其产品中。

前OpenAI政策主管成立独立AI安全审计机构

前OpenAI政策研究主管Miles Brundage创立了非营利机构AVERI，倡导对前沿AI模型进行独立安全审计。该机构已筹集750万美元资金，包括来自AI公司员工的捐款。Brundage认为，即使没有政府强制，企业客户和保险公司的市场压力也可能推动AI实验室接受外部监督。

IBM推出资产化咨询服务，助力企业规模化应用AI价值

IBM推出资产化咨询服务，帮助企业规模化应用AI价值。该服务结合预建软件资产，支持多云环境和开源闭源模型。Pearson等企业已采用此服务构建定制平台，实现AI助手部署。

OpenAI 推出 ChatGPT Translate，挑战 Google Translate

OpenAI 悄然发布了 ChatGPT Translate，这是一个独立的翻译网站。该工具提供快速文本翻译，支持超过 25 种语言，界面类似 Google Translate。用户可直接访问网站使用，无需打开完整的 ChatGPT 聊天界面。

谷歌Gemini API请求量五个月内翻倍，从350亿增至850亿

谷歌Gemini API请求量在五个月内从350亿增至850亿，实现翻倍增长。这一增长始于Gemini 2.5模型的发布，并随Gemini 3推出持续上升。谷歌计划在2月4日的季度财报电话会议中公布详细数据。

2026年1月19日

Gemini 2.5 推出AI音频对话与生成新功能

Gemini 2.5 新增了AI驱动的音频对话和生成能力。该功能基于谷歌的AI模型技术实现。这标志着Gemini系列在音频处理领域的扩展。

Featherless AI 成为 Hugging Face Hub 推理服务提供商

Featherless AI 已加入 Hugging Face Hub 作为推理服务提供商。该提供商支持多种文本和对话模型，包括 DeepSeek、Meta 和 Google 的最新开源模型。用户可通过网站界面或客户端 SDK 轻松使用 Featherless AI 进行无服务器推理。

谷歌DeepMind推出Weather Lab，用AI提升热带气旋预测精度

谷歌DeepMind和谷歌研究推出了Weather Lab互动网站，展示基于随机神经网络的AI热带气旋预测模型。该模型能预测气旋的形成、路径和强度，生成最多15天的50种可能情景。内部测试显示，其预测精度与当前物理方法相当或更高，并与美国国家飓风中心合作验证。

谷歌扩展Gemini 2.5模型家族，推出Flash-Lite版本

谷歌宣布Gemini 2.5 Flash和Pro模型现已全面可用。同时，公司推出了Gemini 2.5 Flash-Lite，这是其最具成本效益和最快的2.5模型。这一扩展旨在为开发者提供更多AI模型选择，以优化性能和成本。

Google推出Gemini Robotics On-Device，将AI模型本地部署至机器人设备

Google发布了Gemini Robotics On-Device，这是一款专为机器人设备优化的本地运行视觉语言动作模型。该模型具备强大的通用灵巧性和任务泛化能力，可在无网络连接环境下运行。同时，Google提供了Gemini Robotics SDK，帮助开发者快速评估和适配模型到新任务中。

Gemma 3n 模型全面开源，支持多模态本地运行

Google 的 Gemma 3n 模型现已全面开源，可在主流开源库中使用。该模型原生支持图像、文本、音频和视频输入，专为本地硬件运行设计。发布两个版本，E2B 和 E4B，分别需要 2GB 和 3GB GPU 内存，性能超越传统参数规模模型。

NVIDIA NIM 加速 Hugging Face 上大量 LLM 的部署

NVIDIA 宣布 NIM 推理微服务现可加速部署 Hugging Face 上的超过 10 万个大型语言模型。NIM 提供单一 Docker 容器，支持多种 LLM 格式和推理框架，自动优化性能。用户需具备 NVIDIA GPU、Docker 和相应账户，以简化模型部署流程。

PSU与杜克大学研究LLM多智能体系统自动故障归因

宾州州立大学和杜克大学的研究人员提出了自动故障归因新问题。他们构建了首个基准数据集Who&When，并开发了多种自动归因方法。该论文已被顶级机器学习会议ICML 2025接收为亮点报告。

谷歌发布EmbeddingGemma，高效多语言嵌入模型

谷歌发布了EmbeddingGemma，这是一款高效的多语言嵌入模型。该模型拥有308M参数和2K上下文窗口，支持超过100种语言。在MTEB基准测试中，它是500M参数以下排名最高的纯文本多语言嵌入模型。

谷歌云C4虚拟机与英特尔、Hugging Face合作，GPT OSS总拥有成本降低70%

英特尔和Hugging Face合作，展示了升级到谷歌云最新C4虚拟机的实际价值。在英特尔至强6处理器上运行的C4虚拟机，相比上一代C3虚拟机，总拥有成本提升了1.7倍。该优化通过专家执行优化，减少了冗余计算，提高了CPU推理效率。

2026年1月18日

Gemma模型助力发现潜在癌症治疗新途径

谷歌推出基于Gemma开源模型家族的270亿参数基础模型。该模型专为单细胞分析设计，能处理大规模生物数据。模型已帮助研究人员发现新的潜在癌症治疗途径。

谷歌发布Gemini 2.5计算机使用模型预览版

谷歌推出了基于Gemini 2.5 Pro的计算机使用模型预览版。该模型专为与用户界面交互的智能体设计。目前可通过API访问这一新模型。

谷歌发布 Gemma 3 270M：超高效 AI 的紧凑模型

谷歌发布了 Gemma 3 270M，这是一个拥有 2.7 亿参数的紧凑型 AI 模型。该模型专为高效 AI 应用设计，旨在提供轻量级解决方案。Gemma 3 270M 是 Gemma 3 工具包中的新成员，专注于资源受限环境。

Google 在 Gemini 应用中推出 Deep Think 功能

Google 为 Gemini 应用的 Ultra 订阅用户推出 Deep Think 功能。部分数学家已获得 Gemini 2.5 Deep Think 模型的完整版本访问权限。该模型将参与国际数学奥林匹克竞赛。

CodeMender：AI 代理自动修复代码安全漏洞

Google 发布了 CodeMender，这是一个基于 AI 的代理，用于自动修复软件漏洞。CodeMender 利用 Gemini Deep Think 模型，通过调试和验证工具自动生成高质量安全补丁。在过去六个月中，它已为开源项目上游了 72 个安全修复。

Gemini Robotics 1.5 将 AI 智能体引入物理世界

Google DeepMind 发布了 Gemini Robotics 1.5 系列模型，旨在推动智能通用机器人发展。该系列包括 Gemini Robotics-ER 1.5 和 Gemini Robotics 1.5 两个模型，通过协作处理复杂多步骤任务。开发者现可通过 Gemini API 在 Google AI Studio 中访问 Gemini Robotics-ER 1.5。

谷歌发布新版Perch AI模型，助力生物声学保护濒危物种

谷歌发布了新版Perch AI模型，用于分析生物声学数据以保护濒危物种。该模型提升了物种预测准确性，并扩展至水下环境如珊瑚礁。Perch已开源并在Kaggle提供，支持全球保护项目。

Google DeepMind 发布 Genie 3：实时交互的世界模型

Google DeepMind 宣布推出 Genie 3，这是一个通用世界模型，能够根据文本提示生成多样化的交互式环境。该模型以每秒 24 帧的速度实时生成动态世界，并在 720p 分辨率下保持数分钟的一致性。Genie 3 在实时交互性和一致性方面相比前代模型有显著提升，支持探索自然现象、生态系统和幻想场景。

Gemini Deep Think 高级版在国际数学奥林匹克竞赛中达到金牌标准

Google DeepMind 的 Gemini Deep Think 高级版在国际数学奥林匹克竞赛中解决了六道题中的五道，获得 35 分，达到金牌水平。该模型在 4.5 小时内直接从自然语言问题描述生成严谨数学证明，相比去年有显著进步。这一成就标志着 AI 在高级数学推理方面的重要里程碑。

谷歌推出实验性AI工具Backstory，帮助探索在线图像背景

谷歌发布了实验性AI工具Backstory，用于分析在线图像的背景和来源。该工具基于Gemini模型，能检测图像是否由AI生成、数字修改及历史使用情况。Backstory旨在帮助用户评估图像可信度，提供易读报告，并正与测试者合作改进。

AlphaEarth Foundations AI模型发布，整合海量地球观测数据实现全球精细制图

Google DeepMind推出AlphaEarth Foundations AI模型，整合PB级地球观测数据生成统一数字表示。该模型以10x10米精度分析陆地与沿海水域，提供年度嵌入数据集供研究使用。合作伙伴已利用该技术提升生态系统分类和地图绘制准确性。

T5Gemma：谷歌发布新的编码器-解码器Gemma模型系列

谷歌发布了T5Gemma，这是一个新的编码器-解码器大型语言模型系列。该模型基于Gemma架构，专为文本到文本任务设计。T5Gemma旨在提供高效的性能，适用于多种自然语言处理应用。

谷歌利用AI预测森林砍伐风险并绘制物种分布图

谷歌宣布推出新的生物圈研究，利用AI预测森林砍伐风险。同时，谷歌研究人员开发了基于AI的物种分布图绘制方法，覆盖更多物种和更高分辨率。这些工具旨在帮助保护生态系统和物种，通过卫星数据和AI模型提供精确预测。

Hugging Face与谷歌云深化合作，推动开放AI模型构建

Hugging Face宣布与谷歌云建立新的战略合作伙伴关系，旨在帮助企业利用开放模型构建自己的AI。双方将共同优化谷歌云平台上的模型部署和下载体验，包括创建CDN网关以加速模型访问。此次合作还将为Hugging Face用户提供更多谷歌云实例和成本效益。

Google DeepMind 在新加坡设立新研究实验室以推进亚太 AI 发展

Google DeepMind 在新加坡开设新的 AI 研究实验室，旨在加速 AI 在亚太地区的实际应用。该实验室将专注于语言文化包容性、Gemini 核心能力提升和模型应用。此举基于 Google 在亚太的长期投入，团队规模在过去一年已翻倍。

谷歌发布Gemini 3模型，支持开发者构建AI应用

谷歌发布了Gemini 3模型，这是一个多模态AI模型，支持文本、图像和音频处理。开发者可通过Gemini API访问该模型，用于构建聊天机器人、内容生成等应用。Gemini 3在推理和代码生成方面有所改进，并提供了新的开发者工具。

谷歌升级AI概览功能，引入Gemini 3 Pro处理复杂查询

谷歌正在将Gemini 3 Pro模型集成到搜索的AI概览功能中。该系统能自动将复杂查询路由至最强大的语言模型，而简单问题仍由更快模型处理。该功能目前全球英语用户可用，但仅限付费的Google AI Pro和Ultra订阅者。

AnyLanguageModel 发布：为苹果平台提供统一本地与远程 LLM API

AnyLanguageModel 是一个 Swift 包，旨在简化苹果平台上大型语言模型的集成。它提供与苹果 Foundation Models 框架相同的 API，支持本地和云端模型。该工具支持多种提供商，包括 Core ML、MLX、OpenAI 和 Anthropic，以降低开发门槛。

谷歌发布Gemini 3 Pro图像模型Nano Banana Pro

谷歌推出了Gemini 3 Pro图像模型Nano Banana Pro。该模型专注于图像生成和处理任务。开发者可通过该模型构建AI应用。

谷歌Gemini应用引入AI图像验证功能

谷歌宣布在Gemini应用中推出AI图像验证功能。该功能可识别AI生成的图像并添加水印标记。此举旨在帮助用户区分真实与AI生成内容。

Google DeepMind 支持美国能源部 Genesis 使命，加速科学创新

Google DeepMind 宣布支持白宫的 Genesis 使命，这是一个利用 AI 加速科学研究的国家计划。Google 与美国能源部合作，为 17 个国家实验室提供前沿 AI 模型和工具访问。AI co-scientist 工具已展示在生物医学等领域的潜力，能加速假设开发。

Google DeepMind 推出 FACTS 基准套件，系统评估大语言模型事实准确性

Google DeepMind 与 Kaggle 合作发布了 FACTS 基准套件，用于系统评估大语言模型的事实准确性。该套件包含四个基准测试，涵盖参数化、搜索和多模态等场景，共 3,513 个示例。FACTS 评分基于公开和私有测试集的平均准确率计算，Kaggle 将管理基准测试并维护公开排行榜。

Google DeepMind 与英国 AI 安全研究所深化合作

Google DeepMind 宣布与英国 AI 安全研究所扩大合作，签署新的谅解备忘录。合作重点转向基础安全研究，包括思维链监控和伦理影响评估。此举旨在确保 AI 安全发展，惠及全人类。

谷歌改进Gemini音频模型以增强语音体验

谷歌宣布改进Gemini音频模型，提升语音识别和生成能力。新模型支持更自然的对话交互和实时处理功能。这些改进旨在为开发者提供更强大的语音AI工具。

Gemini 3 Flash：为速度而生的前沿智能模型

谷歌发布了Gemini 3 Flash模型，专为高速处理设计。该模型提供前沿智能能力，同时大幅降低成本。这是谷歌Gemini系列的最新成员，旨在优化性能与效率。

2026年1月17日

谷歌Gemini模型将控制波士顿动力人形机器人用于汽车工厂

谷歌DeepMind与波士顿动力合作，将Gemini模型部署到Atlas人形机器人上。该模型旨在提升机器人在陌生环境中的导航和物体操控能力。合作计划在Hyundai汽车工厂进行测试，以探索人形机器人在制造业的应用。

Artificial Analysis 全面改革 AI 智能指数，用真实世界测试取代传统基准

独立 AI 基准测试组织 Artificial Analysis 发布了其智能指数的重大更新。新版本移除了 MMLU-Pro 等传统基准，引入了 GDPval-AA 等真实世界任务评估。GPT-5.2 在新指数中排名第一，Claude Opus 4.5 和 Gemini 3 Pro 紧随其后。

AWS 推出欧洲主权云，应对数据主权担忧

亚马逊云科技今日正式推出欧洲主权云，该云服务完全位于欧盟境内，与其它 AWS 区域物理和逻辑隔离。服务将由欧盟居民独立运营，旨在满足欧洲政府和企业对敏感数据的需求。AWS 还计划扩展本地区域，以进一步缓解客户对数据驻留和隔离的担忧。

OpenAI、Anthropic和谷歌推出新AI医疗工具

OpenAI发布了ChatGPT Health功能，允许用户上传健康记录获取医疗建议。Anthropic推出了Claude for Healthcare，支持美国Pro和Max订阅者上传健康数据。谷歌推出了MedGemma 1.5模型，专注于医疗图像分析。

苹果选择谷歌Gemini为新一代Siri提供AI支持

苹果宣布将使用谷歌的Gemini AI作为新一代Siri的基础模型。这一合作标志着苹果在AI助手领域的战略调整。苹果未选择OpenAI或Anthropic等其他AI公司。

OpenAI 推动其 API 格式成为行业标准

OpenAI 推出名为 Open Responses 的开放接口，旨在统一不同提供商的 AI 模型 API 格式。该项目基于 OpenAI 的 Responses API，允许开发者编写一次代码，即可与任何 AI 模型兼容。目前，Google、Anthropic 和 Meta 的 API 格式各异，导致开发者在切换模型时需重写代码，而 Open Responses 试图通过共享请求、响应、流式传输和工具调用格式来解决这一问题。Vercel、Hugging Face、LM Studio、Ollama 和 vLLM 已加入支持。此举若成功，将使 OpenAI 受益，因为其 API 可能成为默认标准，竞争对手需适应其格式，而现有 OpenAI 客户无需更改代码。OpenAI 通过“开放”标签展示合作精神，尽管未分享超出已公开技术的更多内容。

Google 将 AI 视频制作工具 Flow 扩展至 Workspace 用户

Google 宣布其 AI 视频制作工具 Flow 现已面向 Workspace 商业、企业和教育计划用户开放。Flow 基于 Veo 3.1 模型，可根据文本或图像生成八秒视频片段。该工具还支持音频生成、垂直视频和集成图像生成器 Nano Banana Pro。

OpenAI 将在 ChatGPT 中测试广告以扩大收入来源

OpenAI 宣布将在 ChatGPT 应用中为部分美国用户测试广告，以扩大客户群并多元化收入。广告将出现在免费版和新推出的 ChatGPT Go 计划中，但高级订阅用户不会看到广告。广告将标注为赞助内容，并显示在回答底部，以相关产品或服务为主题。

谷歌内部强化学习技术或解锁长视野AI智能体

谷歌研究人员开发了一种名为内部强化学习的新技术，旨在改进AI模型在复杂推理任务中的表现。该技术通过引导模型内部激活来生成高级分步解决方案，而非依赖传统的下一个令牌预测训练方法。这为创建能处理复杂推理和现实世界机器人任务的自主智能体提供了可扩展路径。

加州总检察长向马斯克的xAI发出停止令，涉性深度伪造内容

加州总检察长办公室向xAI发出停止令，要求其立即停止生成非自愿亲密图像和儿童性虐待材料。该行动源于xAI的聊天机器人Grok被用于创建性深度伪造内容，涉及女性和未成年人。多个国家已对Grok展开调查，部分国家已暂时封锁该平台。

AI聊天机器人实验显示可为保险代理人每天节省3分钟

达科他州立大学与Safety Insurance合作开发了基于Google Gemini的聊天机器人Axlerod。该机器人能帮助汽车保险代理人平均节省2.42秒的搜索任务时间。研究人员评估了其成本效益，但实际投资回报取决于使用场景。

OpenAI 将在 ChatGPT 免费版和 Go 版中测试广告

OpenAI 宣布在美国推出 ChatGPT Go 订阅服务，每月费用为 8 美元。公司计划在未来几周内，在美国的免费版和 Go 版中测试广告功能。Pro、Business 和 Enterprise 订阅版本将不会包含广告。

2026年1月16日

Anthropic任命前微软印度总经理领导班加罗尔扩张

Anthropic任命前微软印度总经理Irina Ghose领导其印度业务，以推动班加罗尔办公室的开设。印度已成为Claude第二大用户市场，Anthropic正加强本地化布局以应对竞争。此举凸显印度作为AI公司全球扩张关键战场的战略重要性。

微软谷歌大力招聘能源专家应对AI电力瓶颈

微软和谷歌等科技巨头正积极招聘能源领域专家，以应对AI发展中的电力短缺问题。自2022年以来，微软新增超570名能源员工，谷歌新增340名，亚马逊新增605名。微软CEO纳德拉指出，缺电比缺GPU更致命，电力供应已成为AI发展的关键瓶颈。

美国参议员要求X、Meta等公司就性化深度伪造问题作出回应

美国参议员致信X、Meta、Alphabet等科技公司，要求提供防止性化深度伪造的政策证明。信中引用了Grok生成不当图像的报道，指出现有防护措施可能不足。参议员还要求公司保留相关文档和信息，以应对非自愿性化AI图像的传播问题。

维基媒体基金会宣布与亚马逊、Meta、微软等AI公司建立新合作伙伴关系

维基媒体基金会宣布与亚马逊、Meta、微软、Mistral AI和Perplexity等AI科技公司建立新的合作伙伴关系。这些公司已成为其商业产品Wikimedia Enterprise的客户，该产品允许大规模重用和分发维基百科内容。此举为维基百科在AI时代提供了新的可持续性途径，同时满足科技公司对数据的需求。

MongoDB发布Voyage 4嵌入模型，提升企业AI检索质量

MongoDB发布了四款新的嵌入和重排模型，包括Voyage 4系列。这些模型旨在解决AI系统在生产环境中检索质量下降的问题。Voyage-4-nano是该公司首款开源权重模型，所有模型可通过API和Atlas平台使用。

OpenAI 放弃与苹果合作，转而专注自研 AI 硬件

据报道，OpenAI 去年秋天决定不成为苹果的定制模型提供商。该公司正专注于开发自己的 AI 设备，以与大型科技公司竞争。苹果与谷歌的扩展合作将 ChatGPT 在 iPhone 上降级为备用选项。

谷歌发布开源翻译模型TranslateGemma，支持55种语言

谷歌发布了开源翻译模型TranslateGemma系列，支持55种语言。该模型提供三种参数规模，适用于移动设备、笔记本电脑和云服务器。其12B版本在翻译质量上超越了更大规模的模型，尤其在低资源语言上表现突出。

超半数AI项目因基础设施复杂而搁浅

DDN联合谷歌云和Cognizant的研究报告显示，过去两年超半数AI项目因基础设施复杂被延迟或取消。约三分之二的美国企业决策者认为AI环境过于复杂难以管理。DDN CEO指出基础设施、电力和运营基础不足是主要挑战，导致项目延迟和GPU利用率低。

2026年1月15日

苹果与谷歌新协议使ChatGPT在iPhone上退居次要

苹果与谷歌深化合作，将Gemini集成到iPhone中，作为主要AI助手。ChatGPT被降级为可选备用选项，用于处理更复杂请求。OpenAI原本希望通过苹果合作增加收入，但实际未带来显著流量增长。

OpenAI、谷歌和Anthropic相继推出医疗AI工具，竞争加剧

OpenAI、谷歌和Anthropic本月相继发布医疗AI工具，包括ChatGPT Health、MedGemma 1.5和Claude for Healthcare。这些工具专注于医疗工作流程优化，如授权审核和文档处理，但均未获批用于临床诊断。它们基于多模态大语言模型，强调隐私保护和辅助临床决策。

微软、Meta和亚马逊付费获取维基百科企业级访问权限

微软、Meta、亚马逊、Perplexity和Mistral AI已加入谷歌，成为维基百科企业计划的最新成员。该计划为大型公司提供付费的维基百科API高级版本，以支持商业和AI应用。这些资金将用于支持维基媒体基金会的非营利项目，促进其可持续发展。

OpenAI推出ChatGPT翻译器，挑战谷歌翻译

OpenAI发布了ChatGPT翻译器，这是一个独立的网页翻译工具，支持超过50种语言。该工具允许用户指定翻译文本的风格，例如更流畅或学术化。目前，ChatGPT翻译器仅支持文本和语音输入，图像翻译功能尚未上线。

Kaggle 推出社区基准测试功能

Kaggle 今日发布了社区基准测试功能，允许全球 AI 社区设计、运行和分享自定义基准测试来评估 AI 模型。该功能提供免费访问 Google、Anthropic 等顶级实验室的先进模型，支持多模态输入和代码执行等复杂交互。用户可通过 kaggle-benchmarks SDK 快速创建任务和基准测试，实现可复现的模型评估。

Gemini 在 AI 竞赛中取得领先优势

Google 的 Gemini 模型在 AI 领域展现出强劲竞争力。Gemini 3 被广泛认为是市场上最佳的大型语言模型之一。Google 与 Apple 合作，Gemini 将驱动新一代 Siri，扩大其用户覆盖范围。

Google Trends Explore 页面新增 Gemini AI 功能

Google 宣布更新 Trends Explore 页面，集成 Gemini AI 能力自动识别和比较搜索趋势。新功能包括侧边栏自动分析趋势和提供 Gemini 提示建议，旨在简化研究流程。此更新是 Google 将 Gemini 融入核心产品的一部分。

Z.ai开源GLM-Image在复杂文本渲染上超越谷歌Nano Banana Pro

中国初创公司Z.ai发布了开源图像生成模型GLM-Image。该模型在复杂文本渲染基准测试中击败谷歌的Nano Banana Pro。GLM-Image采用混合架构，专为信息密集的视觉内容生成设计。

谷歌推出Gemini个人智能功能，允许访问用户数据以提供个性化回答

谷歌开始邀请Gemini用户允许聊天机器人读取Gmail、照片、搜索历史和YouTube数据，以换取更个性化的回答。这项名为个人智能的功能目前在美国向AI Pro和AI Ultra订阅者提供测试版。谷歌强调用户数据将保持私密，不会用于模型训练，并默认关闭该功能。

28个倡导组织呼吁苹果谷歌下架Grok和X应用

28个倡导组织致信苹果和谷歌，要求将Grok和X应用从应用商店下架。这些组织指控Grok生成未经同意的深度伪造内容，包括涉及儿童的图像。苹果和谷歌的应用商店政策明确禁止此类内容，但两家公司尚未采取行动。

2026年1月14日

谷歌发布MedGemma 1.5，开源医疗AI支持3D CT和MRI分析

谷歌推出了开源医疗AI模型MedGemma 1.5，首次支持三维CT和MRI图像分析。该模型能同时处理扫描的每一层，MRI诊断准确率提升14个百分点至65%。谷歌还发布了专门用于医疗听写的语音识别模型MedASR，错误率比OpenAI的Whisper large-v3低82%。

AI公司卷入美国军事行动：从抵制到合作的转变

2024年初，Anthropic、Google、Meta和OpenAI曾一致反对其AI工具用于军事目的。但一年内，这些公司纷纷改变立场，允许或合作军事应用。这一转变与AI模型的高昂开发成本及地缘政治竞争加剧有关。

医生认为AI在医疗保健中有用，但可能不适合作为聊天机器人

OpenAI发布了ChatGPT Health，这是一个专为健康咨询设计的聊天机器人，允许用户上传医疗记录并同步健康应用。医生Sina Bari分享了一个案例，显示ChatGPT曾提供错误医疗建议，但他对ChatGPT Health的隐私保护措施表示支持。AI聊天机器人在医疗领域存在幻觉问题，但公司正努力通过专用产品来改善效率和安全性。

谷歌更新Veo模型，支持参考图像生成垂直视频和4K超分

谷歌宣布更新Veo 3.1模型，新增Ingredients to Video功能，允许用户提供最多三张参考图像来生成视频。该更新支持垂直视频格式和更高分辨率超分，适用于社交媒体平台。Veo模型旨在提升视频生成的创意性和一致性。

苹果选择谷歌Gemini AI，凸显谷歌张量芯片成本优势

苹果与谷歌达成多年协议，选择谷歌的Gemini AI技术。这一合作突显了谷歌张量处理单元芯片的成本优势。苹果此举旨在提升其AI产品和服务能力。

消费者监督机构警告谷歌AI购物协议，谷歌否认指控

谷歌宣布新的AI购物代理通用商务协议后，消费者经济监督机构发出警告。该机构负责人指控谷歌计划通过分析聊天数据进行个性化加价销售。谷歌公开回应称这些指控不准确，并强调协议禁止商家在谷歌上显示高于其网站的价格。

谷歌研究发现重复提示可提升LLM非推理任务准确率高达76%

谷歌研究团队发布论文，发现简单重复输入提示能显著提升大型语言模型在非推理任务中的性能。该方法在包括Gemini、GPT-4o、Claude和DeepSeek在内的多个主流模型上均有效，且对生成速度几乎没有影响。研究显示，在70项基准测试中，重复提示在47项中获胜，零失败。

美国防部长计划本月将马斯克的Grok AI集成至军事网络

美国国防部长皮特·赫格塞斯宣布计划本月将马斯克的AI工具Grok集成至五角大楼网络。赫格塞斯表示此举旨在将领先AI模型部署到所有非机密和机密网络。该计划是国防部AI加速战略的一部分，旨在消除官僚障碍并加强数据共享。

2026年1月13日

Google Classroom 推出 Gemini 新工具，可将课程转化为播客音频

Google 在 Google Classroom 中推出了一款由 Gemini 驱动的新工具，可将课程内容转化为播客风格的音频课程。教师可通过选择年级、主题和学习目标来自定义音频，支持访谈、圆桌讨论等多种对话风格。该功能目前面向订阅 Google Workspace Education Fundamentals、Standard 和 Plus 的用户开放。

Nous Research 发布开源编程模型 NousCoder-14B，对标 Claude Code

开源 AI 初创公司 Nous Research 发布了 NousCoder-14B 编程模型。该模型在 LiveCodeBench v6 基准测试中准确率达 67.87%，基于阿里 Qwen3-14B 训练。Nous Research 公开了模型权重和完整训练环境，强调开源透明度。

Grok 生成比 X 平台更露骨的性内容

Elon Musk 的 Grok 聊天机器人被用于生成露骨性内容，包括疑似未成年人的图像。Grok 网站和应用的 Imagine 模型能生成比 X 平台更暴力的性视频，涉及真人名人和动漫角色。研究人员发现约 800 个存档链接包含性内容，其中近 10% 可能涉及儿童性虐待材料。

谷歌与Character.AI就青少年聊天机器人死亡案件进行首次重大和解谈判

谷歌与初创公司Character.AI正与青少年自杀或自残受害者家庭谈判和解条款，这可能是科技行业首起AI相关伤害重大法律和解。案件涉及青少年与Character.AI聊天机器人互动后死亡，Character.AI已于去年10月禁止未成年人使用。和解可能包括经济赔偿，但未在法庭文件中承认责任。

Gmail 推出个性化 AI 收件箱和 AI 搜索概览功能

Google 为 Gmail 推出了新的 AI 收件箱，提供个性化任务概览和重要更新提醒。Gmail 还引入了 AI 搜索概览功能，允许用户使用自然语言搜索收件箱。这些 AI 功能将逐步向所有用户开放，包括之前仅限付费用户使用的功能。

谷歌将Gemini AI功能默认推入Gmail，用户可手动关闭

谷歌宣布将Gemini AI功能集成到Gmail中，默认启用但允许用户禁用。新功能包括AI概述、帮助撰写和智能回复，部分功能仅限付费订阅者使用。美国英语用户将首先体验这些更新，谷歌强调数据处理在隔离环境中进行。

Signal 创始人推出开源 AI 助手 Confer，保障用户数据隐私

Signal 创始人 Moxie Marlinspike 推出开源 AI 助手 Confer，旨在为 AI 聊天机器人带来类似 Signal 的隐私革命。Confer 使用可信执行环境和加密技术，确保用户数据对平台运营商、黑客或执法机构不可读。该服务完全基于开源软件运行，用户可进行密码学验证。

研究人员发现商业AI模型可完整输出《哈利·波特》书籍

斯坦福和耶鲁大学的研究人员测试了Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3等商业AI模型。他们发现这些模型能记忆并输出受版权保护的内容，如《哈利·波特》书籍。这一发现涉及AI模型训练数据使用和版权侵权的法律问题。

苹果将使用 Gemini 模型驱动 Siri AI

苹果和谷歌已确认 Gemini 模型将驱动新版 Siri 和其他生成式 AI 功能。苹果表示 Google AI 技术为其基础模型提供了最强大的支持。此前苹果曾考虑与 OpenAI 和 Anthropic 合作，但最终选择了 Google。

X未解决Grok脱衣问题，仅限制付费用户生成图像

X平台限制Grok图像生成功能为付费订阅者使用，以应对非自愿色情图像和儿童性虐待材料的争议。Grok仍被付费用户用于创建脱衣和性化图像，独立应用也生成露骨内容。全球监管机构正调查此事，英国首相未排除禁止X的可能性。

谷歌警告：为LLM制作“小块”内容无益于搜索排名

谷歌在最新播客中表示，为LLM将内容拆分为小块段落不会提升搜索排名。这种做法基于误解，谷歌不使用此类信号来优化排名。谷歌建议继续为人类而非机器创建内容，以确保长期搜索曝光。

Orchestral AI 发布新框架，简化 LLM 编排以支持可重复研究

研究人员 Alexander 和 Jacob Roman 发布了 Orchestral AI 框架，旨在替代 LangChain 等复杂工具。该框架采用同步执行模型，确保 AI 代理行为具有确定性，适用于科学实验。它支持多提供商 LLM，并提供成本跟踪和 LaTeX 导出等功能。

沃尔玛与Alphabet合作在Gemini平台推出AI购物功能

沃尔玛与Alphabet合作在Google的Gemini平台提供AI增强购物服务。这是沃尔玛在其运营中应用AI技术的一部分。合作旨在提升购物体验和效率。

谷歌推出AI收件箱视图，预览Gmail未来功能

谷歌本周宣布为Gmail推出新的AI收件箱视图，用AI生成的待办事项和主题列表替代传统邮件列表。该功能目前仅面向受信任的测试者开放，仅适用于个人Gmail账户。AI收件箱通过总结邮件内容并提供链接，旨在帮助用户更高效地管理收件箱。

KAN一作刘子鸣回国任教，清华官网认证

爆火神经网络架构KAN的一作刘子鸣将回国任教。他拟于今年9月加入清华大学人工智能学院担任助理教授。KAN是一种可解释性强的神经网络，旨在替代传统多层感知机。

超大规模AI数据中心：2026年十大突破技术

超大规模AI数据中心正以革命性架构为AI模型提供算力，但能耗惊人。这些数据中心将数十万GPU芯片集成同步集群，构成巨型超级计算机。科技巨头投入数千亿美元建设，但高能耗带来环境与社区挑战。

科学家将大语言模型视为外星生物进行研究

科学家正将大语言模型当作生物而非计算机程序来研究，以揭示其内部机制。他们发现这些模型比预想的更奇特，并开始理解其能力和局限。这项研究有助于应对模型幻觉和设置有效防护措施。

克罗格和劳氏等零售商测试AI购物助手，避免依赖谷歌控制

零售商正面临AI购物热潮中的控制权问题，担心依赖第三方平台会失去产品展示和销售的主导权。克罗格和劳氏等公司正在测试自有AI购物助手，以保持客户决策在自身系统内。这些努力部分得到谷歌工具支持，但零售商也通过多供应商合作来分散技术风险。

Alphabet市值突破4万亿美元，巩固AI浪潮赢家地位

Alphabet Inc.周一市值突破4万亿美元，成为少数跨越这一门槛的公司之一。投资者日益将谷歌母公司视为人工智能热潮的最大赢家之一。这一里程碑反映了市场对Alphabet在AI领域前景的积极预期。

苹果选择谷歌而非OpenAI：企业AI采购可从Gemini合作中学到什么

苹果与谷歌达成多年协议，将Gemini模型集成到新版Siri中。苹果明确表示这是基于技术能力的评估，而非合作便利或价格因素。这一决策反映了企业选择基础模型时需考虑性能、延迟、多模态能力和隐私标准。

Block CISO：红队测试AI代理，成功在员工笔记本运行信息窃取器

Block对其开源AI代理Goose进行红队测试，成功利用提示注入攻击在员工笔记本运行信息窃取器。该公司近1.2万名员工使用该代理，其连接了包括支付系统在内的所有公司系统。目前提示注入攻击的安全漏洞尚未得到解决。

谷歌推出通用商务协议，Gemini 将成一站式购物助手

谷歌推出通用商务协议，为AI代理商务建立全球标准。该协议已获得多家零售商和支付网络支持，用户可通过Gemini直接结账。谷歌还推出AI商业代理，允许用户在搜索中与品牌直接互动。

亚马逊称97%已售设备可支持其生成式AI助手Alexa+

亚马逊称其已售设备中97%可支持生成式AI助手Alexa+。Alexa+提供更具表现力的语音和AI代理功能，已向数千万用户开放升级。亚马逊计划利用其设备覆盖和用户熟悉度推广该服务。

Linus Torvalds 开始尝试“氛围编程”

Linus Torvalds 在业余音频项目 AudioNoise 中尝试使用“氛围编程”。他借助 Google Antigravity AI 助手生成了项目的 Python 代码部分。Torvalds 表示此举仅限于业余项目，未在其主要工作中使用 AI。

谷歌移除部分AI健康摘要，调查发现存在“危险”缺陷

谷歌移除AI健康摘要部分内容，因调查发现其提供虚假信息。AI在健康查询中给出错误建议，可能误导患者延误治疗。谷歌仅禁用部分问题，其他潜在有害答案仍可访问。

亚马逊收购AI可穿戴设备公司Bee，扩展AI应用场景

亚马逊在2026年国际消费电子展上展示了其收购的AI可穿戴设备公司Bee。Bee设备可记录对话并作为AI伴侣，通过学习用户信息提供个性化服务。亚马逊计划将Bee与其Alexa语音助手进行融合。

苹果选择谷歌Gemini为Siri提供AI支持

苹果与谷歌达成多年协议，将使用Gemini AI模型为Siri提供技术支持。

亚马逊发布AI可穿戴设备Bee，可录音并分段总结对话

亚马逊发布AI可穿戴设备Bee，可录音并分段总结对话。Bee将音频分段并以不同颜色区分，用户可点击查看精确转录。该设备默认不持续监听，录音时会亮灯提醒他人。