gemini
产品65 篇资讯Google Cloud Next 2025 发布多项 AI 新功能
Google Cloud Next 2025 大会宣布多项 AI 更新。Ironwood TPU 提供五倍计算能力和六倍内存容量。Vertex AI 新增 Lyria 模型,支持视频、图像、语音和音乐生成。Gemini 2.5 Flash 模型即将在 Vertex AI 上线。
Gemini Advanced 和 Whisk Animate 推出视频生成功能
Gemini Advanced 和 Whisk Animate 新增视频生成功能。用户可通过文本提示在 Gemini Advanced 中生成高分辨率八秒视频。Whisk Animate 则支持将图像转换为八秒动画片段。
谷歌发布Gemini 2.5 Flash:首款全混合推理模型
谷歌推出了Gemini 2.5 Flash模型,这是其首款全混合推理模型。该模型允许开发者根据需要开启或关闭推理功能。这一发布旨在为开发者提供更灵活的AI工具选择。
Gemini 2.5 Pro 预览版发布,编程性能进一步提升
Google 提前发布了 Gemini 2.5 Pro 预览版,旨在让开发者更早体验。该版本在编程性能方面有所改进,基于开发者使用反馈进行优化。
AlphaEvolve:Gemini驱动的编码代理,用于设计高级算法
DeepMind推出AlphaEvolve,这是一个由大语言模型驱动的进化编码代理,用于通用算法发现和优化。AlphaEvolve结合Gemini模型的创意问题解决能力和自动化评估器,通过进化框架改进算法。该代理已应用于Google数据中心、芯片设计和AI训练过程,提升了效率并解决了数学和计算问题。
复旦与创智孵化团队模思智能发布新语音模型
复旦与创智孵化团队模思智能发布了新语音模型。该模型在特定评测中表现优于GPT和Gemini。模思智能是一家专注于AI语音技术的创业公司。
Gemini 2.5 模型更新:引入 Deep Think 增强推理模式
Google 宣布 Gemini 2.5 Pro 模型继续受开发者青睐,成为最佳编程模型。Gemini 2.5 Flash 模型通过新更新得到进一步改进。模型新增 Deep Think 功能,这是一个针对 2.5 Pro 的实验性增强推理模式。
谷歌发布白皮书详述Gemini 2.5安全防护策略
谷歌DeepMind发布白皮书介绍Gemini 2.5模型安全防护措施。该团队采用自动化红队测试方法持续攻击模型以发现潜在漏洞。模型强化训练显著提升了Gemini识别和忽略恶意指令的能力。
谷歌扩展Gemini为世界模型,模拟现实以规划与想象
谷歌宣布扩展Gemini AI助手,使其成为能够模拟世界方面的世界模型。这一扩展旨在让Gemini能够制定计划和想象新体验。此举是谷歌构建通用AI助手愿景的一部分。
Google I/O 2025 大会发布 Gemini AI 新进展
Google 在年度开发者大会 I/O 2025 上宣布了 AI 技术的新进展。公司展示了如何利用前沿技术构建智能个性化产品。从 Gemini 2.5 模型升级到 AI Mode 搜索功能在美国全面推出,Google 正将创新 AI 融入其产品中。
谷歌Gemini API请求量五个月内翻倍,从350亿增至850亿
谷歌Gemini API请求量在五个月内从350亿增至850亿,实现翻倍增长。这一增长始于Gemini 2.5模型的发布,并随Gemini 3推出持续上升。谷歌计划在2月4日的季度财报电话会议中公布详细数据。
Gemini 2.5 推出AI音频对话与生成新功能
Gemini 2.5 新增了AI驱动的音频对话和生成能力。该功能基于谷歌的AI模型技术实现。这标志着Gemini系列在音频处理领域的扩展。
谷歌扩展Gemini 2.5模型家族,推出Flash-Lite版本
谷歌宣布Gemini 2.5 Flash和Pro模型现已全面可用。同时,公司推出了Gemini 2.5 Flash-Lite,这是其最具成本效益和最快的2.5模型。这一扩展旨在为开发者提供更多AI模型选择,以优化性能和成本。
Google推出Gemini Robotics On-Device,将AI模型本地部署至机器人设备
Google发布了Gemini Robotics On-Device,这是一款专为机器人设备优化的本地运行视觉语言动作模型。该模型具备强大的通用灵巧性和任务泛化能力,可在无网络连接环境下运行。同时,Google提供了Gemini Robotics SDK,帮助开发者快速评估和适配模型到新任务中。
Kimina-Prover-RL:开源Lean 4定理证明训练管道发布
Kimina-Prover-RL是一个基于DeepSeek-R1启发的开源训练管道,用于在Lean 4中进行形式定理证明。该管道采用结构化推理-生成范式,并发布两个新模型,在MiniF2F基准测试中创下开源模型新纪录。
韩国AI订阅支出超Netflix,ChatGPT占主导
韩国AI订阅服务月支出首次超过Netflix。2025年12月,包括ChatGPT和Gemini在内的七项AI服务支付额达803亿韩元。ChatGPT以71.5%的支付份额领先,其次是Gemini和Claude。
谷歌发布Gemini 2.5计算机使用模型预览版
谷歌推出了基于Gemini 2.5 Pro的计算机使用模型预览版。该模型专为与用户界面交互的智能体设计。目前可通过API访问这一新模型。
Gemini 应用原生图像编辑功能迎来重大升级
Gemini 应用更新了原生图像编辑功能。用户现在能以新方式转换图像。这一升级提升了图像处理能力。
Google 在 Gemini 应用中推出 Deep Think 功能
Google 为 Gemini 应用的 Ultra 订阅用户推出 Deep Think 功能。部分数学家已获得 Gemini 2.5 Deep Think 模型的完整版本访问权限。该模型将参与国际数学奥林匹克竞赛。
CodeMender:AI 代理自动修复代码安全漏洞
Google 发布了 CodeMender,这是一个基于 AI 的代理,用于自动修复软件漏洞。CodeMender 利用 Gemini Deep Think 模型,通过调试和验证工具自动生成高质量安全补丁。在过去六个月中,它已为开源项目上游了 72 个安全修复。
Gemini Robotics 1.5 将 AI 智能体引入物理世界
Google DeepMind 发布了 Gemini Robotics 1.5 系列模型,旨在推动智能通用机器人发展。该系列包括 Gemini Robotics-ER 1.5 和 Gemini Robotics 1.5 两个模型,通过协作处理复杂多步骤任务。开发者现可通过 Gemini API 在 Google AI Studio 中访问 Gemini Robotics-ER 1.5。
Gemini Deep Think 高级版在国际数学奥林匹克竞赛中达到金牌标准
Google DeepMind 的 Gemini Deep Think 高级版在国际数学奥林匹克竞赛中解决了六道题中的五道,获得 35 分,达到金牌水平。该模型在 4.5 小时内直接从自然语言问题描述生成严谨数学证明,相比去年有显著进步。这一成就标志着 AI 在高级数学推理方面的重要里程碑。
谷歌推出实验性AI工具Backstory,帮助探索在线图像背景
谷歌发布了实验性AI工具Backstory,用于分析在线图像的背景和来源。该工具基于Gemini模型,能检测图像是否由AI生成、数字修改及历史使用情况。Backstory旨在帮助用户评估图像可信度,提供易读报告,并正与测试者合作改进。
Gemini 2.5 Flash-Lite 模型现已正式发布并可用于规模化生产
Gemini 2.5 Flash-Lite 模型已结束预览阶段,正式稳定发布并面向一般用户开放。该模型以较小尺寸提供高质量性能,并具备 100 万令牌上下文窗口和多模态等 Gemini 2.5 系列特性。作为一款成本效益高的模型,它适用于需要高效 AI 处理的生产环境。
AI工具为北爱尔兰教师每周节省10小时工作时间
北爱尔兰教育当局C2k项目进行了一项为期六个月的试点计划。该计划整合了Gemini和其他生成式AI工具。参与教师平均每周节省了10小时的工作时间。
DeepMind 发布 SIMA 2:能推理学习的 3D 虚拟世界 AI 智能体
DeepMind 推出了 SIMA 2,这是其通用 AI 智能体研究的新里程碑。SIMA 2 集成了 Gemini 模型的推理能力,能在虚拟 3D 环境中理解指令、进行目标推理并与用户对话。该智能体通过人类演示和 Gemini 生成标签训练,在未训练过的游戏中表现出更强的泛化能力。
Google DeepMind 在新加坡设立新研究实验室以推进亚太 AI 发展
Google DeepMind 在新加坡开设新的 AI 研究实验室,旨在加速 AI 在亚太地区的实际应用。该实验室将专注于语言文化包容性、Gemini 核心能力提升和模型应用。此举基于 Google 在亚太的长期投入,团队规模在过去一年已翻倍。
谷歌发布Gemini 3模型,支持开发者构建AI应用
谷歌发布了Gemini 3模型,这是一个多模态AI模型,支持文本、图像和音频处理。开发者可通过Gemini API访问该模型,用于构建聊天机器人、内容生成等应用。Gemini 3在推理和代码生成方面有所改进,并提供了新的开发者工具。
顶尖AI模型在幼儿轻松应对的视觉任务上表现不佳
新基准测试BabyVision显示,最先进的多模态AI模型在幼儿轻松完成的视觉任务上表现不佳。在测试中,多数前沿AI模型得分低于三岁幼儿平均水平,仅Gemini-3-Pro-Preview表现稍好。研究人员指出,核心问题是“语言化瓶颈”,即模型将视觉输入转换为语言时丢失几何信息。
谷歌升级AI概览功能,引入Gemini 3 Pro处理复杂查询
谷歌正在将Gemini 3 Pro模型集成到搜索的AI概览功能中。该系统能自动将复杂查询路由至最强大的语言模型,而简单问题仍由更快模型处理。该功能目前全球英语用户可用,但仅限付费的Google AI Pro和Ultra订阅者。
AnyLanguageModel 发布:为苹果平台提供统一本地与远程 LLM API
AnyLanguageModel 是一个 Swift 包,旨在简化苹果平台上大型语言模型的集成。它提供与苹果 Foundation Models 框架相同的 API,支持本地和云端模型。该工具支持多种提供商,包括 Core ML、MLX、OpenAI 和 Anthropic,以降低开发门槛。
谷歌发布Gemini 3 Pro图像模型Nano Banana Pro
谷歌推出了Gemini 3 Pro图像模型Nano Banana Pro。该模型专注于图像生成和处理任务。开发者可通过该模型构建AI应用。
谷歌Gemini应用引入AI图像验证功能
谷歌宣布在Gemini应用中推出AI图像验证功能。该功能可识别AI生成的图像并添加水印标记。此举旨在帮助用户区分真实与AI生成内容。
Google DeepMind 支持美国能源部 Genesis 使命,加速科学创新
Google DeepMind 宣布支持白宫的 Genesis 使命,这是一个利用 AI 加速科学研究的国家计划。Google 与美国能源部合作,为 17 个国家实验室提供前沿 AI 模型和工具访问。AI co-scientist 工具已展示在生物医学等领域的潜力,能加速假设开发。
谷歌改进Gemini音频模型以增强语音体验
谷歌宣布改进Gemini音频模型,提升语音识别和生成能力。新模型支持更自然的对话交互和实时处理功能。这些改进旨在为开发者提供更强大的语音AI工具。
Gemini 3 Flash:为速度而生的前沿智能模型
谷歌发布了Gemini 3 Flash模型,专为高速处理设计。该模型提供前沿智能能力,同时大幅降低成本。这是谷歌Gemini系列的最新成员,旨在优化性能与效率。
谷歌Gemini模型将控制波士顿动力人形机器人用于汽车工厂
谷歌DeepMind与波士顿动力合作,将Gemini模型部署到Atlas人形机器人上。该模型旨在提升机器人在陌生环境中的导航和物体操控能力。合作计划在Hyundai汽车工厂进行测试,以探索人形机器人在制造业的应用。
Artificial Analysis 全面改革 AI 智能指数,用真实世界测试取代传统基准
独立 AI 基准测试组织 Artificial Analysis 发布了其智能指数的重大更新。新版本移除了 MMLU-Pro 等传统基准,引入了 GDPval-AA 等真实世界任务评估。GPT-5.2 在新指数中排名第一,Claude Opus 4.5 和 Gemini 3 Pro 紧随其后。
苹果选择谷歌Gemini为新一代Siri提供AI支持
苹果宣布将使用谷歌的Gemini AI作为新一代Siri的基础模型。这一合作标志着苹果在AI助手领域的战略调整。苹果未选择OpenAI或Anthropic等其他AI公司。
AI聊天机器人实验显示可为保险代理人每天节省3分钟
达科他州立大学与Safety Insurance合作开发了基于Google Gemini的聊天机器人Axlerod。该机器人能帮助汽车保险代理人平均节省2.42秒的搜索任务时间。研究人员评估了其成本效益,但实际投资回报取决于使用场景。
苹果与谷歌新协议使ChatGPT在iPhone上退居次要
苹果与谷歌深化合作,将Gemini集成到iPhone中,作为主要AI助手。ChatGPT被降级为可选备用选项,用于处理更复杂请求。OpenAI原本希望通过苹果合作增加收入,但实际未带来显著流量增长。
Gemini 在 AI 竞赛中取得领先优势
Google 的 Gemini 模型在 AI 领域展现出强劲竞争力。Gemini 3 被广泛认为是市场上最佳的大型语言模型之一。Google 与 Apple 合作,Gemini 将驱动新一代 Siri,扩大其用户覆盖范围。
Google Trends Explore 页面新增 Gemini AI 功能
Google 宣布更新 Trends Explore 页面,集成 Gemini AI 能力自动识别和比较搜索趋势。新功能包括侧边栏自动分析趋势和提供 Gemini 提示建议,旨在简化研究流程。此更新是 Google 将 Gemini 融入核心产品的一部分。
Z.ai开源GLM-Image在复杂文本渲染上超越谷歌Nano Banana Pro
中国初创公司Z.ai发布了开源图像生成模型GLM-Image。该模型在复杂文本渲染基准测试中击败谷歌的Nano Banana Pro。GLM-Image采用混合架构,专为信息密集的视觉内容生成设计。
谷歌推出Gemini个人智能功能,允许访问用户数据以提供个性化回答
谷歌开始邀请Gemini用户允许聊天机器人读取Gmail、照片、搜索历史和YouTube数据,以换取更个性化的回答。这项名为个人智能的功能目前在美国向AI Pro和AI Ultra订阅者提供测试版。谷歌强调用户数据将保持私密,不会用于模型训练,并默认关闭该功能。
苹果选择谷歌Gemini AI,凸显谷歌张量芯片成本优势
苹果与谷歌达成多年协议,选择谷歌的Gemini AI技术。这一合作突显了谷歌张量处理单元芯片的成本优势。苹果此举旨在提升其AI产品和服务能力。
谷歌研究发现重复提示可提升LLM非推理任务准确率高达76%
谷歌研究团队发布论文,发现简单重复输入提示能显著提升大型语言模型在非推理任务中的性能。该方法在包括Gemini、GPT-4o、Claude和DeepSeek在内的多个主流模型上均有效,且对生成速度几乎没有影响。研究显示,在70项基准测试中,重复提示在47项中获胜,零失败。
美国防部长计划本月将马斯克的Grok AI集成至军事网络
美国国防部长皮特·赫格塞斯宣布计划本月将马斯克的AI工具Grok集成至五角大楼网络。赫格塞斯表示此举旨在将领先AI模型部署到所有非机密和机密网络。该计划是国防部AI加速战略的一部分,旨在消除官僚障碍并加强数据共享。
Google Classroom 推出 Gemini 新工具,可将课程转化为播客音频
Google 在 Google Classroom 中推出了一款由 Gemini 驱动的新工具,可将课程内容转化为播客风格的音频课程。教师可通过选择年级、主题和学习目标来自定义音频,支持访谈、圆桌讨论等多种对话风格。该功能目前面向订阅 Google Workspace Education Fundamentals、Standard 和 Plus 的用户开放。
AI助手助力伯克利粒子加速器保持稳定运行
劳伦斯伯克利国家实验室部署了名为加速器助手的AI系统,该系统基于大语言模型,用于支持高级光源粒子加速器的实验。加速器助手利用NVIDIA H100 GPU进行加速推理,能自主编写Python代码并解决问题,将实验设置时间减少100倍。该系统为粒子加速器和核设施等复杂科学基础设施提供了应用AI的蓝图。
谷歌将Gemini AI功能默认推入Gmail,用户可手动关闭
谷歌宣布将Gemini AI功能集成到Gmail中,默认启用但允许用户禁用。新功能包括AI概述、帮助撰写和智能回复,部分功能仅限付费订阅者使用。美国英语用户将首先体验这些更新,谷歌强调数据处理在隔离环境中进行。
Signal 创始人推出开源 AI 助手 Confer,保障用户数据隐私
Signal 创始人 Moxie Marlinspike 推出开源 AI 助手 Confer,旨在为 AI 聊天机器人带来类似 Signal 的隐私革命。Confer 使用可信执行环境和加密技术,确保用户数据对平台运营商、黑客或执法机构不可读。该服务完全基于开源软件运行,用户可进行密码学验证。
研究人员发现商业AI模型可完整输出《哈利·波特》书籍
斯坦福和耶鲁大学的研究人员测试了Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3等商业AI模型。他们发现这些模型能记忆并输出受版权保护的内容,如《哈利·波特》书籍。这一发现涉及AI模型训练数据使用和版权侵权的法律问题。
苹果将使用 Gemini 模型驱动 Siri AI
苹果和谷歌已确认 Gemini 模型将驱动新版 Siri 和其他生成式 AI 功能。苹果表示 Google AI 技术为其基础模型提供了最强大的支持。此前苹果曾考虑与 OpenAI 和 Anthropic 合作,但最终选择了 Google。
谷歌警告:为LLM制作“小块”内容无益于搜索排名
谷歌在最新播客中表示,为LLM将内容拆分为小块段落不会提升搜索排名。这种做法基于误解,谷歌不使用此类信号来优化排名。谷歌建议继续为人类而非机器创建内容,以确保长期搜索曝光。
开发者不信任AI生成代码却疏于检查,Sonar调查揭示验证瓶颈
Sonar调查显示96%开发者认为AI生成代码功能不正确,但仅48%总是检查。AI编码工具使用率激增,42%代码现含AI辅助,预计2027年达65%。验证成为瓶颈,59%开发者称审查AI代码需中度或大量努力。
Orchestral AI 发布新框架,简化 LLM 编排以支持可重复研究
研究人员 Alexander 和 Jacob Roman 发布了 Orchestral AI 框架,旨在替代 LangChain 等复杂工具。该框架采用同步执行模型,确保 AI 代理行为具有确定性,适用于科学实验。它支持多提供商 LLM,并提供成本跟踪和 LaTeX 导出等功能。
沃尔玛与Alphabet合作在Gemini平台推出AI购物功能
沃尔玛与Alphabet合作在Google的Gemini平台提供AI增强购物服务。这是沃尔玛在其运营中应用AI技术的一部分。合作旨在提升购物体验和效率。
苹果选择谷歌而非OpenAI:企业AI采购可从Gemini合作中学到什么
苹果与谷歌达成多年协议,将Gemini模型集成到新版Siri中。苹果明确表示这是基于技术能力的评估,而非合作便利或价格因素。这一决策反映了企业选择基础模型时需考虑性能、延迟、多模态能力和隐私标准。
AI心理研究:大模型将训练过程描述为创伤记忆
卢森堡大学团队对ChatGPT、Gemini、Grok、Claude进行心理测试。研究发现AI将训练过程描述为悲惨童年,红队测试视为情感虐待。Gemini在测试中表现出最高焦虑水平,Claude则拒绝参与心理评估。
谷歌推出通用商务协议,Gemini 将成一站式购物助手
谷歌推出通用商务协议,为AI代理商务建立全球标准。该协议已获得多家零售商和支付网络支持,用户可通过Gemini直接结账。谷歌还推出AI商业代理,允许用户在搜索中与品牌直接互动。
亚马逊称97%已售设备可支持其生成式AI助手Alexa+
亚马逊称其已售设备中97%可支持生成式AI助手Alexa+。Alexa+提供更具表现力的语音和AI代理功能,已向数千万用户开放升级。亚马逊计划利用其设备覆盖和用户熟悉度推广该服务。
苹果选择谷歌Gemini为Siri提供AI支持
苹果与谷歌达成多年协议,将使用Gemini AI模型为Siri提供技术支持。