2026-06-22 至 2026-06-28 AI 行业动态整理
AI 行业周报 · 2026 年 6 月第 4 周(6/22 - 6/28)
副标题:本周报覆盖 2026-06-22 至 2026-06-28(北京时间周日定时任务触发周期)。本期按“本周发布/报道、有明确日期、可追溯来源”的标准筛选,优先保留官方公告、权威媒体、论文页、GitHub 项目页和一手公司博客;跳过仅为历史背景、无本周发生时间或低可信聚合的内容,共收录 50 条事件。
1. 头部大厂
国外
OpenAI 与 Broadcom 发布 Jalapeño 推理芯片,补齐全栈基础设施版图(6/24)
OpenAI 与 Broadcom 公布首款面向 LLM 推理的自研 Intelligence Processor“Jalapeño”,由 Broadcom 负责硅实现、网络与连接技术,Celestica 参与板卡和机架系统集成;OpenAI 称工程样品已在实验室以目标频率和功耗运行 GPT-5.3-Codex-Spark 等负载,计划 2026 年底开始大规模部署,显示前沿模型竞争继续向自研芯片、网络和数据中心全栈延伸,OpenAI、SiliconANGLE。OpenAI 预览 GPT-5.6 Sol / Terra / Luna,并采用受控分阶段发布(6/26 - 6/27)
OpenAI 预览 GPT-5.6 系列:Sol 面向高强度推理,Terra 强调接近 GPT-5.5 的能力但成本更低,Luna 主打低延迟和高吞吐;多家媒体报道本次先向少量可信伙伴开放,并在美国政府网络安全审查背景下延后全面发布,反映 frontier model 发布正在被安全、治理和政府审查节奏共同塑形,OpenAI、Economic Times、CNBC。Anthropic 推出 Claude Tag,把 Claude 作为 Slack 中可被 @ 的团队成员(6/23)
Anthropic 发布 Claude Tag,先从 Slack 场景切入,让 Claude 以团队成员身份加入频道,并在管理员授权的范围内访问频道、工具、数据和代码库;成员可通过 @Claude 委派任务,Claude 会从团队上下文中规划和执行工作,企业 agent 正从个人对话助手进入“组织协作对象”的形态,Anthropic、The Register。Anthropic Mythos 5 获美国政府许可向部分机构开放,Fable 5 仍受限(6/26 - 6/27)
CNBC、Semafor 与 Bloomberg / Fortune 报道,美国商务部允许 Anthropic 将 Mythos 5 向约 100 家可信公司和联邦机构开放,但更强或更敏感的 Fable 5 仍因出口管制和国家安全审查暂停;这与 OpenAI GPT-5.6 的受控发布构成同一趋势:最强模型进入“可信客户名单 + 政府审查”的新发布范式,CNBC、Semafor、Fortune。Anthropic 更新隐私政策,少量风险账号可能需上传身份证件与自拍验证(6/22)
TechCrunch 报道 Anthropic 在隐私政策更新中说明,针对少量被标记为潜在欺诈的账户,Claude 可能要求上传政府签发身份证件、自拍或视频,并生成数字化人脸模板;随着 AI 服务进入付费、企业和高风险能力场景,身份验证、欺诈防控与隐私边界会成为模型产品的基础运营能力,TechCrunch。Claude 付费消费者增长继续被市场关注(6/25)
TechCrunch 报道,第三方数据公司 Indagari 观察到 Claude 付费用户与收入自 2026 年初以来保持快速增长,正在切入原本由 ChatGPT 主导的消费者付费市场;模型产品竞争不再只有企业 API 和开发者市场,个人订阅用户的留存、口碑和高频工作流也成为关键指标,TechCrunch。Google 将 computer use 原生集成到 Gemini 3.5 Flash(6/24)
Google 宣布 Gemini 3.5 Flash 原生支持 computer use,可让 agent 看到、推理并操作浏览器、移动端和桌面界面,并与 Search grounding、Maps、function calling 等工具结合;此前独立的 computer-use 能力被整合进轻量多模态模型,表明大厂正把“看屏幕、点按、输入、滚动”的 GUI agent 能力产品化为标准 API,Google Blog、The Next Web。Google AI Studio Interactions API 正式 GA,成为 Gemini 与 agents 的主接口(6/22)
Google 宣布 AI Studio 的 Interactions API 一般可用,并将其作为 Gemini API 与相关文档中的主要交互接口;新接口强调 managed agents、远程 Linux 沙箱、工具调用和更完整 schema,显示 Google 正把 Gemini 从单次 generateContent 推向更标准化的 agent runtime 与开发接口,Google Blog。Google Workspace 6 月更新扩展 Drive、Sheets 与 Gmail 中的 Gemini 能力(6/25)
Google Workspace 发布 June feature drop,新增 Sheets 公式错误诊断与修复、Drive / Gmail 等办公场景的 Gemini 更新;办公套件里的 AI 正从“帮写内容”扩展到“诊断数据、修复公式、理解文件与工作流”的嵌入式助手,Google Workspace Blog。Meta 发布自有品牌 AI 智能眼镜,并搭载 Muse Spark 多模态模型(6/23)
Meta 发布 Adventurer、Fury 和 Starfire 等自有品牌智能眼镜,价格从 299 美元起,并由 Meta Superintelligence Labs 的 Muse Spark 模型提供实时问答、翻译、导航和任务管理能力;AI 硬件入口竞争继续从手机应用延伸到可穿戴设备,MacRumors、SiliconANGLE。Meta 从 AI 安全公司 Virtue AI 吸纳核心人才,扩充 Superintelligence Lab(6/26)
媒体报道 Meta 正将 Virtue AI 的 Bo Li、Dawn Song、Sanmi Koyejo 等 AI 安全人才纳入 Superintelligence Lab,加强其在安全、模型评测与 agent 风险治理方面的能力;前沿模型公司的人才竞争已经从模型训练扩展到安全、评测和治理体系,Times of India。Apple Vision Pro 高管被报道转投 OpenAI 硬件团队(6/27)
TechCrunch 援引 Bloomberg 报道称,负责 Vision Pro 的 Apple VP Paul Meade 将加入 OpenAI 硬件团队;他也被称曾负责 Apple 计划中的 AI 智能眼镜开发。OpenAI 在模型和芯片之外继续补齐消费硬件与空间计算人才,AI 入口之争正在变成模型、设备和交互体验的综合竞争,TechCrunch。
国内
火山引擎发布豆包 2.1 Pro,强调 Coding 与 Agent 能力跨越“质变点”(6/23)
字节跳动 / 火山引擎在 FORCE 原动力大会发布豆包大模型 2.1 及 Pro、Turbo 等版本,并同步升级面向 Agent 的云服务体系;报道称 2.1 Pro 在 Coding、Agent 和 VLM 等方向显著提升,并推出面向 Coding 与 Agent 快速迭代的 Seed-Evolving 版本,国内大厂竞争继续向“模型 + 云 + Agent 工程能力”一体化推进,腾讯新闻、网易。字节跳动集中发布 Seedance 2.5、Seedream 5.0 Pro 与豆包音频生成模型等多模态能力(6/23)
同一场发布中,字节披露 Seedance 2.5 原生 4K 视频、Seedream 5.0 Pro、豆包音频生成模型 1.0 等多模态能力,强调 30 秒视频、最多 50 种参考输入、音频一致性和视频/图像/语音协同;国内大厂多模态竞争进入“模型族 + 创作工具 + 云端 API”打包阶段,网易、The Next Web。阿里 AI 大重组:成立 Token Foundry,吴泳铭挂帅,周靖人升任首席科学家(6/25)
36氪报道阿里巴巴合并通义大模型事业部与未来生活实验室,成立 Token Foundry,由 CEO 吴泳铭亲自挂帅,聚焦 Token 全生命周期的自研与应用;周靖人升任阿里巴巴首席科学家,并牵头 AI 未来研究院。阿里 AI 战略从模型发布进入组织、产品、研究和商业闭环重构,36氪。百度 Unlimited OCR 发布后登顶 GitHub Trending,成为增长最快开源项目之一(6/26)
网易报道百度开源端到端 OCR 模型 Unlimited OCR,面向长文档解析,参数规模 3B、推理时激活参数约 570M,并在发布后迅速登上 GitHub Daily Trending 与 Python 榜;OCR 与文档理解继续成为企业知识库、RAG 和自动化办公的重要基础模型能力,网易。
2. 创业公司
国内
Kimi / 月之暗面被曝洽谈新一轮最高约 20 亿美元融资,估值目标约 300 亿美元(6/28)
36氪报道月之暗面正推进新一轮融资,规模最高可达约 20 亿美元,目标估值约 300 亿美元,并与赴港 IPO 预期相互强化;报道同时提到其 ARR、订阅/API 收入和 Kimi 智能助手生态扩展,国内大模型头部公司正在同时争夺资本窗口、商业化证明和上市路径,36氪。Kimi 披露海外付费、API 与 AWS 合作进展,强调企业级 AI 落地(6/25)
21 财经报道月之暗面黄震昕表示,Kimi 海外付费用户增长、API 收入提升,业务覆盖 200 多个国家和地区,并通过 AWS 等合作伙伴推进企业落地;国内 AI 独角兽正在从 C 端爆款应用转向 B 端行业场景、海外市场和合规生态,21 财经。MiniMax 启动 A 股上市辅导,国内大模型公司资本化提速(6/25)
36氪报道 MiniMax 已向上海证监局提交上市辅导备案,中信证券担任辅导机构;智谱、MiniMax、月之暗面、阶跃星辰等国内头部大模型公司陆续出现港股、A 股或 Pre-IPO 相关动作,说明“AI 第一股”竞争正在进入公开市场定价和监管合规阶段,36氪、36氪。
海外
General Intuition 完成 3.2 亿美元 A 轮,押注游戏数据训练 action foundation models(6/26)
Axios 报道 General Intuition 完成 3.2 亿美元 A 轮融资,投后估值约 23 亿美元,由 Khosla Ventures 领投,General Catalyst、Eric Schmidt、Jeff Bezos 等参投;公司用游戏视频与玩家输入训练可感知环境并实时行动的大型动作基础模型,Physical AI 与世界模型继续吸引大额资本,Axios、Economic Times。Patronus AI 完成 5000 万美元 B 轮,构建用于压力测试 AI agents 的数字世界(6/25)
TechCrunch 报道 Patronus AI 完成由 Greenfield Partners 领投的 5000 万美元 B 轮,总融资达 7000 万美元;公司计划构建“digital worlds”来模拟、评测和压力测试 AI agents,表明 agent 安全与可靠性评测正在成为独立基础设施赛道,TechCrunch。Engram 携 9800 万美元融资亮相,主打组织级记忆层(6/23)
Engram 宣布获得 9800 万美元融资,投资方包括 General Catalyst、Kleiner Perkins、Sequoia Capital 等,目标是构建真正理解组织知识、流程和上下文的 AI;企业 AI 竞争正在从单点问答转向“组织记忆 + 权限 + 工作流”的长期系统,PR Newswire。Coval 完成 2800 万美元 A 轮,聚焦自主语音 agents 的可靠性评测(6/24)
Coval 宣布获得 2800 万美元 A 轮融资,由 Norwest 领投,Base10 Partners、Twilio Ventures、Y Combinator 参投;其平台用于模拟、观察、标注和规模化评测 voice AI,语音 agent 从 demo 走向客服、销售和运营生产环境后,可靠性评估成为刚需,PR Newswire。Sail Research 完成 8000 万美元融资,建设长程 AI agents 基础设施(6/27)
Pulse 2.0 报道 Sail Research 完成种子轮和 A 轮合计 8000 万美元融资,投后估值约 4.5 亿美元,投资方包括 Kleiner Perkins、Sequoia、Redpoint、Theory、CRV 等;长程任务、可观测性、工具权限和执行可靠性正在成为 agent 基础设施融资关键词,Pulse 2.0。Taktile 获 Goldman Sachs 领投 1.1 亿美元 C 轮,面向金融机构 agentic decision platform(6/24)
Taktile 宣布完成 1.1 亿美元 C 轮融资,由 Goldman Sachs 领投,用于扩展其面向银行与保险机构的 Agentic Decision Platform;金融行业 AI 落地继续围绕风险决策、合规、模型治理和高可控自动化展开,aVenture News。
3. 基础模型(含视频 / 多模态 / 开源)
ByteDance Seedance 2.5 展示 30 秒原生 4K 视频生成与 50 个参考输入控制(6/23)
The Next Web 报道,字节跳动在火山引擎 FORCE 大会上展示 Seedance 2.5,支持 30 秒原生 4K 视频生成、最多 50 个多模态参考输入,并可结合风格、动作、构图和 3D 参考进行控制;视频生成竞争正在从短片段画质进入长时长、一致性和可控创作工作流,The Next Web、Caixin Global。豆包音频生成模型 1.0 发布,支持多模态输入与长文本语音一致性(6/23)
火山引擎发布 Doubao Audio Generation Model 1.0 / Doubao-Seed-Audio 1.0,支持文本、音频或组合输入,并强调长内容中的音色一致性;生成式音频正在从 TTS 扩展到参考音频、长篇播客、视频配音和多模态内容生产,IT News。HappyHorse 1.1 接入 ComfyUI,主打音频原生视频生成(6/24)
Creative AI News 报道 HappyHorse 1.1 成为 ComfyUI 内置合作节点,支持文本到视频、图像到视频和参考到视频,并在同一渲染流程中生成对白、音效和画面;多模态创作工具正在从“画面先行、音频后配”转向音画同步的原生生成,Creative AI News。Wan-Streamer v0.1 提出全双工音视频流式多模态模型,目标 200ms 模型侧延迟(6/25)
报道称 Wan-Streamer v0.1 采用单一 Transformer 处理文本、音频和视频输入输出,面向端到端全双工音视频交互,并声称可达到 200ms 模型侧延迟;实时多模态交互正在成为视频通话、虚拟人和实时 agent 的关键模型方向,gentic.news。Sonilo 在 fal.ai 上发布带商业授权的视频配乐生成器(6/22)
Sonilo 发布视频到音乐生成器,可分析视频节奏、运动和情绪弧线,并生成与视频时长匹配、可商用授权的配乐;AI 音乐赛道正从通用音乐生成走向面向视频工作流的授权、安全和可交付产品,Siam News Network。
4. 论文与研究进展
MEMPROBE 提出通过隐藏用户状态恢复来审计 agent 长期记忆(6/23)
arXiv 论文“MEMPROBE: Probing Long-Term Agent Memory via Hidden User-State Recovery”提出可扩展 benchmark,通过模拟用户任务后从 agent memory 中恢复隐藏用户状态,以评估长期记忆是否泄露或过度保留敏感信息;长期记忆成为个人助手和企业 agent 的核心能力后,记忆审计将与性能评估同等重要,arXiv。Confidence-Aware Tool Orchestration 研究面向视频理解的置信度感知工具编排(6/25)
论文指出视频推理模型在模糊、眩光、遮挡等扰动下存在“盲目信任”问题,提出通过置信度感知的多工具编排提升鲁棒性;多模态 agent 不仅要能调用工具,还需要知道何时不信任低质量证据并切换或复核工具,arXiv。UniDrive 提出统一视觉语言与 grounding 框架,用于自动驾驶风险理解(6/23)
UniDrive 结合时间推理分支和高分辨率感知分支,通过 gated cross-attention 融合动态上下文与空间细节,用于可解释风险理解;自动驾驶 VLM 研究继续从感知识别转向“为什么有风险、风险在哪、如何解释”的可审计理解,arXiv。LeanGuard 质疑安全 guardrails 是否必须推理,提出轻量 label-only moderation(6/25)
“Do Safety Guardrails Need to Reason? LeanGuard”比较轻量 label-only encoder 与带推理的安全模型,认为小模型在鲁棒 moderation 上可达到或超过推理型 guardrails,同时大幅降低成本;安全系统可能走向“前置轻量筛查 + 必要时升级重模型”的分层架构,arXiv。Active Inference 论文把测试时缩放引入 Physical AI agents(6/22)
“Active Inference as the Test-Time Scaling Law for Physical AI Agents”提出 agent 在测试时持续通过软贝叶斯推理更新策略、最小化预测误差,以适应非平稳和未知环境;Physical AI 的 test-time compute 可能不只是更多思考 token,也包括在线策略更新和环境反馈闭环,arXiv。dVLA-RL 将强化学习作用于离散扩散 VLA 模型的去噪轨迹(6/22)
“dVLA-RL”针对 vision-language-action 模型提出在离散扩散去噪轨迹上进行强化学习,而不是只优化最终动作输出;机器人基础模型研究正在把扩散生成、语言条件和动作策略优化结合起来,arXiv。
5. 开源项目与社区讨论(GitHub trending 热门项目、HN / X 热门话题)
GitHub 6 月热门项目继续被 AI agents 与开发者基础设施占据(6/24 - 6/26)
StartupCorners 与 Refft 的 GitHub Trending 跟踪显示,热门项目集中在 agent framework、orchestration、codebase memory、context compression、browser grounding 和开发者自动化;开源社区从“封装模型 API”转向“运行、治理、记忆、压缩和工具化 agent 系统”,StartupCorners、Refft。OpenMontage、codebase-memory-mcp 等项目登上趋势榜,视频自动化与代码记忆受关注(6/23 - 6/26)
Refft 多日 trending 页面显示,OpenMontage 主打低成本、agentic 的视频制作工作流,DeusData/codebase-memory-mcp 则提供本地代码知识图谱与跨文件理解能力;AI 工具的增长热点正在落到具体生产工作流:视频内容生产和大代码库理解,Refft 6/23、Refft 6/26。HN 讨论亚洲 AI 初创公司发布 Mythos-like 模型,社区关注性能、可信度与成本(6/27)
Hacker News 线程围绕亚洲 AI 创业公司发布类 Mythos 级模型展开,讨论 DeepSeek、Z.ai、Qwen、Mistral 等模型能力、benchmark 可信度、训练成本和商业化路径;社区对新模型发布的关注点正从 headline 能力转向可验证评测、价格和开放程度,Hacker News。生产 AI agents 的社区话题从“选哪个模型”转向“可靠性如何保障”(6/23)
Workflow Builder 汇总 HN、Reddit 与从业者讨论,指出 2026 年生产 agent 的核心问题已从模型能力排名转向可靠性、回滚、监控、权限边界、失败处理和可重复执行;这与本周 agent 评测、网关、控制平面融资/发布形成共振,Workflow Builder。研究显示可用 Reddit 内容操纵 AI deep-research / search 结果(6/23)
Help Net Security 报道 Cornell Tech 研究发现,少量用户生成文本就可能影响会搜索 Web 并引用来源的 AI deep-research agents;当 AI 报告依赖社区内容和检索排序时,source poisoning、低质量引用和可操纵语料将成为实际安全问题,Help Net Security。欧洲开放模型 Apertus 引发 HN 对主权 AI 的讨论与怀疑(6/22)
Developers Digest 文章总结 Apertus 作为 EPFL、ETH Zurich 与 CSCS 推动的欧洲开放基础模型,强调训练数据透明、EU AI Act 合规与可复现研究基础设施;HN 社区则围绕其性能、资金、开放程度和主权 AI 实用性展开讨论,Developers Digest。
6. 其他趋势(监管、法律、AI 基础设施工具、行业应用、裁员等)
Modal 发布 Auto Endpoints,提供 OpenAI API 兼容、自主管理的推理端点(6/23)
Modal 宣布 Auto Endpoints,定位为团队可自主拥有和优化的生产级 LLM 推理平台,兼容 OpenAI API,并强调成本、性能和开发速度;推理平台竞争正在从“托管模型”转向“可控端点、成本优化和基础设施所有权”,Modal。Envoy AI Gateway v1.0 发布,推动企业 AI 流量治理标准化(6/23)
Tetrate、Bloomberg 和 Nutanix 宣布 Envoy AI Gateway v1.0,基于 CNCF Envoy Gateway,提供跨主要 AI provider 的统一 API、流量管理和企业级网关能力;随着企业接入多模型、多供应商,AI traffic gateway 正成为安全、成本和可观测治理层,PR Newswire。Modelplane 开源 AI inference control plane,统一调度 GPU inference fleet(6/23)
Modelplane 发布开源控制平面,用于在自有环境中管理 GPU 集群、模型放置、autoscaling、权重缓存和 OpenAI-compatible routing;Upbound 也宣布该项目基于 Crossplane 打造 vendor-neutral inference fleet orchestration,说明推理基础设施进入“跨集群控制平面”阶段,Modelplane、GlobeNewswire。Vercel 发布 AI SDK 7,强化 TypeScript AI 应用、agents 与工具构建接口(6/25)
Vercel 宣布 AI SDK 7,面向 AI applications、agents 和 tools 提供更完整的 TypeScript API,并与其 eve agent framework 叙事结合;前端和全栈开发者生态正在把 agent、tool calling、streaming UI 和部署体验整合成统一开发套件,Vercel。Kubex 集成 KAI Scheduler,用于 Kubernetes 共享 GPU 推理调度(6/24)
Kubex 宣布支持 KAI Scheduler,提供 shared GPU placement、rightsizing、monitoring、rebalance 和 consolidation 能力;大模型推理成本压力下,GPU 共享、调度和自动优化成为企业基础设施团队的重要降本方向,Kubex。美国加州和康涅狄格推进 workplace AI 与自动化裁员监管(6/22 - 6/25)
多篇法律与 HR 领域报道指出,加州正研究 AI / automation-driven layoffs 的 WARN Act 扩展与政府 tracker,康涅狄格通过 AI Transparency Act / CART Act,要求雇主在自动化就业决策工具成为重要因素时进行披露;AI 监管正在从模型开发端下沉到招聘、裁员和劳动关系流程,HR Executive、Pillsbury、Licentium。欧盟 Digital Omnibus 被报道推迟部分 AI Act 高风险义务,透明度义务仍按期推进(6/25)
Bruno Digital 报道欧洲议会 Digital Omnibus 投票削弱并推迟部分 AI Act 高风险义务,Annex III 高风险要求延至 2027 年,嵌入监管产品中的高风险义务延至 2028 年,但 Article 50 透明度义务仍在 2026 年 8 月 2 日生效;监管节奏出现“放缓高风险合规、保留透明披露”的折中,Bruno Digital。NYT 在版权诉讼中指控 Microsoft 为 OpenAI 构建侵权训练超级计算机(6/26)
Ars Technica 报道,纽约时报在对 OpenAI 与 Microsoft 的版权诉讼中提交更新后的修订文件,指控 Microsoft 为 OpenAI 构建定制超级计算机,以未经许可训练模型;AI 版权诉讼正在从“是否抓取内容”扩展到“云基础设施和合作伙伴是否共同促成侵权”的责任边界,Ars Technica。