概览
要闻
- OpenAI 推出 GPT-5.6 系列模型,应美国政府要求暂限特定合作伙伴预览使用 ↗
#1 - Anthropic 模型 Mythos 5 获准重新向美关键基础设施组织开放 ↗
#2 - Codex 团队调查额度异常消耗,为所有用户免费重置额度 ↗
#3
模型发布
- 图像生成模型 Un-0 开源,采用耦合振荡器物理计算架构 ↗
#4
开发生态
- Google AI Studio改进Gemini TTS音频流功能 ↗
#5 - Google AI Studio 推出 Design Variations 功能 ↗
#6 - Nous Research 推出 Hermes Agent MoA 2.0 ↗
#7 - 微博上线命令行工具 weibo-cli ↗
#8
产品应用
技术与洞察
- Epoch AI 推出 MirrorCode 测试评估 AI 端到端程序重写能力 ↗
#11 - XLANG Lab 推出 OSWorld 2.0 基准测试 ↗
#12 - Anthropic 发布 Economic Index 报告揭示 Claude 使用规律 ↗
#13
行业动态
- Linux Foundation 推出 Akrites 项目应对开源软件安全威胁 ↗
#14 - AIIA启动词元服务工作组筹备工作 ↗
#15 - California Policy Lab 推出全美首个 AI 失业追踪器 CAIT ↗
#16
要闻
OpenAI 推出 GPT-5.6 系列模型,应美国政府要求暂限特定合作伙伴预览使用 #1
OpenAI 发布了 GPT-5.6 系列模型,采用以数字代表代际、天体名称代表{模型能力档位|"模型能力档位"}的新命名规则,涵盖旗舰级 Sol、均衡级 Terra 和经济级 Luna。旗舰模型 Sol 引入了利用多个 subagent 并行处理复杂任务的 ultra 模式,并在 Terminal-Bench {2.1|二点一}编程基准测试中创下新纪录,Terra 性能比肩上代 GPT-5.5 但价格减半,Luna 则主打低成本与高吞吐。应美国政府要求,该系列目前未按原计划全面开放,而是仅面向一小部分受信任的合作伙伴在 Codex 和 API 中进行有限预览,官方称正与政府合作,争取在未来几周内实现全面可用。
OpenAI 宣布启动 GPT-5.6 系列模型的有限预览(limited preview),首批包括三款模型:旗舰模型 Sol、均衡型模型 Terra,以及主打高速和低成本的 Luna。OpenAI 原本计划更开放地发布这一系列模型,但应美国政府要求,现阶段只先向少数受信任合作伙伴开放,并通过 Codex 和 API 提供访问。公司表示,正在与政府合作,争取在未来几周内让 GPT-5.6 Sol、Terra 和 Luna 更广泛地面向 ChatGPT、Codex 和 API 用户开放。
Sam Altman 表示,针对能力显著提升的新模型设置更长的红队测试和试用期有一定合理性,也符合 OpenAI 一贯的迭代部署思路;但他不认同由政府来决定哪些客户可以优先获得访问权限。OpenAI 在官方博客中称,公司正与美国政府合作,争取在未来几周内让 GPT-5.6 系列更广泛可用,并推动形成更透明、可靠、可重复的模型发布流程。据 Axios 报道,首批获得访问权限的合作伙伴约为 20 家,OpenAI 预计下周扩大到更多客户,但普通 ChatGPT 用户的具体可用时间尚未公布。
GPT-5.6 也带来了新的命名体系。数字代表模型代际,Sol、Terra 和 Luna 则代表相对固定的能力档位,分别对应更高智能、更均衡的性能与成本,以及更低成本的高吞吐使用场景。OpenAI 称,Sol 是新的旗舰模型,相比 GPT-5.5 有显著提升;Terra 提供接近 GPT-5.5 的性能,但成本降低一半;Luna 则以最低成本提供较强的基础能力。API 定价按每百万 token 计算:Sol 输入 5 美元、输出 30 美元;Terra 输入 2.5 美元、输出 15 美元;Luna 输入 1 美元、输出 6 美元。GPT-5.6 还引入了更可预测的 prompt 缓存机制,支持显式缓存断点,缓存寿命至少 30 分钟。
在能力方面,GPT-5.6 Sol 新增 max 推理强度,让模型能够投入更长时间进行深度思考;同时引入全新的 ultra 模式,通过调用多个 subagent 并行处理复杂任务,加快任务拆解与执行。OpenAI 公布的数据显示,在测试复杂命令行工作流的 Terminal-Bench 2.1 基准上,Sol Ultra 得分 91.9%,Sol 得分 88.8%,高于 Claude Mythos 5 的 88.0% 和 Gemini 3.1 Pro Preview 的 70.7%。在生物学工作流 GeneBench v1 上,Sol 在使用更少输出 token 的情况下取得了优于 GPT-5.5 的结果。OpenAI 还计划于 7 月在 Cerebras 硬件上推出 GPT-5.6 Sol,最高推理速度可达每秒 750 个 token,初期同样面向部分客户开放。
OpenAI 称,Sol 是公司迄今网络安全能力最强的模型,能够处理漏洞研究、漏洞利用分析等长周期安全任务。在 ExploitBench 基准上,Sol 使用约三分之一的输出 token,就达到了与 Mythos Preview 相当的表现。根据 OpenAI 的准备框架评估,GPT-5.6 系列在网络安全能力上被归入“高”级别,但没有越过“关键”阈值。测试显示,Sol 能够识别浏览器漏洞和利用原语,但在测试条件下未能自主完成完整的端到端攻击链。
为降低高能力模型带来的风险,OpenAI 称其为 GPT-5.6 系列部署了迄今最强的安全防护体系,包括模型内置拒绝机制、生成过程中的实时检测、账号层面的风险信号、差异化访问控制、持续监控和人工复核等。公司还投入超过 70 万个 A100 等效 GPU 小时进行自动化红队测试,重点寻找能够跨场景通用的越狱攻击。对于网络安全和生物学等高风险领域,系统会在生成过程中检测潜在滥用行为;一旦发现风险,输出可能会被暂停,并交由更强的推理模型复审。



相关链接:
Anthropic 模型 Mythos 5 获准重新向美关键基础设施组织开放 #2
Anthropic 官方宣布,其模型 Claude Mythos 5 获美国政府批准,正重新向部分负责防御关键基础设施的美国组织恢复访问,同时将继续与政府合作推进 Fable 5 恢复开放。
Anthropic 官方表示,自6月12日以来,其团队一直与美国政府密切合作,以恢复对 Claude Mythos 5 和 Fable 5 的访问权限。目前,美国政府已通知 Anthropic,其官方称为最强网络安全模型的 Mythos 5,可以重新部署给一组运营和防御关键基础设施的美国组织。Anthropic 正在迅速为这些特定组织恢复访问权限,并继续与政府合作,以进一步扩大 Mythos 5 的访问范围。此外,Anthropic 仍在努力与政府协作,使 Fable 5 能够再次供普遍使用。

相关链接:
Codex 团队调查额度异常消耗,为所有用户免费重置额度 #3
针对 Codex 用户反馈的额度异常消耗问题,官方团队已介入调查。作为应对方案,官方宣布为全体用户提供一次免费的额度重置,预计在未来几个小时内生效。
Codex 团队正在调查部分账户出现的额度消耗速度快于预期的问题,官方称这可能与防范滥用和欺诈机制的过度标记有关。目前,团队已应用了部分缓解措施,并表示初步调查尚未显示用户受到广泛影响。作为应对方案,官方宣布为所有 Codex 用户提供一次免费的额度重置,预计将在未来几个小时内显示在账户中。不过,社区中仍有用户反馈其限额消耗速度异常加快。

相关链接:
模型发布
图像生成模型 Un-0 开源,采用耦合振荡器物理计算架构 #4
Unconventional AI 官方发布并开源了图像生成模型 Un-0。该模型由模拟的耦合振荡器物理系统驱动,官方称 Un-0 目前仍落后于传统模型,但其最终目标是探索利用物理计算基板将现代 AI 的能耗降低约 1000 倍。
Unconventional AI 官方发布了图像生成模型 Un-0,并全面开源了其模型权重、训练及消融代码。该模型由模拟的耦合振荡器物理动力系统驱动,官方称其在 ImageNet 64x64 基准上达到 FID 6.74,匹配了领先的常规图像生成方法首次发布时的质量。官方同时表示,在参数规模扩大时,Un-0 目前仍落后于后期高性能的传统模型,但其最终目标是探索利用物理计算基板将现代 AI 的能耗降低约 1000 倍。

相关链接:
- https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/
- https://github.com/unconv-ai/Un-0
开发生态
Google AI Studio改进Gemini TTS音频流功能 #5
Gemini TTS音频流功能已改进,在降低延迟的同时保留了完整的声音表现力与内联音频标签,用户现可在Google AI Studio中体验。
Google近期对Gemini TTS的音频流功能进行了改进。此次更新降低了音频流的延迟,同时保留了完整的声音表现力以及内联音频标签(例如带有情绪色彩的“[laughs excitedly]”)。目前,该功能已可供使用,用户可以直接在Google AI Studio中尝试。

相关链接:
Google AI Studio 推出 Design Variations 功能 #6
Google AI Studio 推出 Design Variations 功能。该功能现已上线,允许用户一键生成、探索并应用全新的 UI 布局,解决在提示词中描述美学的难题。
Google AI Studio 官方宣布推出 Design Variations 功能。该功能提供了一个专门的按钮,允许用户通过单次点击即时生成、探索并应用美观的新 UI 布局。此举旨在解决用户在提示词中准确描述美学风格的困难,官方表示用户即日起即可在 AI Studio 中尝试该功能。

相关链接:
Nous Research 推出 Hermes Agent MoA 2.0 #7
Nous Research 团队宣布在 Hermes Agent 中推出 Mixture of Agents 2.0,该功能允许将任意提供商的模型组合为虚拟模型,通过并行执行得到最优效果。官方称其在即将发布的 HermesBench 测试中表现优于 Opus 4.8 和 GPT-5.5。
Nous Research 开发者 Teknium 宣布在 Hermes Agent 中引入 Mixture of Agents 2.0,允许用户将任意提供商的模型组合为自定义的虚拟模型。官方称,通过并行运行 Opus 与 GPT 等参考模型,该功能在即将推出的 HermesBench 测试中,性能比 Opus 4.8 高出 8%,比 GPT-5.5 高出 11%。混合运行多个模型会产生额外开销,Teknium 补充该方案并非模型路由,而是并行执行等待最慢模型,组合 Opus 与 GPT 的实际成本约为 Opus 的 1.5 倍。团队目前正在测试开源模型的组合方案,期望以更低成本达到顶级模型的效果。

相关链接:
- https://x.com/Teknium/status/2070615003674366277
- https://x.com/NousResearch/status/2070610321278988385
微博上线命令行工具 weibo-cli #8
微博开放平台上线官方命令行工具 weibo-cli。该工具专为开发者和 AI Agent 打造,支持 MCP 即插即用,目前提供 7 天免费试用。
微博开放平台正式上线其官方命令行工具 weibo-cli,专为开发者和 AI Agent 打造。该工具支持 70+ API 一键调用、结构化输出以及内置 OAuth 与设备码登录,并原生设计支持 MCP 即插即用。目前,官方为用户提供 Free 套餐的 7 天免费试用。

相关链接:
产品应用
ChatGPT 上线新STT模型及网页端编辑器更新 #9
ChatGPT 发布本周公告,宣布网页端现支持通过 @ 快速连接外部服务,同时上线了新版语音识别模型,提升了中文在内的多语言和口音识别准确性,移动端侧边栏也进行了简化优化。
ChatGPT 团队成员 Adam Fry 公布了本周功能更新。新版语音识别模型在转录不同语言和口音时更加准确,重点改善了日语、韩语、中文、乌尔都语和越南语的支持。网页端编辑器经过刷新,新的 Plus 菜单支持通过输入 @ 快速连接 Gmail、Calendar、Slack、Notion 等服务及 Web Search、Imagegen 等工具。移动端侧边栏简化了设计并刷新图标与排版,现以浮层形式打开不再完全遮挡对话内容,iOS 端新增开关侧边栏时的触觉反馈。Adam Fry 同时确认团队正在改进聊天搜索功能,并对移动端账户切换需求表示认可。

相关链接:
新华社发布时政AI智能体“新华语典” #10
由新华社主导、新华网运营的时政AI智能体“新华语典”正式发布。该产品依托官方权威数据,提供智能问答、专属订阅及公文撰写等功能。
官方称,由新华社主导、新华网运营的时政领域AI智能体“新华语典”正式发布。该产品基于建社95年积累的海量权威数据构建了低幻觉技术路径,集成了智能问答、订阅推送、知识库和智能体广场四大模块。其提供动态溯源查证、定制化舆情简报以及风格化公文撰写等七大功能,主要面向政务工作者提供信息处理与文稿起草辅助。
相关链接:
技术与洞察
Epoch AI 推出 MirrorCode 测试评估 AI 端到端程序重写能力 #11
Epoch AI 与 METR 合作发布了长周期编码基准测试 MirrorCode,用于评估 AI 在无原始源代码访问的情况下端到端重新实现整个程序的能力,同时公开了相关论文和开源代码库。
Epoch AI 与 METR 共同开发了长周期软件工程基准测试 MirrorCode,要求 AI 模型在沙盒环境中根据程序的执行权限、文档和行为测试用例,从零开始重新实现整个程序,并通过包括保留测试在内的端到端测试来评分。该基准包含 25 个跨 Unix 实用工具、数据序列化、生物信息学、解释器、静态分析、密码学和压缩等领域的目标程序,支持六种编程语言共 132 个任务实例;目前 Claude Opus 4.7 以 56% 的得分领先。Epoch AI 已将 25 个程序中的 22 个作为开源发布,保留 3 个作为私有测试集,官方同时指出由于任务涉及重新实现开源程序,数据污染可能导致性能虚高。


相关链接:
- https://epoch.ai/MirrorCode
- https://github.com/epoch-research/MirrorCode
- https://epoch.ai/files/MirrorCode_8ae911f.pdf
XLANG Lab 推出 OSWorld 2.0 基准测试 #12
XLANG Lab 推出 OSWorld 2.0 基准测试,专注评估 Agent 在长周期真实世界任务中的表现。官方数据显示,在此前沿测试中,表现最好的 Claude Opus 4.8 完成率也仅为 20.6%。
XLANG Lab 正式推出了 OSWorld 2.0 基准测试,包含论文、代码与开源数据集。该基准针对 Agent 处理长周期复杂真实任务的能力,共设有 108 项涵盖多个专业领域的工作流,熟练人类用户的平均完成时间约为 1.6 小时,而 Agent 平均需要约 318 次工具调用。官方数据显示,在 500 步限制下,表现最好的 Claude Opus 4.8 完成率仅为 20.6%,而 GPT-5.5 稳定在 13% 左右。

相关链接:
- https://osworld-v2.xlang.ai/
- https://github.com/xlang-ai/OSWorld-V2
- https://github.com/xlang-ai/OSWorld-V2/raw/main/OSWorld2.0.pdf
Anthropic 发布 Economic Index 报告揭示 Claude 使用规律 #13
Anthropic发布最新Economic Index报告揭示Claude使用规律。数据显示,高薪职业相关的Agent任务消耗更多算力,并赋予AI更高自主权。对受访者的调查表明,高度依赖自动化的用户反而对薪酬与职业前景最为乐观。
Anthropic 发布了最新的 Economic Index 报告,通过小时级采样和新的产出分类器,分析了用户在 Claude chat、Cowork 和 Claude Code 中的使用模式。官方数据显示,Claude 的使用随工作日和日常作息波动,且高薪职业的任务消耗的算力与自主性更高。对约 9700 名用户的调查显示,受访者普遍预期明年 AI 能承担更多工作,而高度依赖自动化的用户对薪酬和职业发展反而最乐观。

相关链接:
行业动态
Linux Foundation 推出 Akrites 项目应对开源软件安全威胁 #14
为应对AI带来的开源安全威胁,Linux Foundation联合多家科技巨头推出Akrites项目。该项目建立共享的{安全事件响应团队|"安全事件响应团队"}与{协调漏洞披露流程|"协调漏洞披露流程"},用于集中解决AI快速扫描带来的漏洞重复报告和维护者超载问题。
The Linux Foundation 联合 AWS、Microsoft、Google 等多家科技与金融行业领导者宣布推出 Akrites 项目。该项目建立了一个共享的安全事件响应团队(SIRT)和单一标准化的协调漏洞披露(CVD)流程,以应对前沿 AI 模型在数分钟内发现开源软件漏洞所引发的重复报告和维护者超载问题。项目采用 TLP 2.0 协议确保保密性,修复补丁将流回项目原始位置,若关键组件缺乏维护者,Akrites 将作为最后手段的维护者。Linux Foundation 旗下的 Alpha-Omega 基金将为此提供种子资金,相关组织可通过贡献资源或资金申请参与。

相关链接:
- https://akrites.org/
- https://www.linuxfoundation.org/press/linux-foundation-and-industry-leaders-launch-akrites-to-defend-critical-open-source-software-against-ai-enabled-cyber-threats
- https://akrites.org/letter/
AIIA启动词元服务工作组筹备工作 #15
中国人工智能产业发展联盟正式启动词元服务工作组的筹备工作。该工作组由中国信通院牵头并联合22家单位发起,致力于解决AI服务中的性能稳定性、安全可信及计费规范等问题。
中国人工智能产业发展联盟正式启动词元服务工作组筹备工作,由中国信通院牵头并联合华为云、百度智能云等22家单位共同组建。该工作组致力于解决AI服务中的性能稳定性、安全可信及计费规范等问题,将围绕标准体系建设、服务质量优化、行业应用、跨境流动、国产化适配等八个方向展开工作。目前筹备组正面向社会公开征集成员单位,相关联盟成员可直接报名,非联盟成员需先申报加入联盟。

相关链接:
California Policy Lab 推出全美首个 AI 失业追踪器 CAIT #16
美国加州官方联合研究机构推出全美首个AI失业追踪器CAIT。该工具结合失业申请与大语言模型任务削减率等AI暴露度指标监测就业市场。官方报告指出,截至今年5月未发生全州性的AI相关裁员潮。
加州无党派研究机构 California Policy Lab 联合加州就业发展部推出了全美首个将失业保险申请与AI暴露度挂钩的追踪工具 CAIT。该工具结合失业数据与两种AI暴露度评估方式,通过大语言模型潜在任务削减率和 Anthropic Claude 实际使用率来监测劳动力市场变化。官方报告指出,截至今年5月未发生全州性的AI相关裁员潮,但在专业服务技术行业、旧金山湾区以及拥有大学学历的群体中,失业申请出现了明显上升。官方强调,该数据仅作为描述性早期预警信号,无法直接证明AI是导致特定裁员的直接原因。

相关链接:
- https://capolicylab.org/california-ai-unemployment-tracker/
- https://capolicylab.org/wp-content/uploads/2026/06/Tracking-AI-Related-Job-Loss-Using-Unemployment-Insurance-Claims-Data-in-California.pdf
提示:内容由AI辅助创作,可能存在幻觉和错误。
