TL;DR · 30 秒看完今日

AI前沿研究成果密集发布，覆盖多智能体、视频生成、数学推理、AI对齐等核心赛道。
头部AI厂商动作频频，Anthropic、OpenAI、谷歌等接连发布新品、落地合作与公益项目。
行业应用探索持续提速，Agent性能基准发布，国产3D编辑、多智能体赛道均有重大进展。

🧠 模型发布🔬 前沿研究🤖 多智能体🏢 产业动态⚡ 技术突破

Hugging Face Daily Papers

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

HF 24 · Fangfu Liu, Kai He, Tianchang Shen… · HF 镜像

针对现有交互式生成世界模型多适配单智能体、难支撑多智能体交互的问题，本文提出Gamma-World多智能体世界模型：采用无参数单纯形旋转智能体编码保证智能体置换等价，设计稀疏枢纽注意力将跨智能体计算成本从二次降为线性，蒸馏出的因果模型可实现24FPS实时生成。效果优于基线，无需额外训练即可从2玩家泛化至4玩家。

ResearchMath-14K: Scaling Research-Level Mathematics via Agents

HF 23 · Guijin Son, Seungyeop Yi, Minju Gwak… · HF 镜像

针对大模型能否独立解决前沿数学问题存疑、缺乏科研级数学数据集的痛点，团队构建了目前规模最大的14056道科研级数学题数据集ResearchMath-14K，配套生成22万条推理轨迹，经智能过滤后用于微调4B-30B参数的Qwen3模型，平均性能较基座提升9.2个百分点，证明过滤后的非完全正确解题尝试也可提供有效监督，数据集已公开。

From Pixels to Words — Towards Native One-Vision Models at Scale

HF 14 · Haiwen Diao, Jiahao Wang, Penghao Wu… · HF 镜像

针对现有视觉语言模型多模块拼接导致像素信号碎片化、原生单图VLM难以适配多图、视频理解等场景的问题，本文提出端到端原生基础模型NEO-ov，无需外接编码器等组件，可原生实现统一时空建模。其性能追平拼接式同类模型，细粒度感知表现更优，相关架构分析、训练方案及代码已开源。

OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

HF 10 · Yunyang Ge, Xianyi He, Zezhong Zhang… · HF 镜像

针对扩散Transformer全注意力二次复杂度限制视频生成效率的问题，本文提出OSP-Next文本转视频模型：采用混合全-稀疏注意力架构，配套稀疏序列并行（通信量降75%）、HiF8量化、Mix-GRPO强化学习调优。其VBench得分83.73%超Wan2.1基线，720P/768P 5秒视频生成单卡最高提速1.69倍、8卡提速超1.52倍，适配多硬件平台。

Self-Improving Language Models with Bidirectional Evolutionary Search

HF 8 · Guowei Xu, Zhenting Qi, Huangyuan Su… · HF 镜像

针对大模型自改进主流搜索方法依赖稀疏验证信号、仅靠自回归生成导致探索范围受限的缺陷，本文提出双向进化搜索（BES）框架：正向通过进化算子重组局部轨迹拓展候选，反向递归分解任务生成密集中间反馈引导搜索。理论验证其可指数级降低采样需求，实验显示后训练增益稳定，推理解题性能优于现有开源框架。

arXiv cs.LG（机器学习）

GEM: Geometric Entropy Mixing for Optimal LLM Data Curation

Yue Min, Ziyun Qiao, Ruining Chen…

当前大模型预训练效果愈发依赖数据配比而非规模，现有人工分类、欧氏聚类方法均存在固有缺陷。本文提出GEM几何熵混合框架，将数据治理转化为超球面带正则变分问题，用MM算法优化，辅以师生蒸馏适配大规模语料、GIS分数实现可解释分类。实验显示其结合现有配比策略后，下游精度最高提1.2%，达新SOTA，可提供稳定的数据配比参考。

The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models

Jaideep Ray

本文针对端侧/低成本部署的3B以下小语言模型，证实“结构化输出硬约束不影响答案质量”的常规工程假设不成立，提出“约束税”指标量化约束引发的准确率损失。实测显示硬约束虽拉满格式合规率，但会大幅压低答案、工具调用可执行准确率，错误合规输出陡增。建议生产系统拆分披露多维度准确率指标，可采用“先自由推理后约束打包”的优化方案。

AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion

Somnath Luitel, Manmeet Singh, Joshua Durkee…

针对传统数值天气预报公里级预报算力成本过高的痛点，该研究提出气象超分辨率基础模型AirCast-SR，采用嵌入3D U-Net的潜一致性扩散框架，可将28公里分辨率预报降尺度到1公里。模型偏差极低，能保留10-100km尺度精细结构，无需微调即可零样本跨区域迁移，开源权重为公里级气象预报提供新范式。

OpenAI 官方动态

Cisco and OpenAI redefine enterprise engineering with Codex

OpenAI

思科联合OpenAI探索大模型赋能企业工程的新路径，核心依托Codex大模型落地三大价值：支撑思科规模化开展AI原生开发，大幅提速AI防御相关研发工作，同时实现缺陷的自动化修复。此次合作验证了大模型在ToB研发场景的落地潜力，为企业级工程效能升级提供了可参考的实践范式。

Building self-improving tax agents with Codex

OpenAI

OpenAI联合Thrive、Crete共同研发基于Codex大模型的自迭代税务代理系统，依托Codex的代码生成、规则校验能力适配复杂税务合规要求，实现全流程报税自动化，且系统可自主迭代优化处理逻辑。该方案既显著提升报税准确率，也大幅压缩涉税业务处理周期，为财税领域工作流提质增效提供了可行技术路径。

Anthropic News

Introducing Claude Opus 4.7

Anthropic

Anthropic最新通用大模型Claude Opus 4.7现已正式全量开放。相较于前代版本Opus 4.6，该版本核心能力升级聚焦高级软件工程赛道，该领域整体处理表现实现显著跃升，其中针对难度最高的复杂软件工程任务，性能提升幅度尤为突出，可更好满足复杂代码开发等高端研发场景需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic实验室正式推出全新AI工具产品Claude Design。该产品支持用户与Claude大模型协同创作，无需深厚专业设计功底，就能产出设计稿、产品原型、演示幻灯片、单页宣传物料等各类精细化视觉作品，为用户落地创意、完成高质量视觉工作提供了高效的AI协作新方案。

Google DeepMind

We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks

Google DeepMind

谷歌DeepMind近期启动亚太区加速器项目，聚焦区域环境风险治理。项目将依托自身AI技术积累与产业资源，扶持深耕环境领域的本地创新团队，推动AI在气候应对、灾害防控、污染治理等场景落地，联动产学研力量高效提升亚太区域环境风险处置能力，助力区域可持续发展。

Fast-tracking genetic leads to reverse cellular aging

Google DeepMind

本研究针对细胞衰老逆转的遗传靶点发掘需求，采用Co-Scientist智能工具开展筛选，成功定位到全新功能调控因子，可高效实现人类细胞的年轻化重编程。该路径大幅缩短了衰老相关遗传靶点的研发周期，为后续抗衰技术开发、衰老相关疾病防治提供了新的候选方向与技术支撑。

Hugging Face Blog

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

Hugging Face

人工智能分析机构联合IBM发布首个面向智能体的企业级IT任务基准测试集ITBench-AA，专门评估大模型智能体处理运维、排障、配置管理等真实复杂企业IT任务的能力，测试显示当前前沿大模型在该基准上得分不足50%，暴露了现有大模型智能体在专业垂直企业场景落地的能力短板，可供后续技术优化参考。

Reachy Mini goes fully local