TL;DR · 30 秒看完今日

OpenAI先后牵手戴尔、马耳他，Anthropic、谷歌等海外厂商接连发布AI新品及落地合作
全球AI学界发布推理优化、视频生成、多Agent协同、模型对齐等十余项前沿技术成果
百度无人车周订单破35万实现单城盈利，国产AI模型工具更新、AIGC2026峰会将启

🏢 大厂动态🧠 前沿研究🔥 新品发布⚡ 技术突破🇨🇳 国内进展

Hugging Face Daily Papers

AI for Auto-Research: Roadmap & User Guide

HF 18 · Lingdong Kong, Xian Sun, Wei Chow… · HF 镜像

本文梳理截至2026年4月的AI自动化科研进展，将科研全流程划分为创作、写作、验证、传播四阶段开展系统性分析。研究指出AI仅在结构化、检索支撑、工具调用类任务表现可靠，在原创选题、科研判断、复杂实验等环节能力不足，全自动产出尚未达到顶会录用标准，最优落地范式是人类主导的人机协作，还配套发布了分类体系、基准及实操指南。

KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

HF 16 · Ruicheng Zhang, Kaixi Cong, Jun Zhou… · HF 镜像

针对现有强化学习方法做流式自回归视频生成的人类偏好对齐时，与蒸馏模型ODE动力学不匹配、仅扰动低层级外观的问题，提出KVPO框架：将探索源迁移到历史KV缓存实现语义探索，基于轨迹速度能量设计适配ODE的速度场代理策略。实验证明其在长短视频场景下均显著提升视觉、运动质量与文视频对齐效果。

Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

HF 11 · Injin Kong, Hyoungjoon Lee, Yohan Jo · HF 镜像

针对连续扩散语言模型性能弱于自回归Transformer的问题，该研究提出混合架构DiHAL：通过几何代理为预训练Transformer各层打分，选取适配扩散的隐层接口，用扩散桥替换下层、保留上层与原语言头，规避连续转离散的直接恢复问题。8B规模大模型实验显示，该几何评分可精准定位浅层插入位，隐层恢复效果优于现有扩散基线，验证了隐层几何指导扩散插入的可行性。

LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

HF 9 · Yukang Chen, Luozhou Wang, Wei Huang… · HF 镜像

LongLive-2.0是全球首个长视频生成全流程NVFP4并行系统，针对速度、内存瓶颈设计。训练端采用均衡序列并行自回归方案+NVFP4精度，无需额外蒸馏即可将扩散模型微调为多轮交互式自回归模型，适配少步实时生成。推理端经量化、异步解码等优化，训练最高提速2.15倍、推理提1.84倍，5B参数版本推理达45.7FPS且指标优异。

Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

HF 7 · Dehai Min, Giovanni Vaccarino, Huiyi Chen… · HF 镜像

针对大推理模型易过度推理、现有答案层面早停方案易提前退出损害精度与推理链完整性的问题，本文提出即插即用的PUMA早停框架：先通过轻量检测器识别推理步骤语义冗余，再结合答案验证确认安全终止。多基准多模型测试显示，其平均减少26.2%的token消耗，同时保留推理精度与链条质量，泛用性强。

arXiv cs.LG（机器学习）

AgentStop: Terminating Local AI Agents Early to Save Energy in Consumer Devices

Dzung Pham, Kleomenis Katevas, Ali Shahin Shamsabadi…

针对消费级设备上本地LLM智能体因多步推理、失败重试导致无效算力浪费、功耗过高的问题，本文提出轻量效率监管模块AgentStop：依托token级对数概率等低成本运行信号预判任务成功率，提前终止大概率失败的执行轨迹。实测在网页问答、编码基准任务中可降低15%-20%无效能耗，仅带来不足5%的性能损失，适配本地隐私优先的智能体落地需求。

TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

Yi Xie, Siao Liu, Falong Fan…

针对多智能体大模型协同序贯微调存在上下文分布偏移、性能反逊于单模型基线的问题，研究证实旧采样评估惩罚随智能体数平方增长，据此提出信任域微调框架TeamTR：每次组件更新后重采轨迹，控制单智能体分布散度，保障性能提升下界。实验显示其平均性能超基线7.1%，缓解协同退化，支持组件即插即用。

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Plawan Kumar Rath, Rahul Maliakkal

针对现有大模型量化压缩对公平性影响研究不足的问题，测试3款指令微调大模型5个量化精度档位表现，基于BBQ偏见基准完成91万余条推理。结果显示精度越低偏见新增占比越高，3位量化达6-21%，传统困惑度指标无法识别这类公平性退化，提示部署前需专门开展偏见检测。

OpenAI 官方动态

OpenAI and Dell partner to bring Codex to hybrid and on-premise enterprise environments

OpenAI

OpenAI与戴尔正式达成合作，将OpenAI旗下的Codex代码大模型适配到企业混合部署、本地部署的IT架构中。这一合作面向企业级客户，解决公有云部署AI编码工具的数据安全顾虑，支持企业在自有数据、内部工作流内安全落地AI编码智能体，兼顾研发提效与数据合规要求。

OpenAI and Malta partner to bring ChatGPT Plus to all citizens

OpenAI

OpenAI与马耳他达成官方合作，面向该国全体公民开放ChatGPT Plus使用权限，同时配套提供AI专项培训。该项目旨在帮助民众掌握实用AI技能、建立AI负责任使用意识，是全球少有的国家层面推动生成式AI普惠的实践，为公共领域AI普及落地提供了参考路径。

Anthropic News

Introducing Claude Opus 4.7

Anthropic

Anthropic旗下最新大模型Claude Opus 4.7现已正式全面开放商用。相比前代版本Opus 4.6，该版本核心升级聚焦高阶软件工程能力，尤其在业内公认难度最高的复杂软件工程类任务上性能提升突出，更适配高难度代码开发、复杂系统搭建等专业开发场景需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic实验室近期正式发布全新产品Claude Design，核心定位是支持用户与Claude大模型协同完成专业级视觉内容创作，可产出设计稿、产品原型、演示幻灯片、单页宣传物料等成品。该产品无需用户掌握复杂专业设计工具，既降低非设计人员的视觉产出门槛，也能为专业设计师提效，简化视觉生产链路。

Google DeepMind

AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

Google DeepMind

本文聚焦自研编码代理工具AlphaEvolve，核心采用Gemini大模型赋能的专用算法架构，可快速适配不同领域的差异化编码需求，目前已在商业开发、基础设施运维、科研创新三大场景落地，大幅提升跨领域编码效率、降低编码门槛，验证了大模型驱动的智能编码工具可实现跨领域规模化价值输出。

Enabling a new model for healthcare with AI co-clinician

Google DeepMind

本研究聚焦AI增强型医疗的落地路径攻关，核心任务是研发可与临床医师深度协同的“AI协诊员”工具，旨在构建人机协同的新型医疗服务范式。该模式既可为临床医师减负提效，也能提升基层诊疗均质化水平，为缓解医疗资源供需错配、普惠优质医疗服务提供可行技术方向。

Hugging Face Blog

Fine-Tuning NVIDIA Cosmos Predict 2.5 with LoRA/DoRA for Robot Video Generation

Hugging Face

该研究针对机器人操作场景视频生成需求，以英伟达Cosmos Predict 2.5通用视频大模型为基座，采用LoRA、DoRA两种参数高效微调策略完成域适配，仅需微调不足1%的模型参数，即可生成动作逻辑合规、物理属性一致的机器人操作视频，效果媲美全量微调，大幅降低机器人视觉预测任务的落地成本。

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend