TL;DR · 30 秒看完今日

今日十余篇AI前沿论文发布，覆盖强化学习、大模型优化、多模态等技术方向
OpenAI、Anthropic、谷歌、京东等公布新合作、新产品及AI布局规划
AI落地覆盖科研、航空、自动驾驶、抗衰老、创投等多元产业场景

🧠 前沿论文🔥 厂商动态🤖 大模型更新💡 产业落地⚡ 行业活动

Hugging Face Daily Papers

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

HF 30 · Guochao Jiang, Jingyi Song, Guofeng Quan… · HF 镜像

针对大模型多奖励强化学习对齐场景下，现有标量化方法存在训练不稳定、依赖静态超参、忽略目标关联的缺陷，本文提出动态方差自适应优势优化算法DVAO，基于滚动组内各奖励经验方差动态调整融合权重，可限制优势幅度保障训练稳定。在千问系列模型的推理、工具使用基准上性能超基线，帕累托前沿更优，训练鲁棒性强。

WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

HF 29 · Kaining Ying, Hengrui Hu, Siyu Ren… · HF 镜像

针对现有交互式视频世界模型评估基准覆盖不全、缺乏统一标准的问题，该研究推出WBench多轮交互评估基准，覆盖5类核心评估维度，包含289个测试用例、千余轮交互，适配多种输入接口，采用经人工校验的22项自动指标。实测20个SOTA模型后发现无模型可全维度表现优异，同时给出各模型优劣势诊断，相关资源已开源。

Macaron-A2UI: A Model for Generative UI in Personal Agents

HF 26 · Fancy Kong, Congjie Zheng, Murphy Zhuang… · HF 镜像

针对个人助理纯文本交互瓶颈，本文提出生成式UI模型Macaron-A2UI，可同步输出自然语言与轻量可执行UI操作，适配信息收集、偏好确认等多类交互需求。团队构建大规模生成式UI语料与A2UI-Bench评测基准，经LoRA微调和奖励强化学习训练的最优模型，无明确模式提示下跑分75.6，超现有最强基线，相关资源已开源。

AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery

HF 14 · Guiyao Tie, Jiawen Shi, Dingjie Song… · HF 镜像

本文是AI科研自动化领域综述，将该方向定义为AutoResearch（AI驱动科研工作流自动化）发展谱系，可分为人主导的提示式辅助、未达强自主的AI主导探索两类。综述梳理五大科研工作流核心模块，提出创新度、有效性等五大评估维度，明确其自主度受领域约束，仅在结构化易验证场景可信度较高，复杂场景仍存局限。

Your Embedding Model is SMARTer Than You Think

HF 12 · Jianrui Zhang, Hyun Jung Lee, Sukanta Ganguly… · HF 镜像

针对单向量多模态检索丢失细粒度信息、多向量方案需额外训练且常忽略全局表征的痛点，本文提出SMART框架：利用对比训练隐式塑造的单向量模型前置隐层特征，推理时直接做迟交互，即插即用跨模态提升性能，轻量后训可让单向量模型超越多向量SOTA，在MMEB-V2等基准表现优异，代码已开源。

arXiv cs.LG（机器学习）

Latent Cache Flow: Model-to-Model Communication Without Text

Maximillian Rossi, Prajwal Raghunath, Eugene Wu

针对大模型智能体现有文本通信延迟高、信息损失大，此前KV缓存交换方案C2C适配器参数大、要求上下文一致不适配多智能体场景的问题，该研究提出LCF方案：通过联合翻译压缩KV将适配器体积缩至C2C的4%，可传输目标模型缺失的新信息摘要适配异上下文。实验显示其同上下文精度优于C2C，异上下文场景比文本通信准23%、快8.5倍。

Reading Calibrated Uncertainty from Language Model Trajectories

Aliai Eusebi, Alexander Herzog, Xiaoyu Liang…

针对大语言模型不确定性评估的现有缺陷：默认最大softmax概率（MSP）校准差，激活探针仅取静态快照、可解释性弱，本文提取11个尺度不变几何特征，追踪每层MLP更新的累计表征轨迹，用稀疏线性探针评估不确定性。该方法在选择性弃权任务上优于MSP，AURC最高提升21点，还可溯源误差出现的层级。

FusionSense: Tri-Stage Near-Sensor Learning for Runtime-Adaptive Multimodal Edge Intelligence

Sanggeon Yun, Ryozo Masukawa, Minhyoung Na…

针对多模态边缘智能现有方案要么依赖服务端融合、要么单模态近传感滤波忽略跨模态关联，导致传输冗余或漏检问题，本文提出FusionSense三阶段近传感器学习框架：先在服务端训练下游融合模型，再生成各模态必要性标签，最后压缩得到嵌入近传感预测的轻量边缘融合模型。实测较现有基线能效最高提33倍，固定30%数据缩减率下质量损失降92.3%。

OpenAI 官方动态

OpenAI, Grupo Folha and Grupo UOL announce strategic content partnership

OpenAI

OpenAI近日与巴西两大头部传媒集团Grupo Folha、Grupo UOL达成战略内容合作。双方将把两家机构产出的权威巴西本土新闻内容接入ChatGPT，后续ChatGPT输出相关新闻时会附带明确来源标注，保障信息透明度。该合作既拓宽了优质巴西新闻的触达渠道，也有效提升了ChatGPT新闻类输出的可信度。

How Virgin Atlantic ships faster with Codex

OpenAI

本研究介绍维珍大西洋航空的开发实践：为赶在节假日出行季固定截止日前上线改版移动端应用，团队采用OpenAI Codex作为开发辅助工具，最终不仅如期完成交付，还实现了近100%单元测试覆盖率，上线后无P1级严重缺陷，验证了Codex对紧 deadline下高质量软件开发的赋能作用。

Anthropic News

Introducing Claude Opus 4.7

Anthropic

最新推出的Claude系列旗舰大模型Opus 4.7现已正式全面开放通用访问。相较于前代版本Opus 4.6，该模型的能力升级重点聚焦高级软件工程领域，尤其在该领域的高复杂度、高难度任务上实现了突出的性能增益，整体表现有显著提升，可更好支撑复杂代码开发、技术研发等相关落地需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic实验室正式发布旗下新品Claude Design。该产品核心能力为支持用户与Claude大模型协同开展视觉创作，可生成高完成度的设计方案、交互原型、演示幻灯片、单页宣传材料等多类视觉产出。该工具补齐了Claude原有偏文本能力的短板，能为不同设计基础的用户提供便捷的专业级视觉生产支持，进一步拓展了大模型应用场景。

Google DeepMind

We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks

Google DeepMind

谷歌DeepMind依托自身AI技术优势，正式启动亚太区加速器项目，聚焦应对亚太区域气候变暖、极端自然灾害、生物多样性衰退等核心环境风险。项目将为相关领域创业团队提供技术、算力及产业资源支持，推动AI在环境监测、风险预警、生态治理等场景落地，提升亚太地区环境风险应对韧性。

Fast-tracking genetic leads to reverse cellular aging

Google DeepMind

本研究旨在加速发掘可反向调控细胞衰老的遗传线索，生物学家借助Co-Scientist科研辅助系统开展筛选，成功找到全新调控因子，经验证可有效实现人类细胞年轻化。该成果压缩了衰老相关遗传靶点的研发周期，为抗衰技术研发、衰老相关疾病的干预治疗提供了全新候选方向。

Hugging Face Blog

Harness, Scaffold, and the AI Agent Terms Worth Getting Right

Hugging Face

本文针对当前AI智能体（AI Agent）领域术语混用、定义模糊的痛点，系统梳理了“驾驭（Harness）”“支架（Scaffold）”等高频核心术语的适用边界、对应能力层级与技术适配场景，提出明确的术语规范框架，可有效减少领域交流歧义，为AI Agent的体系化研究与落地提供基础支撑。

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models