AI 每日精选 · 2026-05-26
由 cron 每日 08:00 北京自动从 HF Daily Papers + arxiv cs.LG 抓取,豆包翻译/摘要。仅供参考。
🤗 Hugging Face Daily Papers
1. DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
作者:Guochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu…
HF 投票:30
Hugging Face:https://huggingface.co/papers/2605.25604
AI 摘要:
针对大模型多奖励强化学习对齐场景下,现有标量化方法存在训练不稳定、依赖静态超参、忽略目标关联的缺陷,本文提出动态方差自适应优势优化算法DVAO,基于滚动组内各奖励经验方差动态调整融合权重,可限制优势幅度保障训练稳定。在千问系列模型的推理、工具使用基准上性能超基线,帕累托前沿更优,训练鲁棒性强。
2. WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
作者:Kaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen…
HF 投票:29
Hugging Face:https://huggingface.co/papers/2605.25874
AI 摘要:
针对现有交互式视频世界模型评估基准覆盖不全、缺乏统一标准的问题,该研究推出WBench多轮交互评估基准,覆盖5类核心评估维度,包含289个测试用例、千余轮交互,适配多种输入接口,采用经人工校验的22项自动指标。实测20个SOTA模型后发现无模型可全维度表现优异,同时给出各模型优劣势诊断,相关资源已开源。
3. Macaron-A2UI: A Model for Generative UI in Personal Agents
作者:Fancy Kong, Congjie Zheng, Murphy Zhuang, Rio Yang, Sueky Zhang…
HF 投票:26
Hugging Face:https://huggingface.co/papers/2605.24830
AI 摘要:
针对个人助理纯文本交互瓶颈,本文提出生成式UI模型Macaron-A2UI,可同步输出自然语言与轻量可执行UI操作,适配信息收集、偏好确认等多类交互需求。团队构建大规模生成式UI语料与A2UI-Bench评测基准,经LoRA微调和奖励强化学习训练的最优模型,无明确模式提示下跑分75.6,超现有最强基线,相关资源已开源。
4. AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery
作者:Guiyao Tie, Jiawen Shi, Dingjie Song, Yixiao Huang, Ziji Sheng…
HF 投票:14
Hugging Face:https://huggingface.co/papers/2605.23204
AI 摘要:
本文是AI科研自动化领域综述,将该方向定义为AutoResearch(AI驱动科研工作流自动化)发展谱系,可分为人主导的提示式辅助、未达强自主的AI主导探索两类。综述梳理五大科研工作流核心模块,提出创新度、有效性等五大评估维度,明确其自主度受领域约束,仅在结构化易验证场景可信度较高,复杂场景仍存局限。
5. Your Embedding Model is SMARTer Than You Think
作者:Jianrui Zhang, Hyun Jung Lee, Sukanta Ganguly, Tae-Eui Kam, Donghyun Kim…
HF 投票:12
Hugging Face:https://huggingface.co/papers/2605.24938
AI 摘要:
针对单向量多模态检索丢失细粒度信息、多向量方案需额外训练且常忽略全局表征的痛点,本文提出SMART框架:利用对比训练隐式塑造的单向量模型前置隐层特征,推理时直接做迟交互,即插即用跨模态提升性能,轻量后训可让单向量模型超越多向量SOTA,在MMEB-V2等基准表现优异,代码已开源。
📄 arXiv cs.LG(机器学习)
6. Latent Cache Flow: Model-to-Model Communication Without Text
作者:Maximillian Rossi, Prajwal Raghunath, Eugene Wu
AI 摘要:
针对大模型智能体现有文本通信延迟高、信息损失大,此前KV缓存交换方案C2C适配器参数大、要求上下文一致不适配多智能体场景的问题,该研究提出LCF方案:通过联合翻译压缩KV将适配器体积缩至C2C的4%,可传输目标模型缺失的新信息摘要适配异上下文。实验显示其同上下文精度优于C2C,异上下文场景比文本通信准23%、快8.5倍。
7. Reading Calibrated Uncertainty from Language Model Trajectories
作者:Aliai Eusebi, Alexander Herzog, Xiaoyu Liang, Marie Vasek, Enrico Mariconti…
AI 摘要:
针对大语言模型不确定性评估的现有缺陷:默认最大softmax概率(MSP)校准差,激活探针仅取静态快照、可解释性弱,本文提取11个尺度不变几何特征,追踪每层MLP更新的累计表征轨迹,用稀疏线性探针评估不确定性。该方法在选择性弃权任务上优于MSP,AURC最高提升21点,还可溯源误差出现的层级。
8. FusionSense: Tri-Stage Near-Sensor Learning for Runtime-Adaptive Multimodal Edge Intelligence
作者:Sanggeon Yun, Ryozo Masukawa, Minhyoung Na, Hyunwoo Oh, Yoshiki Yamaguchi…
AI 摘要:
针对多模态边缘智能现有方案要么依赖服务端融合、要么单模态近传感滤波忽略跨模态关联,导致传输冗余或漏检问题,本文提出FusionSense三阶段近传感器学习框架:先在服务端训练下游融合模型,再生成各模态必要性标签,最后压缩得到嵌入近传感预测的轻量边缘融合模型。实测较现有基线能效最高提33倍,固定30%数据缩减率下质量损失降92.3%。
🟢 OpenAI 官方动态
9. OpenAI, Grupo Folha and Grupo UOL announce strategic content partnership
作者:OpenAI
AI 摘要:
OpenAI近日与巴西两大头部传媒集团Grupo Folha、Grupo UOL达成战略内容合作。双方将把两家机构产出的权威巴西本土新闻内容接入ChatGPT,后续ChatGPT输出相关新闻时会附带明确来源标注,保障信息透明度。该合作既拓宽了优质巴西新闻的触达渠道,也有效提升了ChatGPT新闻类输出的可信度。
10. How Virgin Atlantic ships faster with Codex
作者:OpenAI
AI 摘要:
本研究介绍维珍大西洋航空的开发实践:为赶在节假日出行季固定截止日前上线改版移动端应用,团队采用OpenAI Codex作为开发辅助工具,最终不仅如期完成交付,还实现了近100%单元测试覆盖率,上线后无P1级严重缺陷,验证了Codex对紧 deadline下高质量软件开发的赋能作用。
🪶 Anthropic News
11. Introducing Claude Opus 4.7
作者:Anthropic
AI 摘要:
最新推出的Claude系列旗舰大模型Opus 4.7现已正式全面开放通用访问。相较于前代版本Opus 4.6,该模型的能力升级重点聚焦高级软件工程领域,尤其在该领域的高复杂度、高难度任务上实现了突出的性能增益,整体表现有显著提升,可更好支撑复杂代码开发、技术研发等相关落地需求。
12. Introducing Claude Design by Anthropic Labs
作者:Anthropic
AI 摘要:
Anthropic实验室正式发布旗下新品Claude Design。该产品核心能力为支持用户与Claude大模型协同开展视觉创作,可生成高完成度的设计方案、交互原型、演示幻灯片、单页宣传材料等多类视觉产出。该工具补齐了Claude原有偏文本能力的短板,能为不同设计基础的用户提供便捷的专业级视觉生产支持,进一步拓展了大模型应用场景。
🟣 Google DeepMind
13. We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks
作者:Google DeepMind
AI 摘要:
谷歌DeepMind依托自身AI技术优势,正式启动亚太区加速器项目,聚焦应对亚太区域气候变暖、极端自然灾害、生物多样性衰退等核心环境风险。项目将为相关领域创业团队提供技术、算力及产业资源支持,推动AI在环境监测、风险预警、生态治理等场景落地,提升亚太地区环境风险应对韧性。
14. Fast-tracking genetic leads to reverse cellular aging
作者:Google DeepMind
AI 摘要:
本研究旨在加速发掘可反向调控细胞衰老的遗传线索,生物学家借助Co-Scientist科研辅助系统开展筛选,成功找到全新调控因子,经验证可有效实现人类细胞年轻化。该成果压缩了衰老相关遗传靶点的研发周期,为抗衰技术研发、衰老相关疾病的干预治疗提供了全新候选方向。
🤗 Hugging Face Blog
15. Harness, Scaffold, and the AI Agent Terms Worth Getting Right
作者:Hugging Face
AI 摘要:
本文针对当前AI智能体(AI Agent)领域术语混用、定义模糊的痛点,系统梳理了“驾驭(Harness)”“支架(Scaffold)”等高频核心术语的适用边界、对应能力层级与技术适配场景,提出明确的术语规范框架,可有效减少领域交流歧义,为AI Agent的体系化研究与落地提供基础支撑。
16. Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models
作者:Hugging Face
AI 摘要:
这篇论文瞄准光速级低延迟文本生成需求,推出Nemotron-Labs扩散语言模型方案。针对传统自回归大模型逐词生成、推理延迟高的痛点,该模型采用扩散范式实现并行解码,大幅压缩推理耗时。测试显示其生成质量匹配主流自回归模型的同时,速度实现量级跃升,可为高实时性文本应用提供技术支撑。
📰 The Gradient
17. After Orthogonality: Virtue-Ethical Agency and AI Alignment
作者:The Gradient
AI 摘要:
这篇挑战正交性假说的AI对齐研究从德性伦理视角出发,批判普遍预设的目标导向理性框架,提出人类理性行动核心是匹配包含行动、倾向、评价标准的实践网络,而非追求固定终局目标。若要让AI适配人类协作、合规要求,需让其决策逻辑匹配人类实践的“类型签名”,该路径可兼顾伦理对齐与基础安全。
⚡ 量子位
18. 京东JoyInside戴文军:AI的终极形态不是聊天,是融入你家每一件物品丨AIGC2026
作者:量子位
AI 摘要:
在2026中国AIGC产业峰会上,京东JoyInside业务负责人戴文军提出,AI已进入“AI World”时代,将跳出聊天、屏幕等单一形态,深度融入各类家用终端,无需用户主动适配就可主动感知、满足需求。京东依托大模型、供应链等优势,正以附身智能为硬件植入AI能力,重构家庭人机交互体验。
19. 无人车遇水则瘫?Waymo大规模召回,叫停多城Robotaxi服务
作者:量子位
AI 摘要:
近期Waymo两月内连发两起无人车涉水事故:4月车辆检测到积水仍低速驶入被冲,近日亚特兰大空载车又被困积水路段。公司已召回近3800辆搭载五、六代自动驾驶系统的车辆,当前仅靠官方天气预警、地理围栏临时限流,未解决涉水感知核心缺陷,已暂停多城Robotaxi服务。
20. 打造创投生态的超级枢纽, 2026投资界SuperLink大会定档6月
作者:量子位
AI 摘要:
当前创投行业已转向深度赋能产业、生态协同的价值逻辑,清科控股、投资界联合吴中金控主办的2026投资界SuperLink大会定档6月10-11日于苏州吴中举办。作为中国基金合伙人大会的战略升级,主打人脉、资本、未来三大核心链接,设十大场景覆盖创投全链条,致力打造创投生态超级枢纽。