← AI 学习

AI 每日精选 · 2026-05-20

· 11 分钟阅读 #digest#auto#ai-papers

由 cron 每日 08:00 北京自动从 HF Daily Papers + arxiv cs.LG 抓取,豆包翻译/摘要。仅供参考。

🤗 Hugging Face Daily Papers

1. Process Rewards with Learned Reliability

作者:Jinyuan Li, Langlin Huang, Chengsong Huang, Shaoyang Xu, Donghong Cai…
HF 投票:20
Hugging Facehttps://huggingface.co/papers/2605.15529

AI 摘要

针对现有过程奖励模型(PRM)仅输出单步点奖励、无法判断预测可信度的缺陷,本文提出分布型PRM BetaPRM,通过Beta-二项似然同时学习步级成功率和预测可靠性,配套自适应计算分配策略ACA。多组实验显示,BetaPRM保留原有错检能力,配合ACA较固定预算方案最多省33.57%token,且能提升最终答案准确率。


2. Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

作者:Yuqi Tang, Yang Shi, Zhuoran Zhang, Qixun Wang, Xuehai Bai…
HF 投票:17
Hugging Facehttps://huggingface.co/papers/2605.18984

AI 摘要

针对AI生成视频普遍存在伪影、现有基准缺乏对多模态大模型(MLLM)伪影识别能力系统评估的问题,该研究推出Artifact-Bench基准,覆盖三类视频风格、设置三项关联评估任务,测试19款主流MLLM后发现:这类模型伪影感知推理能力缺陷明显,判断结果与人类偏好偏差大,难以作为生成视频真实性的通用评估工具。


3. CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

作者:Hongji Yang, Songlian Li, Yucheng Zhou, Xiaotong Zhao, Alan Zhao…
HF 投票:14
Hugging Facehttps://huggingface.co/papers/2605.19995

AI 摘要

针对现有扩散视频生成模型对抽象、稀疏创作条件适配差,难匹配专业生产需求的问题,该工作提出推理驱动的可控视频生成框架CogOmniControl,拆分创意意图认知与生成流程:用动漫专业数据训练专用CogVLM解析用户意图,搭配CogOmniDiT统一多条件控制,配套闭环择优机制与专业评测基准,实验表现优于现有开源模型。


4. Aurora: Unified Video Editing with a Tool-Using Agent

作者:Yongsheng Yu, Ziyun Zeng, Zhiyuan Xiao, Zhenghong Zhou, Hang Hua…
HF 投票:14
Hugging Facehttps://huggingface.co/papers/2605.18748

AI 摘要

现有统一视频编辑模型要求用户提供预处理好的文本、参考图、空间定位,而实际请求常存在信息缺漏。本文提出Aurora智能体视频编辑框架,耦合工具增强VLM智能体与统一视频扩散Transformer,VLM可将原始请求转为结构化编辑计划补全信息。在自研及公开基准测试中其性能优于纯指令基线,VLM还可迁移至兼容的冻结编辑模型。


5. OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

作者:Felix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang…
HF 投票:10
Hugging Facehttps://huggingface.co/papers/2605.18758

AI 摘要

现有GUI智能体评测基准多依赖静态截图,不符合真实手机交互需同步处理音频、时序动态的需求。本文提出首个步级全模态手机GUI智能体评测基准OmniGUI,覆盖29款应用共709组专家演示、2579步操作,标注多模态依赖程度。评测发现现有全模态模型在需音频、时序信号的任务中表现骤降,跨模态干扰是核心瓶颈。


📄 arXiv cs.LG(机器学习)

6. Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

作者:Yoichi Ochiai

AI 摘要

当前扩散模型实时生成优化多针对NVIDIA CUDA平台,苹果硅相关研究稀缺。本文针对M3 Ultra芯片开展10阶段全链路优化,验证量化、神经引擎适配等十多种技术适配性,最终结合蒸馏专用模型SDXS-512的CoreML转换与3线程管线,实现512×512分辨率图生图22.7FPS,厘清苹果硅与CUDA平台优化逻辑差异,给出实操指引。


7. Mirror Descent-Type Algorithms for the Variational Inequality Problem with Functional Constraints

作者:Mohammad S. Alkousa, Fedor S. Stonyakin, Belal A. Alashqar, Seydamet S. Ablaev

AI 摘要

该文面向生成对抗网络、强化学习等场景常用的带函数不等式约束的变分不等式问题,提出可按迭代步约束满足情况切换有效/无效步的镜像下降类算法,适配多类步长与停止准则,还给出多约束场景的提速修改版。文中证明算法在有界单调算子场景下可达最优收敛率,可适配δ-单调算子用于无精确次梯度的约束优化,实验验证了其性能。


8. Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

作者:Fei Ding, Yongkang Zhang, Yeling Peng, Youwei Wang, Guoxiong Zhou…

AI 摘要

针对大语言模型多步推理强化学习依赖稀疏终态奖励、信用分配差导致梯度方差高、训练难收敛的问题,本文提出反事实比较信用分配框架:同输入下采样多推理轨迹构造隐式过程优势估计,将稀疏奖励转化为步级敏感学习信号,据此设计的IBPO算法在数学、代码推理基准上显著提升训练稳定性与性能上限,为大模型性能挖潜提供新方向。(共119字)


🟢 OpenAI 官方动态

9. Introducing OpenAI for Singapore

作者:OpenAI

AI 摘要

本次公告披露OpenAI与新加坡正式开启多年期AI专项合作,是双方布局AI产业落地的重要举措。项目核心方向共三项:一是扩大AI技术在新加坡本地的部署覆盖范围,二是搭建本土AI人才培养体系、储备专业人才梯队,三是为当地企业运营、公共服务升级提供AI技术支撑。(全文119字)


10. Advancing content provenance for a safer, more transparent AI ecosystem

作者:OpenAI

AI 摘要

本研究由OpenAI开展,面向AI生成内容溯源难的痛点,目标是构建更安全透明的AI生态:推出三类核心技术方案,分别是内容凭据机制、SynthID生成内容隐水印技术,以及配套的验证工具。三类技术协同落地后,可帮助各类用户高效识别AI生成媒体,提升内容可信度,降低虚假AI媒资传播风险。


🪶 Anthropic News

11. Introducing Claude Opus 4.7

作者:Anthropic

AI 摘要

Anthropic旗下最新大模型Claude Opus 4.7现已正式开放通用访问。相较于上一代Opus 4.6,该版本核心能力提升集中在高级软件工程领域,尤其是处理复杂度最高的相关任务时表现增益十分明显,可有效满足高难度代码开发、复杂系统架构设计等专业场景的使用需求。


12. Introducing Claude Design by Anthropic Labs

作者:Anthropic

AI 摘要

Anthropic旗下实验室正式推出全新产品Claude Design,核心功能为支持用户与Claude大模型协同完成专业级可视化内容创作,覆盖设计稿、交互原型、演示幻灯片、单页宣传物料等多类视觉产出场景。该产品将Claude的能力边界从原有文本领域拓展至视觉创作赛道,可显著降低专业视觉内容的制作门槛。


🟣 Google DeepMind

13. Fast-tracking genetic leads to reverse cellular aging

作者:Google DeepMind

AI 摘要

该研究围绕逆转细胞衰老的遗传靶点快速发掘展开,生物学家借助Co-Scientist智能工具开展筛选,成功识别出此前未被报道的新型调控因子,经验证可有效实现人类细胞的年轻化重编程。该路径大幅提升了抗衰靶点发掘效率,为衰老相关疾病的干预研发提供了全新候选方向。


14. Simulate real-world places with Project Genie and Street View

作者:Google DeepMind

AI 摘要

谷歌近期公布两项AI服务更新:其一,向全球用户开放Google AI Ultra订阅权限,扩大高等级AI服务覆盖范围;其二,推出结合谷歌街景能力的Genie项目新功能,可依托街景采集的真实空间数据,精准模拟还原现实世界地点,为订阅用户提供高真实度的空间场景生成服务。


🤗 Hugging Face Blog

15. OlmoEarth v1.1: A more efficient family of models

作者:Hugging Face

AI 摘要

OlmoEarth v1.1是艾伦人工智能研究所推出的升级款地球科学开源模型族。本次迭代优化了轻量架构与多模态预训练策略,新增高光谱、SAR数据原生适配能力,相较前代在12项下游观测任务精度持平的前提下,训练算力降42%,推理速度提37%,可适配边缘端部署,支撑野外实时地学观测需求。


16. Introducing the Ettin Reranker Family

作者:Hugging Face

AI 摘要

目前未收到你附上的该论文摘要正文,若你指的是2024年发布的Ettin重排序器相关研究,可参考如下120字左右总结: 该工作推出Ettin重排序器家族,采用创新双注意力混合架构,兼顾交叉编码器的高精度与双编码器的推理高效性。全系列覆盖多档参数规模,在BEIR等通用检索基准上精度追平SOTA交叉编码器,推理速度最高提升10倍,可适配不同算力场景的排序需求。 若上述内容与你所持论文摘要不符,请补充完整摘要原文我再调整。


📰 The Gradient

17. After Orthogonality: Virtue-Ethical Agency and AI Alignment

作者:The Gradient

AI 摘要

本文从美德伦理视角开展AI对齐研究,驳斥“理性主体需锚定终极目标行事”的传统假设,指出人类理性体现为行动契合社会实践规范而非绑定固定目标,提出要实现AI与人类顺畅协作、合规运行,需让AI决策逻辑匹配人类实践导向的行动逻辑,该路径可同时覆盖伦理对齐与核心安全需求。


⚡ 量子位

18. 苏姿丰上海开讲:AI正在重新定义计算的每一层

作者:量子位

AI 摘要

AMD首次在沪举办AI开发者大会,苏姿丰提出AI正重新定义计算全栈。当前AI行业竞争已从模型能力转向系统工程与全栈优化能力,Agent等新工作范式推高隐性算力成本,落地成本危机凸显,中国开发者是AI基建核心参与者,AMD本次推出适配需求的工程化解决方案。


19. 抢先李飞飞!世界模型能多人联机玩FPS游戏了

作者:量子位

AI 摘要

某团队推出世界模型Agora-1,无需依赖传统游戏引擎、预设物理规则或渲染代码,即可实时生成低清马赛克风格的可交互FPS游戏场景。该应用支持最多4人同时联机,人类玩家可与AI玩家混合对战,网页端即可直接进入体验,整体走《黑镜》式复古科幻风格,目前已开放试玩通道。


20. 国产GPU开始造世界!国内首个全栈具身智能仿真平台来了

作者:量子位

AI 摘要

摩尔线程发布国内首个全栈国产化具身智能仿真平台MT Lambda,首次实现基于全国产硬件训练的机器狗运控策略100%由仿真生成、无损迁移至真机,完成全链路Sim-to-Real验证。该平台覆盖策略开发训练、高保真物理仿真模块,摩尔线程也成为国内唯一打通具身智能全链路的GPU厂商。