← AI 学习

AI 每日精选 · 2026-05-15

· 11 分钟阅读 #digest#auto#ai-papers

由 cron 每日 08:00 北京自动从 HF Daily Papers + arxiv cs.LG 抓取,豆包翻译/摘要。仅供参考。

🤗 Hugging Face Daily Papers

1. Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

作者:Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li…
HF 投票:88
Hugging Facehttps://huggingface.co/papers/2605.13301

AI 摘要

本研究提出一套简洁统一的奥赛级推理模型升级方案:先以反向困惑度课程式监督微调注入严谨证明搜索与自检能力,再经两阶段强化学习放大性能,最后搭配测试时缩放策略。基于30B参数骨干训练的SU-01模型,在近年IMO、IPhO等数理奥赛达到金牌水平,且可泛化至其他科学推理领域。


2. MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

作者:Minghao Guo, Qingyue Jiao, Zeru Shi, Yihao Quan, Boxuan Zhang…
HF 投票:46
Hugging Facehttps://huggingface.co/papers/2605.15128

AI 摘要

针对现有多模态智能体长期记忆评估未验证视觉证据留存、存在文本推理捷径、缺失时序视觉状态推理任务的痛点,该研究提出视觉导向评估框架MemEye,从两个维度构建8类生活场景评测基准。测试13种记忆方法、4类视觉大模型后发现,现有架构细粒度视觉留存、时序状态推理能力不足,明确了三类核心优化方向。


3. Self-Distilled Agentic Reinforcement Learning

作者:Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu…
HF 投票:44
Hugging Facehttps://huggingface.co/papers/2605.15155

AI 摘要

针对大模型智能体强化学习微调时轨迹奖励粗糙、直接结合同策略自蒸馏存在多轮不稳定、负样本拒斥偏差的问题,本文提出SDAR方法:以RL为主干,将自蒸馏设为门控辅助目标,强化正样本蒸馏、软衰减不合理负拒斥。实验显示其在三类任务上较GRPO最高提升10.2%,跨模型尺度的效果、稳定性均优于现有混合基线。


4. SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

作者:Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen…
HF 投票:37
Hugging Facehttps://huggingface.co/papers/2605.15178

AI 摘要

本次研究推出开源2.6B参数世界模型SANA-WM,可精准控制相机生成1分钟720P高保真视频。其采用混合线性注意力、双分支相机控制、两阶段生成、鲁棒标注四大核心设计,画质比肩工业级基线,效率大幅提升:蒸馏量化版单张RTX5090仅需34秒生成1分钟视频,吞吐量为原有开源方案的36倍。


5. Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

作者:Min Zhao, Hongzhou Zhu, Kaiwen Zheng, Zihan Zhou, Bokai Yan…
HF 投票:34
Hugging Facehttps://huggingface.co/papers/2605.15141

AI 摘要

针对实时交互视频生成的低延迟需求,本文提出Causal Forcing++蒸馏框架:针对现有少步自回归扩散初始化对齐差、成本高的瓶颈,采用因果一致性蒸馏,用单步在线教师ODE信号监督,无需预存全轨迹。帧级2步生成下指标优于4步SOTA,首帧延迟降50%,二阶训练成本减75%,还可扩展至动作条件世界模型生成。


📄 arXiv cs.LG(机器学习)

6. Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

作者:Bardh Hoxha, Oliver Sch”on, Hideki Okamoto, Lars Lindemann, Georgios Fainekos

AI 摘要

本文针对部分可观测下视觉输入的过往时间信号时序逻辑可认证运行时监控问题,提出可复用的语义基监控与滚动预测监控两类方案,仅需一次共形校准即可覆盖全目标公式片段,无需逐公式重训。实验表明短时域下滚动方案认证边界更紧,长时域下语义基方案精度高4倍,两类方案均在Waymo实驾数据上通过覆盖率验证。


7. Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

作者:William Lehn-Schi{\o}ler, Magnus Ruud Kj{\ae}r, Rahul Thapa, Magnus Guldberg Pedersen, Anton Storgaard Mosquera…

AI 摘要

针对EEG基础模型性能优异但内部机制不透明、阻碍临床信任的问题,该研究用TopK稀疏自编码器对三款不同架构的EEG Transformer提取稀疏特征字典,结合临床标签评估特征属性,提出跨架构通用超参流程和转向选择性度量方法,明确三类特征运行模式,定位年龄-病理混淆等表征缺陷,还可将隐层干预映射为可解释的生理频谱特征。


8. Rethinking Molecular OOD Generalization via Target-Aware Source Selection

作者:Zhuohao Lin, Kun Li, Jiameng Chen, Jiajun Yu, Duanhua Cao…

AI 摘要

针对AI药物研发中分子属性预测分布外(OOD)泛化评估失真、跨域适配易负迁移的问题,该研究提出基于理化描述子聚类划分的SCOPE-BENCH评估基准,以及POMA多源适配框架:通过强化学习筛选近源数据,双尺度对齐域分布。实验显示现有SOTA模型在新基准上误差平均升5.9倍,POMA可将平均绝对误差最高降11.2%,泛化性能平均提升6.2%。


🟢 OpenAI 官方动态

9. Sea’s View on the Future of Agentic Software Development with Codex

作者:OpenAI

AI 摘要

本内容聚焦冬海集团(Sea Limited)相关行业判断与布局:集团首席产品官披露了其对智能体范式下未来软件开发的趋势判断,明确目前已在全司工程团队全面部署Codex代码大模型,借此大幅提增研发效率,加快面向亚洲市场的AI原生软件开发落地,抢占区域AI应用赛道先发优势。


10. Work with Codex from anywhere

作者:OpenAI

AI 摘要

本文打破Codex原有使用场景限制,推出全场景使用方案:用户可通过ChatGPT移动端应用随时随地调用Codex编码能力,支持跨设备、跨远程环境完成编码任务全流程管控,可实时监控任务进度、动态调整任务方向、审批确认任务产出,显著提升了异地编码协作的灵活性与处理效率。


🪶 Anthropic News

11. Introducing Claude Opus 4.7

作者:Anthropic

AI 摘要

最新大模型Claude Opus 4.7现已正式全面开放可用。该版本为前代Opus 4.6的迭代升级款,核心能力提升集中在高阶软件工程领域,整体相关任务表现明显优于前代,尤其在复杂度最高的极难软件工程任务上性能增益最为突出,可更好支撑高难度代码开发需求。


12. Introducing Claude Design by Anthropic Labs

作者:Anthropic

AI 摘要

Anthropic实验室正式推出全新产品Claude Design。这款产品支持用户与大模型Claude协同开展视觉创作,可高效产出设计方案、交互原型、演示幻灯片、单页宣传物料等多种类别的高完成度视觉成果,为个人及团队的可视化内容产出提供了更便捷的新路径。


🟣 Google DeepMind

13. AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

作者:Google DeepMind

AI 摘要

相关研究披露AlphaEvolve是搭载Gemini大模型能力的智能编码代理,核心依托适配Gemini的专用算法实现编码能力优化升级,当前已在商业场景落地、基础设施运维、前沿科学研究三大领域实现价值规模化渗透,充分验证了大模型驱动的智能编码代理具备跨领域落地的强通用性与实用价值。


14. Enabling a new model for healthcare with AI co-clinician

作者:Google DeepMind

AI 摘要

本研究聚焦AI赋能医疗的全新范式,核心开展两方面工作:一是梳理AI辅助诊疗的落地可行路径,破解临床适配、数据合规等落地痛点;二是研发可与临床医师协作的「AI协诊医师」系统,探索人机协同诊疗标准化流程,为构建精准高效的新型医疗服务体系提供技术支撑。


🤗 Hugging Face Blog

15. Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

作者:Hugging Face

AI 摘要

本次发布的Granite Multilingual R2多语言嵌入模型采用Apache 2.0协议完全开源,参数量低于1亿,支持32K超长上下文窗口,覆盖多语种语义表征需求。实测其检索精度为当前1亿参数以下多语言嵌入模型最优,可适配长文本跨语言检索、多语言RAG等场景,低算力成本下即可实现高性能语义匹配。


16. Unlocking asynchronicity in continuous batching

作者:Hugging Face

AI 摘要

本文针对现有大模型推理连续批处理存在的批内同步等待冗余、异构请求下资源利用率低的问题,提出异步连续批处理框架,解耦请求调度、算子执行、结果回传的时序依赖,消除同步开销。实测显示,该方案较传统连续批处理吞吐量提升32%,长尾延迟降低38%,可适配多负载混合部署场景。


📰 The Gradient

17. After Orthogonality: Virtue-Ethical Agency and AI Alignment

作者:The Gradient

AI 摘要

本文从德性伦理视角研究AI对齐问题,挑战“理性主体必有固定终极目标”的传统假设:提出人类理性行动本质是适配包含行动逻辑、评价标准等要素的实践网络,而非锚定特定目标。要实现AI与人类协作、保障安全,需让AI决策逻辑匹配人类基于实践的行动范式,这对伦理对齐和基础安全均有重要意义。


⚡ 量子位

18. 智能无处不在:OpenClaw预示的AI未来

作者:量子位

AI 摘要

高通推出的OpenClaw实现AI智能体范式转变,推动AI从被动对话助手转向可理解意图、主动执行任务的主动系统。其能效优异,可跨设备无缝运行,仅59美元的轻量开发板即可承载,能完成信息推送、事务管理、内容处理等功能,印证“AI是新UI”的判断,这类AI coworker正成为行业发展方向。


19. 英伟达给黄仁勋儿女涨薪了!年薪百万美元,“凭能力而不是身份”

作者:量子位

AI 摘要

英伟达向美国SEC提交的2026财年文件显示,黄仁勋之女、Omniverse高级总监黄敏珊总薪酬123.2万美元,较上年上涨;之子、机器人领域产品管理总监黄胜斌总薪酬132万美元,同比大幅提升。英伟达强调二人薪酬评定与黄仁勋无关,待遇条款和同岗非亲属员工完全一致。


20. 数亿元融资落地!国内最早布局“人类学习”路线的具身公司,用人类视角重做具身智能

作者:量子位

AI 摘要

国内具身大模型公司深度机智是国内最早系统化布局具身智能“人类学习”路线的团队,主打“先理解物理规律再执行”的逻辑,打造以PhysBrain1.0为核心的全栈技术闭环,登顶五大国际权威具身智能榜单,成立一年累计获数亿元融资,其路线被视为具身AGI的潜在可行路径。