AI 每日精选 · 2026-05-18
由 cron 每日 08:00 北京自动从 HF Daily Papers + arxiv cs.LG 抓取,豆包翻译/摘要。仅供参考。
🤗 Hugging Face Daily Papers
1. MMSkills: Towards Multimodal Skills for General Visual Agents
作者:Kangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu…
HF 投票:35
Hugging Face:https://huggingface.co/papers/2605.13527
AI 摘要:
针对现有视觉智能体可复用技能多为文本、代码形式,缺失多模态过程性知识的问题,该文提出MMSkills框架,配套轨迹转技能生成器与分支加载的技能调用机制,将文本操作流程与多视角关键帧、状态卡绑定。实验显示其可普遍提升不同规模多模态智能体在GUI、游戏类基准上的表现,验证了外部多模态过程知识的补充价值。
2. DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo
作者:Hanwen Wang, Weizhi Zhao, Xiangyu Wang, Siyuan Huang, He Lin…
HF 投票:20
Hugging Face:https://huggingface.co/papers/2605.16257
AI 摘要:
针对现有灵巧手操作基准未体现其相对平行夹爪的操作优势、评估体系不完善的问题,本文提出MuJoCo平台上面向任务的灵巧操作基准与工具集DexJoCo,覆盖工具使用、双臂协同等11类任务,配套低成本采数系统及1.1k条轨迹,支持域随机化评估。团队测试了多场景下的现有主流模型,明确了当前策略的共性缺陷,为后续灵巧手机器人学习研究指出核心挑战。
3. Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR
作者:Chanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang
HF 投票:19
Hugging Face:https://huggingface.co/papers/2605.15726
AI 摘要:
针对带可验证奖励的大模型强化学习(RLVR)现有探索效率低、算力成本高的痛点,本文提出NudgeRL框架:通过策略微调机制为采样轨迹注入轻量策略上下文,引导生成多样化推理路径,再设计拆分跨/同上下文奖励的统一目标,将探索能力蒸馏回基础策略。在5个数学基准上,其效果超过8倍采样预算的GRPO,也优于专家引导的RL基线,效率显著提升。
4. InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation
作者:Yang Yue, Fangyun Wei, Tianyu He, Jinjing Zhao, Zanlin Ni…
HF 投票:19
Hugging Face:https://huggingface.co/papers/2605.14333
AI 摘要:
针对基于离散分词的自回归图像生成文字模糊、人脸失真的痛点,该研究提出InsightTok离散视觉分词框架,新增局部内容感知的感知损失优化训练目标。在16倍下采样、16k码本配置下,其文字、人脸重建效果优于现有分词器,迁移至自回归生成可产出文字更清晰、人脸更保真的图像,且不损失通用重建质量。
5. FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization
作者:Quanjian Song, Yefeng Shen, Mengting Chen, Hao Sun, Jinsong Lan…
HF 投票:10
Hugging Face:https://huggingface.co/papers/2605.15824
AI 摘要:
针对现有服饰级人像视频定制方案延迟高、无法支持交互控款的痛点,本文提出FashionChameleon实时交互生成框架,靠单服饰对上下文学习教师模型、流蒸馏提效、免训练KV缓存重调度三项技术,可在生成中交互换衣且保运动连贯性,单GPU跑速达23.8FPS,较现有方案快30-180倍,适配电商、内容创作场景。
🟢 OpenAI 官方动态
6. OpenAI and Malta partner to bring ChatGPT Plus to all citizens
作者:OpenAI
AI 摘要:
近日OpenAI与马耳他达成普惠AI落地合作,系全球首个面向全体国民的ChatGPT Plus全覆盖项目。双方将为所有马耳他公民提供ChatGPT Plus使用权限,同步配套AI相关培训服务,核心目标是扩大优质AI工具可及性,帮助民众掌握实用AI技能、建立负责任使用AI的认知,也为其他地区探索公共领域普惠AI推广路径提供参考。
7. How business operations teams use Codex
作者:OpenAI
AI 摘要:
本研究聚焦Codex在企业业务运营场景的落地价值,梳理出运营团队的明确使用路径:可依托真实工作输入,自动生成项目立项简报、战略更新材料、领导层决策包、进度通报等各类办公文书。该应用可缩减运营人员文案撰写耗时,提升材料产出效率与规范性,为企业运营数智化升级提供可直接复用的实践参考。
🪶 Anthropic News
8. Introducing Claude Opus 4.7
作者:Anthropic
AI 摘要:
最新大模型Claude Opus 4.7现已正式全面开放。相较于前代版本Opus 4.6,该模型在高级软件工程领域的能力实现了显著升级,针对该领域复杂度最高的任务,性能增益尤为突出,可更好适配高难度代码开发、复杂系统调优等专业软件工程场景的使用需求。
9. Introducing Claude Design by Anthropic Labs
作者:Anthropic
AI 摘要:
Anthropic实验室正式推出全新产品Claude Design。该产品支持用户与Claude大模型协同开展视觉创作,可输出完成度较高的设计稿、交互原型、演示幻灯片、单页宣传物料等各类视觉作品,打破了Claude此前偏文本处理的能力边界,拓展了生成式AI的落地应用场景。
🟣 Google DeepMind
10. AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields
作者:Google DeepMind
AI 摘要:
本成果聚焦智能编程代理AlphaEvolve的跨域落地价值,该工具核心采用Gemini大模型驱动的多行业适配专属算法,可实现规模化能力输出,目前已在商业经营提效、基础设施运维优化、前沿科学研究辅助三大场景落地验证,证实了大模型编程代理向多领域输出生产力的可行性。
11. Enabling a new model for healthcare with AI co-clinician
作者:Google DeepMind
AI 摘要:
本研究聚焦AI赋能医疗的全新服务范式,核心探索AI增强型临床诊疗的可落地实施路径,重点攻关「AI协诊医生」的技术研发与临床场景适配体系,旨在通过人机协同补位医疗资源缺口、提升诊疗效率与决策精准度,为构建优质可及的普惠医疗新模式提供技术与实践支撑。
🤗 Hugging Face Blog
12. Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality
作者:Hugging Face
AI 摘要:
本次推出的Granite Embedding Multilingual R2是一款多语言嵌入模型,以Apache 2.0协议完全开源。该模型参量不足1亿,支持最长32K上下文输入,经实测在多语言检索任务上表现优于同量级竞品,是当前1亿参数以下嵌入模型中检索质量最优的方案,可广泛适配各类长文本多语言检索场景。
13. Unlocking asynchronicity in continuous batching
作者:Hugging Face
AI 摘要:
当前你仅提供了该论文的标题,未附上摘要的具体正文内容,缺少核心的技术方法、实验设置、结论成果等关键信息,无法完成翻译提炼工作。请你补充完整该论文的摘要文本,我会按照要求为你生成120字左右、突出方法与结论的简洁中文总结。
📰 The Gradient
14. After Orthogonality: Virtue-Ethical Agency and AI Alignment
作者:The Gradient
AI 摘要:
本文聚焦AI对齐议题,挑战正交性假设底层预设,反驳“理性主体需以固定终极目标为导向”的观点,提出人类理性源于行动适配内含规范的社会实践体系。主张AI决策逻辑需匹配人类实践导向的行动逻辑,才能适配人类能动性,同时实现伦理对齐与核心安全要求。
⚡ 量子位
15. 一只机器狗,把英伟达的算力王座拱翻了
作者:量子位
AI 摘要:
此前消费级四足机器人普遍重运动能力、感知算力薄弱,多沿用英伟达主流方案,自主理解环境能力不足。蔚蓝科技新发布的BabyAlpha A3跳出英伟达技术路径,采用6芯异构计算集群,配高规格感知系统,算力效率达行业10倍以上,可端侧运行70亿参数大模型,推动消费级机器人从“会动”迈入“能理解环境”的新阶段。
16. 世界大学生超级计算机竞赛首设“英才对接”环节,搭建“赛场—职场”人才供需桥梁
作者:量子位
AI 摘要:
5月16日至20日,ASC26世界大学生超算总决赛在无锡开赛,25支全球顶尖高校队伍在5000W功耗限制下比拼多领域高难度赛题。本届赛事首设“英才对接”环节,联动超算、AI头部企业搭建“赛场直通职场”桥梁,破解产业用人难与学子就业难的供需错位,吸引青年人才投身国产算力建设。
17. Agent、多模态、应用、算力一天看尽,峰会亮点在此|5.20日,来现场一起AI
作者:量子位
AI 摘要:
2026年AI产业高速发展,大众普遍对AI应用路径、入局机遇等存在困惑。第四届中国AIGC产业峰会将于5月20日举办,集结18位产学研全球重磅嘉宾,覆盖Agent商业化、多模态技术、场景落地、算力基建等核心议题,还将发布年度榜单与行业图谱,一站式呈现年度AI产业核心动向。