TL;DR · 30 秒看完今日

今日集中发布多模态智能体、灵巧操作、图像生成等十余项AI前沿技术研究与工具成果
OpenAI、Anthropic、谷歌等头部厂商接连推出大模型新品并公布多领域落地合作
AI算力竞赛、高校人才对接、行业线下峰会等产业相关活动动态同步释出

📈前沿技术🔥大厂动态🧠大模型💡产业落地⚡行业活动

Hugging Face Daily Papers

MMSkills: Towards Multimodal Skills for General Visual Agents

HF 35 · Kangning Zhang, Shuai Shao, Qingyao Li… · HF 镜像

针对现有视觉智能体可复用技能多为文本、代码形式，缺失多模态过程性知识的问题，该文提出MMSkills框架，配套轨迹转技能生成器与分支加载的技能调用机制，将文本操作流程与多视角关键帧、状态卡绑定。实验显示其可普遍提升不同规模多模态智能体在GUI、游戏类基准上的表现，验证了外部多模态过程知识的补充价值。

DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

HF 20 · Hanwen Wang, Weizhi Zhao, Xiangyu Wang… · HF 镜像

针对现有灵巧手操作基准未体现其相对平行夹爪的操作优势、评估体系不完善的问题，本文提出MuJoCo平台上面向任务的灵巧操作基准与工具集DexJoCo，覆盖工具使用、双臂协同等11类任务，配套低成本采数系统及1.1k条轨迹，支持域随机化评估。团队测试了多场景下的现有主流模型，明确了当前策略的共性缺陷，为后续灵巧手机器人学习研究指出核心挑战。

Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

HF 19 · Chanuk Lee, Sangwoo Park, Minki Kang… · HF 镜像

针对带可验证奖励的大模型强化学习（RLVR）现有探索效率低、算力成本高的痛点，本文提出NudgeRL框架：通过策略微调机制为采样轨迹注入轻量策略上下文，引导生成多样化推理路径，再设计拆分跨/同上下文奖励的统一目标，将探索能力蒸馏回基础策略。在5个数学基准上，其效果超过8倍采样预算的GRPO，也优于专家引导的RL基线，效率显著提升。

InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation

HF 19 · Yang Yue, Fangyun Wei, Tianyu He… · HF 镜像

针对基于离散分词的自回归图像生成文字模糊、人脸失真的痛点，该研究提出InsightTok离散视觉分词框架，新增局部内容感知的感知损失优化训练目标。在16倍下采样、16k码本配置下，其文字、人脸重建效果优于现有分词器，迁移至自回归生成可产出文字更清晰、人脸更保真的图像，且不损失通用重建质量。

FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization

HF 10 · Quanjian Song, Yefeng Shen, Mengting Chen… · HF 镜像

针对现有服饰级人像视频定制方案延迟高、无法支持交互控款的痛点，本文提出FashionChameleon实时交互生成框架，靠单服饰对上下文学习教师模型、流蒸馏提效、免训练KV缓存重调度三项技术，可在生成中交互换衣且保运动连贯性，单GPU跑速达23.8FPS，较现有方案快30-180倍，适配电商、内容创作场景。

OpenAI 官方动态

OpenAI and Malta partner to bring ChatGPT Plus to all citizens

OpenAI

近日OpenAI与马耳他达成普惠AI落地合作，系全球首个面向全体国民的ChatGPT Plus全覆盖项目。双方将为所有马耳他公民提供ChatGPT Plus使用权限，同步配套AI相关培训服务，核心目标是扩大优质AI工具可及性，帮助民众掌握实用AI技能、建立负责任使用AI的认知，也为其他地区探索公共领域普惠AI推广路径提供参考。

How business operations teams use Codex

OpenAI

本研究聚焦Codex在企业业务运营场景的落地价值，梳理出运营团队的明确使用路径：可依托真实工作输入，自动生成项目立项简报、战略更新材料、领导层决策包、进度通报等各类办公文书。该应用可缩减运营人员文案撰写耗时，提升材料产出效率与规范性，为企业运营数智化升级提供可直接复用的实践参考。

Anthropic News

Introducing Claude Opus 4.7

Anthropic

最新大模型Claude Opus 4.7现已正式全面开放。相较于前代版本Opus 4.6，该模型在高级软件工程领域的能力实现了显著升级，针对该领域复杂度最高的任务，性能增益尤为突出，可更好适配高难度代码开发、复杂系统调优等专业软件工程场景的使用需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic实验室正式推出全新产品Claude Design。该产品支持用户与Claude大模型协同开展视觉创作，可输出完成度较高的设计稿、交互原型、演示幻灯片、单页宣传物料等各类视觉作品，打破了Claude此前偏文本处理的能力边界，拓展了生成式AI的落地应用场景。

Google DeepMind

AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

Google DeepMind

本成果聚焦智能编程代理AlphaEvolve的跨域落地价值，该工具核心采用Gemini大模型驱动的多行业适配专属算法，可实现规模化能力输出，目前已在商业经营提效、基础设施运维优化、前沿科学研究辅助三大场景落地验证，证实了大模型编程代理向多领域输出生产力的可行性。

Enabling a new model for healthcare with AI co-clinician

Google DeepMind

本研究聚焦AI赋能医疗的全新服务范式，核心探索AI增强型临床诊疗的可落地实施路径，重点攻关「AI协诊医生」的技术研发与临床场景适配体系，旨在通过人机协同补位医疗资源缺口、提升诊疗效率与决策精准度，为构建优质可及的普惠医疗新模式提供技术与实践支撑。

Hugging Face Blog

Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

Hugging Face

本次推出的Granite Embedding Multilingual R2是一款多语言嵌入模型，以Apache 2.0协议完全开源。该模型参量不足1亿，支持最长32K上下文输入，经实测在多语言检索任务上表现优于同量级竞品，是当前1亿参数以下嵌入模型中检索质量最优的方案，可广泛适配各类长文本多语言检索场景。

Unlocking asynchronicity in continuous batching

Hugging Face

当前你仅提供了该论文的标题，未附上摘要的具体正文内容，缺少核心的技术方法、实验设置、结论成果等关键信息，无法完成翻译提炼工作。请你补充完整该论文的摘要文本，我会按照要求为你生成120字左右、突出方法与结论的简洁中文总结。

The Gradient

After Orthogonality: Virtue-Ethical Agency and AI Alignment

The Gradient

本文聚焦AI对齐议题，挑战正交性假设底层预设，反驳“理性主体需以固定终极目标为导向”的观点，提出人类理性源于行动适配内含规范的社会实践体系。主张AI决策逻辑需匹配人类实践导向的行动逻辑，才能适配人类能动性，同时实现伦理对齐与核心安全要求。

AI 每日精选 · 2026-05-18