TL;DR · 30 秒看完今日

Anthropic正式发布Claude Opus 4.7和Claude Design，谷歌推出Gemini驱动的AlphaEvolve编码Agent
腾讯开源Agent记忆方案最高降61%Token消耗，阿里悟空AI应用启动规模化放量，Robotaxi股大涨
十余个AI前沿技术成果公布，覆盖多模态、长上下文、大模型基建、安全等领域

🔥模型发布📈行业动态🧠前沿研究💡开源进展⚙️基建方案

Hugging Face Daily Papers

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

HF 81 · Alan Arazi, Eilam Shapira, Shoham Grunblat… · HF 镜像

针对现有表格基础模型不原生支持图文非结构化模态、现有多模态表格基准存在评估偏差的问题，本文推出含40个数据集的MulTaBench基准，均分图像-表格、文本-表格任务，侧重模态信号互补场景。实验验证任务感知表示调优增益跨模态、模型等均通用，可支撑多模态表格基础模型研发。

MinT: Managed Infrastructure for Training and Serving Millions of LLMs

HF 66 · Mind Lab, Song Cao, Vic Cao… · HF 镜像

本文提出面向LoRA微调与在线服务的托管基础设施MinT，无需生成合并全量 checkpoint，常驻基座模型仅流转LoRA适配器，从适配超大规模基座、压缩流转开销、解耦策略存储与算力工作集三个维度优化，可支撑百万级LoRA策略库，在共享1T参数级基座的前提下，大幅提升训练、加载、多策略并行效率，降低显存占用。

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

HF 62 · Yuchao Gu, Guian Fang, Yuxin Jiang… · HF 镜像

针对一致性蒸馏的少步视频生成模型采样步数增加时性能下降、无法适配任意步数采样的问题，本文提出AnyFlow任意步视频扩散蒸馏框架，将蒸馏目标从端点一致性映射改为任意时间区间的流图迁移，结合流图反向模拟实现高效同策略蒸馏。实验表明，其少步生成性能不逊于同类方法，且性能可随采样步数预算同步提升。

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

HF 48 · Zhaowei Wang, Lishu Luo, Haodong Duan… · HF 镜像

针对长上下文多模态大模型训练的长数据配比方案欠缺问题，本文经系统消融实验明确3项训练优化准则，仅用5B token对Qwen2.5-VL-7B做持续预训练，推出MMProLong。其将上下文窗口从32K拓展至128K，长文档VQA精度提7.1%，无需额外训练即可外推至512K上下文，适配多类长场景，提供了可落地的训练范式。

Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling

HF 35 · Eilam Shapira, Moshe Tennenholtz, Roi Reichart · HF 镜像

本文针对AI智能体与陌生对手交互时的决策预测问题，提出目标自适应文本-表格建模框架，新增冻结小模型隐态作为观察者特征，仅用隐层信息而非输出。测试中模型效果优于直接大模型提示基线，交互16次时预测AUC提升4个点，报价误差降14%，验证了框架及隐态特征的有效性。

arXiv cs.LG（机器学习）

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Adam Haroon, Erick J. Rodr’iguez-Seda, Cody Fleming…

该研究面向安全强化学习，跳出“智能体该做什么”的常规思路，转而研究“何时需要决策”的问题，联合学习控制输入与低通信开销的决策时序，搭配逐点李亚普诺夫安全护盾和运行时保障层，可提供更强安全保证。实验显示其采样间隔较传统基线最高提3.51倍，同速率固定LQR完全失稳，方案还支持跨环境迁移、适配高维系统，鲁棒性优异。

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

Mushir Akhtar, M. Tanveer, Mohd. Arshad

针对无反向传播的随机神经网络传统初始化无视特征依赖、劣化性能的问题，本文提出Copula对齐权重初始化框架CAWI：基于数据拟合的Copula采样输入-隐层权重，捕捉特征关联、非对称及尾依赖特性，保留原输出层闭式解优势。经83个通用分类基准、2个生物医学数据集验证，该方法相较传统初始化性能提升显著。

Towards Robust Federated Multimodal Graph Learning under Modality Heterogeneity

Sirui Zhang, Haonan Wang, Xunkai Li…

针对联邦多模态图学习的模态异质性痛点，现有方案存在客户端补全缺全局语义、服务端聚合受更新可靠性差异干扰的问题，本文提出FedMPO框架，采用拓扑感知跨模态生成、缺失感知信号滤波、可靠性加权聚合设计。6个数据集3类任务实验显示，其在高缺失、非IID场景下较基线最高提升4.10%、5.65%，性能显著领先。

OpenAI 官方动态

Building a safe, effective sandbox to enable Codex on Windows

OpenAI

OpenAI针对Windows平台部署Codex的安全需求，打造了专用安全沙箱方案，核心通过精细化管控文件访问权限、限制网络访问边界两类机制实现安全隔离。该方案既保障了Codex编码代理的运行效率，又可规避代码执行时的系统篡改、未授权数据调取、恶意联网等风险，为大模型代码工具在Windows端的安全落地提供了可行路径。

Our response to the TanStack npm supply chain attack

OpenAI

针对TanStack“Mini Shai-Hulud”npm供应链攻击事件，OpenAI公开了官方处置详情：已完成自身系统、签名证书的安全加固，排查明确了事件影响范围，同时要求所有macOS端用户务必在2026年6月12日前更新OpenAI旗下应用。后续OpenAI将升级防御体系，应对持续演变的软件供应链安全风险。

Anthropic News

Introducing Claude Opus 4.7

Anthropic

最新大模型Claude Opus 4.7现已全面开放使用。相较前代版本Opus 4.6，该版本核心能力提升集中在高阶软件工程领域，尤其是处理高难度复杂开发任务的表现有显著增益，可更好适配复杂编码、系统设计、疑难问题排查等专业开发场景需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic实验室正式发布全新产品Claude Design。该产品支持用户与Claude协同开展创作，能够产出完成度较高的各类专业视觉成果，适用场景涵盖设计方案、交互原型、演示幻灯片、单页宣传材料等，为有视觉内容产出需求的用户提供了便捷的AI协作创作工具。

Google DeepMind

AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

Google DeepMind

本文介绍智能编码代理AlphaEvolve，其核心算法以Gemini大模型为底座，可高效完成代码生成、调试、场景适配等复杂任务。目前该系统已实现跨域规模化落地，在商业运营提效、基础设施运维迭代、前沿科学研究辅助三大场景均取得显著价值，验证了大模型驱动的编码代理具备极强的泛化落地潜力。

Enabling a new model for healthcare with AI co-clinician

Google DeepMind

本文探索AI赋能医疗新范式，重点研究AI辅助诊疗落地路径，开发“AI协诊医师”新型模型。该模型定位为临床医生的协作伙伴而非替代者，可补足医生认知边界、降低误诊漏诊率、提升诊疗效率，为适配一线临床流程、推动传统医疗向人机协同新型服务模式转型提供可行方向。

Hugging Face Blog

Building Blocks for Foundation Model Training and Inference on AWS

Hugging Face

本文聚焦基础模型云原生训推需求，梳理AWS平台大模型全流程技术支撑组件：训练侧整合分布式算力集群、并行训练框架优化、弹性存储模块；推理侧配套低延迟部署、自动扩缩容、成本管控套件。实测该方案算力利用率提升超30%，训推成本最高降40%，为云原生大模型落地提供标准化参考。

EMO: Pretraining mixture of experts for emergent modularity