TL;DR · 30 秒看完今日

多款AI重磅产品今日集中发布，覆盖大模型、设计工具、多模态基座等多个品类
AI前沿研究今日多点突破，覆盖参数微调、视频生成、多智能体、具身训练等多个领域
AI产业落地加速推进，谷歌启动亚太环保加速器，多家机构布局具身与企业级AI场景

🔥新品发布🧠前沿研究🤖具身智能🏭产业落地📜政策动态

Hugging Face Daily Papers

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

HF 42 · Mind Lab, Song Cao, Vic Cao… · HF 镜像

本文重新定位参数高效微调（PEFT）的作用：并非仅为全量微调的低成本替代，而是通用大基座上承载偏好、技能等个性化特征的持久适配层。研究从基座能力升级、最小可靠适配器尺寸、多实例共存三个维度展开，配套研发适配器管理系统MinT，验证PEFT可作为万亿参数基座下百万级个性化模型的紧凑实现载体。

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

HF 17 · Hidir Yesiltepe, Jiazhen Hu, Tuna Han Salih Meral… · HF 镜像

针对分钟级自回归视频扩散逐头KV缓存占存高、现有优化未触及核心结构的问题，本文提出VideoMLA，用共享低秩内容隐变量+解耦3D-RoPE位置键替换逐头KV，修正了该类方法原有低秩假设的解释偏差。实测KV存储降92.7%，长视频生成效果最优，单B200吞吐量提1.23倍，短序列表现追平基线。

Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

HF 15 · Haozhe Zhao, Shuzheng Si, Zhenhailong Wang… · HF 镜像

针对现有科研绘图自动化工具仅支持单类图表、仅接受文本输入、输出不可编辑的痛点，该研究提出多智能体框架Crafter，无需调整架构即可适配多类图表、多输入形式，配套CraftEditor可将输出栅格图转可编辑SVG，还构建了评测基准CraftBench。实验显示其生成、转换效果均优于现有基线，相关资源已开源。

K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

HF 14 · Nahyun Lee, Dongkeun Yoon, Guijin Son… · HF 镜像

当前大模型评估正从基础能力转向组合式智能体能力，但韩语智能体基准稀缺。研究推出K-BrowseComp韩语网页浏览智能体基准，含300道母语者人工验证题、100道针对失效模式生成的对抗诊断题。测试显示前沿通用大模型准确率最高仅45.67%，韩国本土大模型最高仅10.33%，对抗集上最强模型仅26%，相关数据代码已开源。

X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

HF 13 · Peiwen Sun, Xudong Lu, Huadai Liu… · HF 镜像

针对现有视频理解基准仅适配单流范式，无法满足体育直播、自动驾驶等场景跨流推理评估需求，该研究推出首个多流理解基准X-Stream，含4220条经双验证的问答对，覆盖三类场景11项子任务。研究将多模态大模型视作复用器评测，发现当前SOTA模型多流任务得分仅约50%、主动能力薄弱，可为后续多流智能体研发提供评估支撑与实证指导。

arXiv cs.LG（机器学习）

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

Jiayu Zhao, Zihan Teng, Minhao Fan…

针对MoE大模型部署内存占用高、现有超低比特量化精度损失大的问题，本文提出谱能引导的MoE量化框架BitsMoE：将每层经SVD分解为免量化的共享基（保留专家间共性结构）与专家专属量化单元，通过整数线性规划在固定比特预算下最优分配位宽。实验显示2比特量化时较GPTQ精度升27.83个点，量化提速12.3倍、解码提速1.76倍。

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

Michel Dione (CERI SN - IMT Nord Europe), Jerry Lonlac (CERI SN - IMT Nord Europe), H’el`ene Louis (CERI SN - IMT Nord Europe)…

针对分布式声传感（DAS）数据维度高、模式复杂，现有分类算法长距离依赖捕获不足、算力成本高的问题，提出混合多分支Transformer DAStatFormer：先提取ANOVA筛选的多域统计特征大幅降维，分域用专属注意力分支处理后自适应门控融合。实验显示其最高准确率达99.4%，参数量、推理成本远低于同类模型，适配大规模实时DAS监测。

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Cl’ement B’enard, Manon Arfib, Christophe Labreuche…

针对高风险计算机视觉任务对深度学习可解释性的需求，以及现有概念瓶颈模型（CBM）线性聚合概念导致可解释性下降、易信息泄露、难拟合非线性关系的缺陷，该研究提出霍夫丁概念瓶颈模型（HCBM），基于梯度提升树的霍夫丁函数分解实现概念得分的非线性稀疏聚合，可抗概念间泄露，性能优于标准线性CBM，还可适配目标检测，在航拍图像任务中表现优异。

OpenAI 官方动态

Our views on AI policy and political advocacy

OpenAI

近年AI监管趋严、企业政治关联争议频发的背景下，这份文件是相关企业针对AI政策制定、政治参与倡导领域发布的官方立场说明。其核心主张包括三方面：相关工作全程秉持公开透明原则；支持经充分论证的审慎监管规则，高度重视AI安全治理；同时明确无任何外部政治团体可代表该企业发声，主动划清立场边界。

Building the infrastructure for the Intelligence Age in Michigan

OpenAI

近日OpenAI为搭建智能时代基础设施，在密歇根州破土动工其“星门（Stargate）”计划项下的1GW超大型数据中心项目。该项目一方面将夯实AI算力底座、扩大AI服务可及性，另一方面将为当地创造就业岗位、配套支持社区发展，也为密歇根抢占智能时代产业发展先机提供核心支撑。

Anthropic News

Introducing Claude Opus 4.8

Anthropic

本次Anthropic推出的Claude Opus 4.8是Opus级大模型的最新迭代、也是该系列当前最强版本。该模型针对核心能力做了迭代优化，在编程开发、智能体任务、各行业专业场景工作中表现均有显著提升，同时优化了长时任务处理的一致性，能够可靠支撑持续运行的高复杂度工作流需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic实验室正式发布全新产品Claude Design。作为大模型Claude的配套创作工具，它支持用户与Claude协同产出高完成度的专业视觉作品，适用场景涵盖平面设计、交互原型、演示幻灯片、单页宣传物料等，可降低设计门槛，帮助无专业设计能力的用户快速完成视觉内容生产。

Google DeepMind

We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks

Google DeepMind

谷歌DeepMind近日启动亚太区加速器项目，聚焦应对区域气候灾害、生物多样性退化、污染等环境风险。项目将联动亚太本地科研、科创主体，落地AI大模型、深度学习技术在环境监测、风险预警、减污降碳等场景的应用，探索AI赋能区域环境治理、绿色发展的可复制落地方案。

Fast-tracking genetic leads to reverse cellular aging

Google DeepMind

本研究聚焦细胞衰老逆转的遗传靶点快速发掘，核心方法为生物学家采用名为Co-Scientist的AI辅助科研系统开展筛选，最终成功挖掘出此前未被报道的新型调控因子，经验证可有效实现人类细胞年轻化重编程。该路径大幅压缩抗衰靶点研发周期，为衰老干预及相关疾病治疗研究提供了新方向。

Hugging Face Blog

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

Hugging Face

JetBrains发布120亿参数量的混合专家（MoE）大模型Mellum2，采用稀疏激活设计，单步仅激活36亿参数，主打代码场景优化。它在多语言代码生成、理解、调试等基准测试中，性能追平甚至超过700亿参数级密集型大模型，推理成本仅为同性能密集模型的1/3，后续将适配其全系列IDE的智能代码辅助场景。

Beyond LLMs: Why Scalable Enterprise AI Adoption Depends on Agent Logic