TL;DR · 30 秒看完今日

多模态、AI Agent领域发布多项前沿研究，Anthropic推出Claude Opus 4.8及Claude Design两款新品
AI加速落地医疗、内容安全、环保等场景，谷歌DeepMind在亚太启动专项加速器项目
国内AI与实体产业融合提速，比亚迪智驾价值重估，物理AI成果获国际头部企业关注

🧠 前沿研究🔥 模型发布💡 产业落地🚗 智能驾驶🌍 跨域应用

Hugging Face Daily Papers

VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

HF 20 · Lin Fu, Zheyuan Yang, Yang Wang… · HF 镜像

本文推出VideoKR，是首个面向知识与推理密集型视频理解的大规模训练语料，覆盖14.5万专业领域视频、31.5万推理样本，配套人在环的高质量样本生成管线与专家标注测试集。实验表明，经该语料训练的模型在知识密集型视频推理任务上优于现有方案，通用任务表现也保持竞争力，验证了数据设计对视频推理发展的核心作用。

Personal AI Agent for Camera Roll VQA

HF 11 · Thao Nguyen, Krishna Kumar Singh, Donghyun Kim… · HF 镜像

该研究聚焦个人相册视觉问答场景，首先构建了覆盖50位用户、3.1万张图像、2500组问答对的标注数据集camroll，随后设计搭载分层记忆与轻量化检索工具的智能体camroll-agent。实验证明其性能优于多种长上下文理解基线，同时明确个性化视觉记忆推理需采用区别于常规文本长记忆的方案，填补了相关研究缺口。

Rethinking Continual Experience Internalization for Self-Evolving LLM Agents

HF 8 · Jingwen Chen, Wenkai Yang, Shengda Fan… · HF 镜像

针对现有大语言模型经验内化方法仅适配单次迭代、多轮学习时出现能力崩塌的问题，研究从三个维度优化：选用抽象可迁移的原则级而非实例级经验，采用匹配中间决策状态的分步而非全局经验注入，用高质量教师轨迹的离策略蒸馏替代同策略蒸馏，最终得到稳定可持续的经验内化方案，为自进化持续学习大模型研发提供明确指导。

LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing

HF 6 · Jianzong Wu, Hao Lian, Jiongfan Yang… · HF 镜像

针对现有统一视频生成编辑模型参数量大、拼接条件token算力开销过高的痛点，本文提出5B参数量的统一架构LoomVideo：用多模态大模型替代常规文本编码器，采用零开销缩放叠加条件注入、负时间RoPE等设计。实测其性能达SOTA级，推理速度较同能力模型快至少5.41倍，在电商、时尚生成场景优势尤为突出。

Unsupervised Skill Discovery for Agentic Data Analysis

HF 6 · Zhisong Qiu, Kangqi Song, Shengwei Tang… · HF 镜像

针对数据分析智能体无监督挖掘可复用技能的难题，本文提出DataCOPE无监督验证引导的技能发现框架：从探索轨迹提取验证信号，迭代协调轨迹生成、无监督验证、对比技能蒸馏三类模块，针对报告、推理两类分析场景适配不同验证器。实测显示，其相比基线在两类任务上平均分别提分9.71%、32.30%，泛化性能更优。

arXiv cs.LG（机器学习）

Early Detection of Alzheimer’s Disease Using Explainable Machine Learning on Clinical Biomarkers: A Multi-Class Classification Study Using the Alzheimer’s Disease Neuroimaging Initiative (ADNI) Dataset

Afshan Hashmi

本研究针对阿尔茨海默病早筛需求，基于ADNI数据集的8项常规临床特征，构建可解释XGBoost三分类模型，区分正常认知、轻度认知障碍与阿尔茨海默病，用SMOTE处理类别不平衡，以SHAP分析特征重要性。模型测试集宏AUC达0.982，性能优异，识别出各类别对应核心预测特征，临床有效性获验证，后续将融合语音生物标志物拓展多模态检测。

Novel Aspects of IEEE SA P3109 Arithmetic Formats for Machine Learning

Andrew Fitzgibbon, Christoph M. Wintersteiger, Jeffrey Sarnoff

本文介绍面向机器学习的IEEE P3109浮点标准草案，提出可配置位宽、精度、符号、无穷值支持的参数化低比特浮点格式，定义含随机舍入的多类舍入饱和模式，采用无异常返回值设计提升算力吞吐，新增kappa近似度量适配厂商近似实现需求，所有规则均经形式化验证生成，可高效适配AI运算场景。

Position: Deployed Reinforcement Learning should be Continual

Parnian Behdin, Kevin Roice, Golnaz Mesbahi

这是一篇强化学习（RL）立场论文，指出当前主流的“训练后固定运行、性能退化才重训”的部署范式存在局限，提出部署后仍接收奖励信号的RL系统本质属于持续RL问题，需持续适配四类部署后的非稳态因素。论文结合现实成功案例，明确了转向持续RL范式的优势与推进方向。

OpenAI 官方动态

How Endava is redesigning software delivery around AI agents

OpenAI

本内容介绍企业级科技服务商Endava围绕AI代理重构软件交付体系的实践：其核心落地工具涵盖AI代理、ChatGPT企业版与Codex大模型，既直接加速软件交付全流程、实现常规工作流自动化降本，也同步在全企业范围内推动AI原生文化建设，搭建AI赋能研发的长效落地体系。

Dreaming: Better memory for a more helpful ChatGPT

OpenAI

这篇面向ChatGPT交互体验优化的研究，针对当前版本跨会话易遗忘用户偏好、上下文匹配度低的痛点，提出名为“Dreaming”的新型记忆系统。该系统可长效留存用户个性化交互偏好，保障跨会话场景下上下文的时效性与相关性，能提升ChatGPT的回应适配性，为用户提供更贴合需求的交互服务。

Anthropic News

Introducing Claude Opus 4.8

Anthropic

Anthropic最新推出的Claude Opus 4.8是Opus系列大模型的升级版本，核心能力实现多维度提升：编码任务、智能体任务、专业领域工作的处理效果均显著优于前代，同时运行一致性大幅优化，可稳定支撑长周期复杂任务的连续处理，能更好适配开发、专业办公等场景的高阶使用需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic实验室正式发布全新自研产品Claude Design。此前主打文本交互能力的大模型Claude新增视觉协作功能，支持用户与其协同产出完成度高、效果精良的各类可视化工作成果，适用场景覆盖设计稿、交互原型、演示幻灯片、单页宣传物料等，进一步拓展了生成式AI的落地应用边界。

Google DeepMind

We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks

Google DeepMind

谷歌DeepMind近期在亚太地区启动专项加速器项目，核心目标为应对各类环境风险。项目将为环境领域的本地科创团队、科研机构提供DeepMind的AI技术支撑、算力资源与产业对接渠道，重点支持气候建模、灾害预警、生态监测等方向的技术落地，预期可提升亚太区域环境风险防控的智能化水平。

Fast-tracking genetic leads to reverse cellular aging

Google DeepMind

本研究聚焦反向细胞衰老的遗传线索快速发掘，核心方法为生物学家使用Co-Scientist科研辅助工具开展筛选，最终成功发现多种此前未被报道的新型调控因子，实验验证其可有效实现人类细胞的年轻化重编程，为衰老干预及抗衰药物研发提供了全新候选作用靶点。

Hugging Face Blog

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

Hugging Face

本文介绍面向全球企业AI场景的Nemotron 3.5多模态内容安全方案，支持企业结合属地合规要求、自身业务规则自定义审核维度与阈值，可精准识别文本、图像等多模态输入输出的各类风险。实测该方案较通用安全工具误漏判率更低，能有效降低企业AI落地的合规风险，适配企业级生成式AI部署需求。

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios