TL;DR · 30 秒看完今日

OpenAI正式落地新加坡，Anthropic推出Claude Opus 4.7、Claude Design两款全新AI产品
AI视频生成编辑、GUI智能体、扩散模型推理等多个技术方向均有新研究发布
苏姿丰上海开讲AI计算新趋势，国内首个全栈具身智能仿真平台正式亮相

📈产业动态🔥大模上新🧠学术研究💡国产进展⚡视频AI

Hugging Face Daily Papers

Process Rewards with Learned Reliability

HF 20 · Jinyuan Li, Langlin Huang, Chengsong Huang… · HF 镜像

针对现有过程奖励模型（PRM）仅输出单步点奖励、无法判断预测可信度的缺陷，本文提出分布型PRM BetaPRM，通过Beta-二项似然同时学习步级成功率和预测可靠性，配套自适应计算分配策略ACA。多组实验显示，BetaPRM保留原有错检能力，配合ACA较固定预算方案最多省33.57%token，且能提升最终答案准确率。

Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

HF 17 · Yuqi Tang, Yang Shi, Zhuoran Zhang… · HF 镜像

针对AI生成视频普遍存在伪影、现有基准缺乏对多模态大模型（MLLM）伪影识别能力系统评估的问题，该研究推出Artifact-Bench基准，覆盖三类视频风格、设置三项关联评估任务，测试19款主流MLLM后发现：这类模型伪影感知推理能力缺陷明显，判断结果与人类偏好偏差大，难以作为生成视频真实性的通用评估工具。

CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

HF 14 · Hongji Yang, Songlian Li, Yucheng Zhou… · HF 镜像

针对现有扩散视频生成模型对抽象、稀疏创作条件适配差，难匹配专业生产需求的问题，该工作提出推理驱动的可控视频生成框架CogOmniControl，拆分创意意图认知与生成流程：用动漫专业数据训练专用CogVLM解析用户意图，搭配CogOmniDiT统一多条件控制，配套闭环择优机制与专业评测基准，实验表现优于现有开源模型。

Aurora: Unified Video Editing with a Tool-Using Agent

HF 14 · Yongsheng Yu, Ziyun Zeng, Zhiyuan Xiao… · HF 镜像

现有统一视频编辑模型要求用户提供预处理好的文本、参考图、空间定位，而实际请求常存在信息缺漏。本文提出Aurora智能体视频编辑框架，耦合工具增强VLM智能体与统一视频扩散Transformer，VLM可将原始请求转为结构化编辑计划补全信息。在自研及公开基准测试中其性能优于纯指令基线，VLM还可迁移至兼容的冻结编辑模型。

HF 10 · Felix Henry, Xiaochen Lin, Jiangyou Zhu… · HF 镜像

现有GUI智能体评测基准多依赖静态截图，不符合真实手机交互需同步处理音频、时序动态的需求。本文提出首个步级全模态手机GUI智能体评测基准OmniGUI，覆盖29款应用共709组专家演示、2579步操作，标注多模态依赖程度。评测发现现有全模态模型在需音频、时序信号的任务中表现骤降，跨模态干扰是核心瓶颈。

arXiv cs.LG（机器学习）

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Yoichi Ochiai

当前扩散模型实时生成优化多针对NVIDIA CUDA平台，苹果硅相关研究稀缺。本文针对M3 Ultra芯片开展10阶段全链路优化，验证量化、神经引擎适配等十多种技术适配性，最终结合蒸馏专用模型SDXS-512的CoreML转换与3线程管线，实现512×512分辨率图生图22.7FPS，厘清苹果硅与CUDA平台优化逻辑差异，给出实操指引。

Mirror Descent-Type Algorithms for the Variational Inequality Problem with Functional Constraints

Mohammad S. Alkousa, Fedor S. Stonyakin, Belal A. Alashqar…

该文面向生成对抗网络、强化学习等场景常用的带函数不等式约束的变分不等式问题，提出可按迭代步约束满足情况切换有效/无效步的镜像下降类算法，适配多类步长与停止准则，还给出多约束场景的提速修改版。文中证明算法在有界单调算子场景下可达最优收敛率，可适配δ-单调算子用于无精确次梯度的约束优化，实验验证了其性能。

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Fei Ding, Yongkang Zhang, Yeling Peng…

针对大语言模型多步推理强化学习依赖稀疏终态奖励、信用分配差导致梯度方差高、训练难收敛的问题，本文提出反事实比较信用分配框架：同输入下采样多推理轨迹构造隐式过程优势估计，将稀疏奖励转化为步级敏感学习信号，据此设计的IBPO算法在数学、代码推理基准上显著提升训练稳定性与性能上限，为大模型性能挖潜提供新方向。（共119字）

OpenAI 官方动态

Introducing OpenAI for Singapore

OpenAI

本次公告披露OpenAI与新加坡正式开启多年期AI专项合作，是双方布局AI产业落地的重要举措。项目核心方向共三项：一是扩大AI技术在新加坡本地的部署覆盖范围，二是搭建本土AI人才培养体系、储备专业人才梯队，三是为当地企业运营、公共服务升级提供AI技术支撑。（全文119字）

Advancing content provenance for a safer, more transparent AI ecosystem

OpenAI

本研究由OpenAI开展，面向AI生成内容溯源难的痛点，目标是构建更安全透明的AI生态：推出三类核心技术方案，分别是内容凭据机制、SynthID生成内容隐水印技术，以及配套的验证工具。三类技术协同落地后，可帮助各类用户高效识别AI生成媒体，提升内容可信度，降低虚假AI媒资传播风险。

Anthropic News

Introducing Claude Opus 4.7

Anthropic

Anthropic旗下最新大模型Claude Opus 4.7现已正式开放通用访问。相较于上一代Opus 4.6，该版本核心能力提升集中在高级软件工程领域，尤其是处理复杂度最高的相关任务时表现增益十分明显，可有效满足高难度代码开发、复杂系统架构设计等专业场景的使用需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic旗下实验室正式推出全新产品Claude Design，核心功能为支持用户与Claude大模型协同完成专业级可视化内容创作，覆盖设计稿、交互原型、演示幻灯片、单页宣传物料等多类视觉产出场景。该产品将Claude的能力边界从原有文本领域拓展至视觉创作赛道，可显著降低专业视觉内容的制作门槛。

Google DeepMind

Fast-tracking genetic leads to reverse cellular aging

Google DeepMind

该研究围绕逆转细胞衰老的遗传靶点快速发掘展开，生物学家借助Co-Scientist智能工具开展筛选，成功识别出此前未被报道的新型调控因子，经验证可有效实现人类细胞的年轻化重编程。该路径大幅提升了抗衰靶点发掘效率，为衰老相关疾病的干预研发提供了全新候选方向。

Simulate real-world places with Project Genie and Street View

Google DeepMind

谷歌近期公布两项AI服务更新：其一，向全球用户开放Google AI Ultra订阅权限，扩大高等级AI服务覆盖范围；其二，推出结合谷歌街景能力的Genie项目新功能，可依托街景采集的真实空间数据，精准模拟还原现实世界地点，为订阅用户提供高真实度的空间场景生成服务。

Hugging Face Blog

OlmoEarth v1.1: A more efficient family of models

Hugging Face

OlmoEarth v1.1是艾伦人工智能研究所推出的升级款地球科学开源模型族。本次迭代优化了轻量架构与多模态预训练策略，新增高光谱、SAR数据原生适配能力，相较前代在12项下游观测任务精度持平的前提下，训练算力降42%，推理速度提37%，可适配边缘端部署，支撑野外实时地学观测需求。

Introducing the Ettin Reranker Family