TL;DR · 30 秒看完今日

Anthropic推出Claude Opus 4.7与Claude Design，谷歌发布Gemini驱动的AlphaEvolve编码Agent
多篇前沿AI技术论文发布，覆盖奥赛推理、世界建模、视频生成等核心技术方向
产业端动态密集，医疗AI协诊、开源嵌入模型、国内具身智能融资等消息集中放出

📈技术进展🔥大模型🧠具身智能💡开源发布⚡产业动态

Hugging Face Daily Papers

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

HF 88 · Yafu Li, Runzhe Zhan, Haoran Zhang… · HF 镜像

本研究提出一套简洁统一的奥赛级推理模型升级方案：先以反向困惑度课程式监督微调注入严谨证明搜索与自检能力，再经两阶段强化学习放大性能，最后搭配测试时缩放策略。基于30B参数骨干训练的SU-01模型，在近年IMO、IPhO等数理奥赛达到金牌水平，且可泛化至其他科学推理领域。

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

HF 46 · Minghao Guo, Qingyue Jiao, Zeru Shi… · HF 镜像

针对现有多模态智能体长期记忆评估未验证视觉证据留存、存在文本推理捷径、缺失时序视觉状态推理任务的痛点，该研究提出视觉导向评估框架MemEye，从两个维度构建8类生活场景评测基准。测试13种记忆方法、4类视觉大模型后发现，现有架构细粒度视觉留存、时序状态推理能力不足，明确了三类核心优化方向。

Self-Distilled Agentic Reinforcement Learning

HF 44 · Zhengxi Lu, Zhiyuan Yao, Zhuowen Han… · HF 镜像

针对大模型智能体强化学习微调时轨迹奖励粗糙、直接结合同策略自蒸馏存在多轮不稳定、负样本拒斥偏差的问题，本文提出SDAR方法：以RL为主干，将自蒸馏设为门控辅助目标，强化正样本蒸馏、软衰减不合理负拒斥。实验显示其在三类任务上较GRPO最高提升10.2%，跨模型尺度的效果、稳定性均优于现有混合基线。

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

HF 37 · Haoyi Zhu, Haozhe Liu, Yuyang Zhao… · HF 镜像

本次研究推出开源2.6B参数世界模型SANA-WM，可精准控制相机生成1分钟720P高保真视频。其采用混合线性注意力、双分支相机控制、两阶段生成、鲁棒标注四大核心设计，画质比肩工业级基线，效率大幅提升：蒸馏量化版单张RTX5090仅需34秒生成1分钟视频，吞吐量为原有开源方案的36倍。

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

HF 34 · Min Zhao, Hongzhou Zhu, Kaiwen Zheng… · HF 镜像

针对实时交互视频生成的低延迟需求，本文提出Causal Forcing++蒸馏框架：针对现有少步自回归扩散初始化对齐差、成本高的瓶颈，采用因果一致性蒸馏，用单步在线教师ODE信号监督，无需预存全轨迹。帧级2步生成下指标优于4步SOTA，首帧延迟降50%，二阶训练成本减75%，还可扩展至动作条件世界模型生成。

arXiv cs.LG（机器学习）

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Bardh Hoxha, Oliver Sch”on, Hideki Okamoto…

本文针对部分可观测下视觉输入的过往时间信号时序逻辑可认证运行时监控问题，提出可复用的语义基监控与滚动预测监控两类方案，仅需一次共形校准即可覆盖全目标公式片段，无需逐公式重训。实验表明短时域下滚动方案认证边界更紧，长时域下语义基方案精度高4倍，两类方案均在Waymo实驾数据上通过覆盖率验证。

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

William Lehn-Schi{\o}ler, Magnus Ruud Kj{\ae}r, Rahul Thapa…

针对EEG基础模型性能优异但内部机制不透明、阻碍临床信任的问题，该研究用TopK稀疏自编码器对三款不同架构的EEG Transformer提取稀疏特征字典，结合临床标签评估特征属性，提出跨架构通用超参流程和转向选择性度量方法，明确三类特征运行模式，定位年龄-病理混淆等表征缺陷，还可将隐层干预映射为可解释的生理频谱特征。

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Zhuohao Lin, Kun Li, Jiameng Chen…

针对AI药物研发中分子属性预测分布外（OOD）泛化评估失真、跨域适配易负迁移的问题，该研究提出基于理化描述子聚类划分的SCOPE-BENCH评估基准，以及POMA多源适配框架：通过强化学习筛选近源数据，双尺度对齐域分布。实验显示现有SOTA模型在新基准上误差平均升5.9倍，POMA可将平均绝对误差最高降11.2%，泛化性能平均提升6.2%。

OpenAI 官方动态

Sea’s View on the Future of Agentic Software Development with Codex

OpenAI

本内容聚焦冬海集团（Sea Limited）相关行业判断与布局：集团首席产品官披露了其对智能体范式下未来软件开发的趋势判断，明确目前已在全司工程团队全面部署Codex代码大模型，借此大幅提增研发效率，加快面向亚洲市场的AI原生软件开发落地，抢占区域AI应用赛道先发优势。

Work with Codex from anywhere

OpenAI

本文打破Codex原有使用场景限制，推出全场景使用方案：用户可通过ChatGPT移动端应用随时随地调用Codex编码能力，支持跨设备、跨远程环境完成编码任务全流程管控，可实时监控任务进度、动态调整任务方向、审批确认任务产出，显著提升了异地编码协作的灵活性与处理效率。

Anthropic News

Introducing Claude Opus 4.7

Anthropic

最新大模型Claude Opus 4.7现已正式全面开放可用。该版本为前代Opus 4.6的迭代升级款，核心能力提升集中在高阶软件工程领域，整体相关任务表现明显优于前代，尤其在复杂度最高的极难软件工程任务上性能增益最为突出，可更好支撑高难度代码开发需求。

Introducing Claude Design by Anthropic Labs

Anthropic

Anthropic实验室正式推出全新产品Claude Design。这款产品支持用户与大模型Claude协同开展视觉创作，可高效产出设计方案、交互原型、演示幻灯片、单页宣传物料等多种类别的高完成度视觉成果，为个人及团队的可视化内容产出提供了更便捷的新路径。

Google DeepMind

AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

Google DeepMind

相关研究披露AlphaEvolve是搭载Gemini大模型能力的智能编码代理，核心依托适配Gemini的专用算法实现编码能力优化升级，当前已在商业场景落地、基础设施运维、前沿科学研究三大领域实现价值规模化渗透，充分验证了大模型驱动的智能编码代理具备跨领域落地的强通用性与实用价值。

Enabling a new model for healthcare with AI co-clinician

Google DeepMind

本研究聚焦AI赋能医疗的全新范式，核心开展两方面工作：一是梳理AI辅助诊疗的落地可行路径，破解临床适配、数据合规等落地痛点；二是研发可与临床医师协作的「AI协诊医师」系统，探索人机协同诊疗标准化流程，为构建精准高效的新型医疗服务体系提供技术支撑。

Hugging Face Blog

Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

Hugging Face

本次发布的Granite Multilingual R2多语言嵌入模型采用Apache 2.0协议完全开源，参数量低于1亿，支持32K超长上下文窗口，覆盖多语种语义表征需求。实测其检索精度为当前1亿参数以下多语言嵌入模型最优，可适配长文本跨语言检索、多语言RAG等场景，低算力成本下即可实现高性能语义匹配。

Unlocking asynchronicity in continuous batching