TL;DR · 30 秒看完今日

今日有多篇AI前沿论文发布，覆盖编码Agent、多模态推理、量化校准等多个研究方向
Anthropic推出Claude Opus 4.8，谷歌、腾讯、蚂蚁、高德等公布最新AI业务进展
AI落地覆盖教育、支付、环境治理等场景，开源社区涌现Agent相关新工具

🧠 前沿研究🔥 大模型更新💼 厂商动态🤝 开源进展⚡ 场景落地

Hugging Face Daily Papers

SWE-Explore: Benchmarking How Coding Agents Explore Repositories

HF ★ 24 · Shaoqiu Zhang, Yuhang Wang, Jialiang Liang… · HF 镜像

针对现有代码智能体基准仅评判任务成败、忽略仓库探索等细粒度能力的问题，该研究提出SWE-Explore基准：覆盖203个开源仓库、10种语言的848个任务，以成功解题的智能体轨迹提炼行级真值，固定行数预算下评估相关代码召回排序能力。实测显示智能体探索效果远超传统检索，当前文件级定位已较成熟，行级覆盖、排序效率是核心性能差距来源。

On the Geometry of On-Policy Distillation

HF ★ 15 · Zhennan Shen, Yanshu Li, Qingyu Yin… · HF 镜像

针对用于提升大语言模型推理能力的同策略蒸馏（OPD）训练动力学不明的问题，研究通过参数空间诊断，对比OPD、监督微调、可验证奖励强化学习的更新轨迹发现：OPD具备独有的更新几何特征，属宽松非主更新区间，存在子空间锁定效应，并非另外两种训练范式的中间态。（全文119字）

Human Psychometric Questionnaires Mischaracterize LLM Behavior

HF ★ 13 · Woojung Song, Dongmin Choi, Yoonah Park… · HF 镜像

本研究验证人类心理测量问卷能否可靠表征大模型实际交互行为：对比8个开源大模型的两类人格、价值观画像——量表自评结果与日常用户查询下价值导向回答的生成概率，发现二者差异显著。问卷的高一致性源于模型识别题目显性词汇线索，给出符合社会期待的回答，无法反映实际交互表现，问卷不适用于大模型行为预测，生成式画像更准确。

SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

HF ★ 3 · Hongcheng Gao, Hailong Qu, Jingyi Tang… · HF 镜像

现有多模态大模型空间推理测评多为被动静态或限定仿真场景，无法评估通用交互式空间理解能力。该研究推出SpatialWorld基准，整合8类仿真后端，覆盖760项真实场景标注任务，设统一交互接口与验证标准。实测15个先进模型发现，最强GPT-5成功率仅17.4%，开源Qwen-3.5仅14.1%，凸显当前模型交互式空间推理短板，该基准可为后续研究提供可靠测试支撑。

CoVEBench: Can Video Editing Models Handle Complex Instructions?

HF ★ 3 · Jiangtao Wu, Jiaming Wang, Yiwen He… · HF 镜像

针对现有文本引导视频编辑基准仅支持孤立简单任务、无法评估真实场景多耦合编辑需求的缺陷，本文推出组合视频编辑基准CoVEBench，含416个源视频、626条多维度编辑指令及近万细粒度校验项，结合大模型判分与自动指标评估。测试显示当前模型处理组合编辑时普遍漏改、破坏保留内容或出伪影，该基准可助力面向真实需求的编辑技术发展。

arXiv cs.LG

Elmes*: Automated Construction of Fine-Grained Evaluation Rubrics for Large Language Models in Long-Tail Educational Scenarios

Tao Liu, Ye Lu, Ruohua Zhang…

针对现有教育大模型评测仅关注通用正确性、手动评分规则难适配长尾教学场景的问题，本文提出Elmes*端到端框架，结合多智能体交互与自进化模块，自动生成细粒度场景化评测规则，搭建覆盖330类教学场景的Edu-330基准。实验证实该框架可支撑规模化精准评测，主流大模型教育能力各有短板，AI判分可对标人类排名但存在自有偏好。

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Haoyu Huang, Linlin Yang, Sheng Xu…

针对扩散大语言模型迭代生成时令牌不可逆提交，训练后量化误差易翻转写入边界临界决策并被锁存放大的问题，本文提出两阶段后训练量化框架FAIR-Calib：先由全精度教师模型得到结合边界命中、掩码阶段可靠性的位置先验，再分层最小化加权隐状态MSE校准，优先保护边界脆弱状态。其在W4A4精度下多基准优于现有SOTA，有效减少边界决策翻转。

Multi-Scale Feature Attention Network for Polymer Classification using THz Dual-Comb Spectroscopy

Roshni Mahtani, Il’an Carretero, Laura Monroy…

针对现有回收塑料聚合物识别技术鲁棒性不足的问题，本研究采用太赫兹双梳光谱采集12类纯聚合物、多层膜、共混物等样本的光谱数据，提出适配该数据的多尺度特征注意力网络，通过特征门控、多尺度卷积、注意力机制提取关键频谱特征，分类准确率达85.2%，优于现有主流模型，验证了该方案的应用潜力。

OpenAI

Confidential submission of draft S-1 to the SEC

OpenAI

本次披露显示，OpenAI已正式向美国证券交易委员会（SEC）秘密提交S-1招股书草案，这是企业筹备赴美上市的核心前置程序。目前OpenAI尚未敲定后续上市相关流程的具体推进时间，整体上市进程仍处于早期保密阶段，后续动作待官方进一步公布。

Built to benefit everyone: our plan

OpenAI

这是OpenAI面向通用人工智能（AGI）时代的发展规划声明，核心锚定普惠导向，围绕技术可及性、安全风险防控、发展成果共享三大方向搭建治理框架，旨在规避AGI研发落地的潜在风险，避免技术红利向少数群体倾斜，最终实现AGI发展成果惠及全体公众的目标。

Anthropic News

Introducing Claude Opus 4.8

Anthropic

本次发布的Claude Opus 4.8是Claude旗下高端Opus层级大模型的最新迭代款，相较前代核心性能在三大场景明显提升：代码开发任务、智能体自主执行任务、各类专业领域工作处理，同时优化了长周期任务运行的一致性，可更稳定支撑流程复杂、耗时较长的连续工作需求，适用场景进一步拓宽。

Expanding Project Glasswing

Anthropic

本次工作旨在推进Project Glasswing的扩围计划。作为此前已落地的跨国协同项目，Glasswing此前已在多国开展对应服务，本次扩围计划覆盖超过15个国家，新增纳入约150家合作机构，可进一步拓展项目覆盖范围，强化跨机构跨区域的协作能力，放大项目的落地价值与社会效能。

Google DeepMind

We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks

Google DeepMind

谷歌DeepMind正式启动亚太区加速器项目，核心聚焦环境风险应对领域。项目将为亚太区域深耕环境科技的研究者、初创团队提供AI技术支撑、算力资源与产业对接渠道，助力其用AI破解气候灾害预警、生态修复、污染防控等现实环境难题，推动亚太地区环境治理智能化升级。

Fast-tracking genetic leads to reverse cellular aging

Google DeepMind

该研究聚焦逆转细胞衰老的遗传靶点研发，创新采用Co-Scientist智能科研辅助工具开展筛选，成功发现了一批可实现人类细胞年轻化的全新调控因子。成果大幅压缩了衰老相关遗传靶点的挖掘周期，既为细胞衰老干预提供了新的候选作用位点，也为抗衰老领域高通量靶点筛选提供了新思路。

Hugging Face Blog

The Open Source Community is backing OpenEnv for Agentic RL

Hugging Face

本次工作聚焦面向智能体强化学习（Agentic RL）的开源环境工具OpenEnv，针对现有同类环境碎片化、场景适配性不足的痛点，支持多模态交互、长时序决策、多智能体协作等主流Agentic RL研发场景。目前已获开源社区广泛贡献支持，可降低七成环境搭建成本，大幅提升相关方向的研发落地效率。

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI