TL;DR · 30 秒看完今日

大模型赛道新品密集发布，Claude Mythos 5、Gemma 4 12B、Cohere首款开发者代码模型先后亮相
AI技术落地多元场景，覆盖核聚变控制、医疗推荐、多语种交互、企业开发提效等领域
前沿研究与国内产业齐推进，多智能体技术突破、智驾创业、内蒙AI落地均有新进展

🔥模型发布🧠前沿研究💼产业落地🤖多智能体🚗智驾动态

Hugging Face Daily Papers

ABot-Earth 0.5: Generative 3D Earth Model

HF ★ 37 · Ming Qian, Tianjian Ouyang, Mingchao Sun… · HF 镜像

本文发布生成式3D地球框架ABot-Earth 0.5，采用基于3D高斯溅射（3DGS）的新型生成模型，经真实城市重建数据集训练后，仅输入卫星影像即可生成高保真3D场景，每平方公里生成耗时不足10分钟。框架自带层级LOD结构支持网页端实时交互，可缩小仿真到现实的域差，大幅降低大规模3D重建的技术与成本门槛，适配无人机导航等具身AI应用。

SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

HF ★ 12 · Pu Ning, Quan Chen, Kun Tao… · HF 镜像

针对大模型上下文窗口有限、长周期复杂任务的主从代理框架所需的委托智能缺乏训练数据的问题，本文面向深度调研场景设计引导框架，生成带正确任务拆分、委托决策的执行轨迹作为监督微调数据，训练出的SearchSwarm-30B模型在中英文BrowseComp测评中获同规模最优结果，相关资源将开源。

One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

HF ★ 9 · Zhi Zheng, Ziqiao Meng, Hao Luan… · HF 镜像

针对现有QA系统外部内存存储原始图文、检索后输入大模型导致token开销高、存储压力大，不适用于资源受限场景的问题，本文提出潜态内存范式：用小型压缩模型将每条图文证据转为单条高维潜token，统一潜空间检索后直接输入大模型生成，端到端训练压缩器。其性能媲美先进RAG基线，生成token消耗降3-10倍，WebQA图文QA性能达最优。

EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents

HF ★ 7 · Weixian Xu, Shilong Liu, Mengdi Wang · HF 镜像

针对现有大模型智能体测试时提示学习仅适配单数据集、无法应对现实异构任务流的缺陷，提出首个多数据集测试时提示学习框架EEVEE：引入输入路由划分任务集群匹配对应提示配置，采用路由-提示协同进化策略优化。实验显示其异构流鲁棒性优异，多基准平均得分较现有SOTA最高提升48.2%，兼顾单基准学习能力与效率。

How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs

HF ★ 5 · Zhichen Dong, Yang Li, Yuhan Sun… · HF 镜像

针对大模型强化学习中现有token级信用分配忽略信息传播全局结构的痛点，本文提出FlowTracer框架：基于聚合注意力权重构建token级有向无环图，追踪指向答案的推理流，结合流量守恒推导各token全局贡献度，据此优化奖励分配，精准定位高价值推理节点，在多类推理任务上实现稳定性能提升。

arXiv cs.LG

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

Yang Fu, Haomin Bao, Rohit Sonker…

针对核聚变等离子体控制真机试错成本高、离线强化学习研究缺乏标准化基准的问题，该文推出RL4F专用基准，基于真实托卡马克DIII-D的历史数据构建评测环境，覆盖4类全剖面跟踪控制任务。统一评测后发现离线基于模型的强化学习整体表现最优，无算法通吃所有任务，凸显动力学建模的核心价值，全套资源已开源。

MedicalRec: Medical recommender system for image classification without retraining

Roghayeh Taghavi, Aysa Hasanazde Bashkandi, Amir Ali Bengari…

针对医疗图像分类领域人工试选适配模型算力能耗高的痛点，该研究整理3000篇相关论文，构建含5000余条皮肤癌、肿瘤等五类任务模型测试记录的公开数据集MedicalRec-Bench，开发基于Transformer的无需重训的模型推荐系统MedicalRec，分4个特征维度版本，最高HitRate@100达75.5%，相关资源已开源。

SPIN: Decentralized Swarm Control via Tensorized Policy Coordination

Zhaowen Fan

针对资源受限边缘端分布式多智能体集群协同存在的联合动作空间指数爆炸、通信延迟高的瓶颈，本文提出SPIN框架：将集群拓扑建模为压缩张量网络，把联合策略张量分解为矩阵乘积态链，将计算复杂度从指数级降至线性，搭配离线预训练的神经符号控制管线，运行时可零样本适配行为。实验验证其在跟踪、区域覆盖等任务中表现稳定，为低功耗边缘集群智能提供可行路径。

OpenAI

How engineers at Nextdoor use Codex to build without limits

OpenAI

本文介绍美国邻里社交平台Nextdoor工程师团队的研发提效实践：核心方法是将Codex代码大模型与GPT-5.5结合，应用于排查难复现的疑难技术问题、支撑跨平台开发两大场景。该方案大幅降低非核心事务的研发消耗，让团队可聚焦产品价值落地，有效突破原有开发产能边界，实现低约束创新。

What Codex unlocks for Notion

OpenAI

本文介绍了效率工具Notion落地OpenAI Codex代码大模型的实践路径：依托Codex的代码与语义理解能力，可通过单次提示直接生成产品需求规格，还落地了适配网页端的AI语音输入功能，有效降低小团队研发门槛，大幅放大工程产能，为大模型在生产力工具赛道的落地提供了参考。

Anthropic News

Claude Fable 5 and Claude Mythos 5

Anthropic

Anthropic正式官宣推出Claude Fable 5大模型，该产品隶属于Claude Mythos 5序列的Mythos级旗舰产品，经过多轮安全对齐迭代与风险校验，已达到全场景通用开放的安全要求，无需额外权限即可面向普通用户、企业客户开放使用，是其高端大模型落地通用场景的核心新品。

Expanding Project Glasswing

Anthropic

当前公开的玻璃翼（Project Glasswing）项目扩张工作内容精简，核心举措为将项目覆盖范围拓展至15个以上国家的约150家新合作机构。本次扩容大幅提升了项目的跨境辐射能力，可触达更多元的参与主体，为后续项目落地相关服务、拓展应用场景打下基础。

Google DeepMind

Fluid, natural voice translation with Gemini 3.5 Live Translate

Google DeepMind

本成果为谷歌推出的Gemini 3.5实时翻译功能，核心特点是支持近实时响应，且译出语音自然流畅，贴近真人交流质感。目前该能力已正式接入Google AI Studio、谷歌翻译、Google Meet三大产品，可覆盖开发者调试、日常翻译、线上会议同传等多元场景，有效提升跨语言语音交互的效率与体验。

Introducing Gemma 4 12B: a unified, encoder-free multimodal model

Google DeepMind

谷歌最新发布的Gemma 4 12B是无编码器架构的统一多模态大模型，核心创新为摒弃独立视觉编码器，直接将多模态感知能力内嵌至大语言模型骨干中。其图文推理、跨模态理解性能优于同量级带独立编码器的同类模型，部署更轻量化，可适配云侧、端侧各类多模态落地场景。

Hugging Face Blog

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

Hugging Face

本文针对语音代理是否适配双语用户的问题，对前沿自动语音识别（ASR）系统开展语码切换语音基准测试：构建覆盖不同语码混合比例、口音、应用场景的专用测试集，测试发现当前主流ASR在语码切换场景下准确率较单语场景降幅显著，尤其小语种、高混合比例场景性能骤降，明确了现有语音产品的双语适配缺口，也为ASR多场景优化提供了基准参考。

Introducing North Mini Code: Cohere’s First Model For Developers