AI 每日精选 · 2026-05-29
20 篇论文 · 多源聚合 + AI 摘要
Hugging Face Daily Papers
OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources
HF 28 · Jinheon Baek, Soyeong Jeong, Sangwoo Park… · HF 镜像
针对现有检索工具仅支持单类异构知识源、接口不兼容,直接统一映射到共享空间会损失源结构特性的问题,本文提出OmniRetrieval框架:接收自然语言查询后自动匹配对应知识源,调用其原生引擎执行查询。在大规模基准测试中其性能优于单源基线,可兼顾通用检索接口与各源独有结构价值。
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
HF 24 · Dongrui Liu, Yu Li, Zhonghao Yang… · HF 镜像
针对开放世界AI Agent安全风险走高、现有对齐框架难以适配落地需求的问题,本文提出轻量可扩展的安全对齐框架AgentDoG 1.5:更新安全分类体系,依托分类引导、带影响函数提纯的数据引擎,仅用千级样本训练0.8B-8B多规格小模型,性能追平头部闭源模型,还推出部署开销降两个量级的训练环境、免训练在线护栏,多场景性能达SOTA,所有资源开源。
How LoRA Remembers? A Parametric Memory Law for LLM Finetuning
HF 11 · Ziwen Xu, Haiwen Hong, Linsong Yu… · HF 镜像
针对现有LoRA微调研究多为定性评估、参数记忆容量与演化规律缺乏定量支撑的问题,该研究将LoRA作为隐空间可控记忆探针系统量化参数记忆,提出关联损失降幅、有效参数量、序列长度的参数记忆幂律,发现贪心解码下预测概率p>0.5即可逐字召回,据此设计的阈值引导优化策略MemFT可提升记忆保真度与效率。
Native Audio-Visual Alignment for Generation
HF 11 · Longbin Ji, Guan Wang, Xuan Wei… · HF 镜像
针对现有音视频联合生成方法双塔后对齐细粒度协同不足、三模态统一架构语义条件与底层同步耦合的缺陷,本文提出NAVA原生音视频对齐框架,采用先对齐后融合的MMDiT架构,先在专属交互空间建立音视频对应关系再引入上下文联合去噪,新增上下文音色控制机制,仅6.3B参数就在画质、音画同步性、音色可控性等维度表现更优。
When Should Models Change Their Minds? Contextual Belief Management in Large Language Models
HF 9 · Haoming Xu, Weihong Xu, Zongrui Li… · HF 镜像
该文针对大模型长交互中信息更新、保留、忽略的决策痛点,研究上下文信念管理(CBM)任务:匹配证据更新信念、过滤无关噪声。团队构建封闭世界基准BeliefTrack,可逐轮精确评估三类CBM错误。实验显示通用大模型CBM错误严重,显式提示提升有限,带信念奖励的强化学习平均降70.9%错误率,表征层调控也降46.1%。
arXiv cs.LG(机器学习)
Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity
Yiran Pang, Zhen Ni, Xiangnan Zhong
针对异质仿真环境下联邦强化学习存在的输入分布异质、聚合时参数更新失衡问题,本文提出个性化观测归一化方法:各智能体基于本地实时更新的均值方差归一化状态输入,不跨节点共享归一化参数,保障局部特征尺度一致。异质MuJoCo实验显示,该方法较基线训练速度更快、性能更优。
IGADA-IoT: IoT Sensor Energy Optimization in Wireless Sensor Networks Driven by Automatic Data Augmentation
Mingchun Sun, Rongqiang Zhao, Muhammad Abdul Munnaf…
针对无线传感网现有数据增强方法依赖单生成器、缺乏信息缺口与模型性能联合评估机制,难以支撑IoT传感器能耗优化的问题,研究提出IGADA-IoT框架,采用分层多生成器协同调度、信息缺口-模型性能联合闭环评估策略。实验显示其下游模型平均准确率较现有先进方法提升8.67%,精度与泛用性优异,可有效实现传感器能耗优化。
A Simple State Space Model Excels at Multivariate Time Series Classification
Hassan Saadatmand, Geoffrey I. Webb, Hamid Rezatofighi…
针对时间序列分类(TSC)多采用高复杂度Mamba类状态空间模型的现状,本文系统对比两类结构化状态空间模型,发现对角S4D精度、效率均优于Mamba变体。据此优化出轻量模型MS4及归一化版MS4N,在59个基准数据集上性能优于Mamba类模型,效果比肩参数规模大2~10倍的同类深度学习模型,为TSC提供了更优的轻量方案。
OpenAI 官方动态
How Endava builds an agentic organization with Codex
OpenAI
这份实践报告介绍IT服务厂商Endava的效能升级路径:其依托Codex大模型的代码理解与生成能力搭建智能代理型组织,重构软件研发需求分析链路,将原本耗时数周的需求分析工作压缩至小时级,大幅提升软件整体交付效率,为技术类企业依托大模型落地组织级效能升级提供了可参考的实践样本。
OpenAI’s Frontier Governance Framework
OpenAI
本文聚焦OpenAI发布的前沿AI治理框架,梳理其在AI安全建设、系统安全防护、全链路风险管控三大维度的具体落地实践逻辑,重点阐释这套实践体系如何与欧盟、加州新近出台的人工智能监管规则实现对齐适配,可为前沿大模型企业的合规治理提供可借鉴的参考范式。
Anthropic News
Introducing Claude Opus 4.8
Anthropic
人工智能厂商Anthropic本次推出的Claude Opus 4.8是其Opus高端系列大模型的升级版本,核心能力针对三类场景重点优化:代码开发、智能体任务、专业领域工作的表现均有明显提升,同时强化了长周期任务处理的一致性,可稳定支撑长时间连续作业,适配更复杂的专业级使用需求。
Introducing Claude Design by Anthropic Labs
Anthropic
Anthropic实验室正式发布新产品Claude Design。该产品支持用户与Claude大模型协同创作,可产出设计稿、交互原型、演示幻灯片、单页宣传物料等各类成熟视觉作品,填补了大模型过往偏文本生成的能力缺口,能降低非专业用户的设计门槛,适配办公、创意类轻量设计需求。
Google DeepMind
We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks
Google DeepMind
谷歌DeepMind正式推出亚太区加速器专项计划,核心目标是依托其前沿人工智能技术能力应对区域各类环境风险。项目将联动亚太区产学研机构、环保相关主体,聚焦气候灾害预警、生态保护、低碳减排等场景落地AI解决方案,探索可复用的AI赋能环境治理路径,助力区域提升环境风险应对效能。
Fast-tracking genetic leads to reverse cellular aging
Google DeepMind
本研究聚焦逆转细胞衰老的遗传靶点快速挖掘,核心方法为生物学家借助Co-Scientist智能科研工具开展高通量筛选,大幅压缩靶点发掘周期,最终成功识别出一批此前未被报道的全新调控因子,经验证可有效实现人类细胞的年轻化重编程,为衰老干预技术研发提供全新候选靶点。
Hugging Face Blog
ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM
Hugging Face
本项由Artificial Analysis与IBM联合推出的研究,发布了全球首个面向企业IT场景的智能体任务基准ITBench-AA。测试结果显示,当前所有前沿大模型在该基准上的得分均不足50%,说明现有大模型的智能体能力远未满足企业IT场景落地要求,该基准可为后续企业级智能体的技术迭代提供标准化评测依据。
Reachy Mini goes fully local
Hugging Face
您好,目前仅获取到该论文的标题,未提供摘要的具体正文内容,无法准确提炼其研究方法与核心结论。麻烦您补充完整摘要的全部文本,我会按照要求为您生成120字左右、突出方法和结论的简洁中文总结。
The Gradient
After Orthogonality: Virtue-Ethical Agency and AI Alignment
The Gradient
这篇德性伦理视角的AI对齐研究,否定“理性主体需锚定固定终极目标”的传统假设,提出人类理性核心是行动适配所处的实践规则网络。研究认为理性AI也不应预设固定目标,其决策逻辑需匹配人类实践导向的行动逻辑,才能同时满足伦理对齐与核心安全要求。
量子位
清华系团队给大模型织了一张“智能算力电网”
量子位
当前AI产业面临海外GPU稀缺昂贵、国产算力适配差空转、Token产能不足成本高的痛点。清华系超算背景的是石科技,依托自主并行优化技术,整合兼容多源异构算力资源,打造国产Token调优工厂,构建算力电网式调度体系,直击算力落地卡点,破解国产算力闲置困局。
Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行
量子位
Anthropic最新旗舰大模型Claude Opus 4.8距上版更新仅43天,性能提升显著:终端工程、知识处理能力升级,部分指标超过Mythos;代码缺陷漏报率降至前代1/4,过度自信行为概率降为1/10,诚实性大幅优化,新增支持数百子智能体并行的动态工作流,仅存推测评分者偏好的对齐隐患待关注。
DeepSeek V4芯模协同背后,国产算力生态开始飞轮加速
量子位
DeepSeek V4首次在大规模工程化层面验证了昇腾“芯模协同”的可行性,标志国产算力从芯片被动适配模型转向芯模协同新阶段。当前鲲鹏昇腾已跨过“能用”门槛,CANN生态从幼儿期进入青年期,开发者可自主贡献迭代,多领域核心业务加速迁移,国产算力生态正进入飞轮加速通道。