在传统软件工程中,测试是保障质量与稳定性的核心环节。它验证系统的确定性逻辑:基于预设的规则,验证输入的可靠性。而 AI 系统的核心能力不再是执行预设的规则,而是基于概率模型进行推理和生成。结果的不确定性、语义的多义性、以及上下文的敏感性,使得原有测试方法难以刻画模型行为。这一转变,促使评估工程成为下一轮 Agent 演进的重点。
评估工程,贯穿整个 AI 生命周期,它的目标是定义、采集并量化 Agent 的表现质量,涵盖输出正确度、可解释性、偏好一致性与安全性。从架构角度看,评估工程是 AI 工程体系中最靠近“人类判断”的一环,既涉及指标体系的定义,又包含算法层的建模与反馈机制。随着 SFT(监督微调)、RLHF(基于人类反馈的强化学习)、LLM-as-a-Judge(模型裁决评估)以及 Reward Model(奖励模型)等技术或范式逐渐成熟,评估工程正从经验驱动走向体系化、工程化和自动化。
阿里云 CIO 蒋林泉曾分享过:在落地大模型技术过程中总结过一套方法论,叫 RIDE,即 Reorganize(重组组织与生产关系)、Identify(识别业务痛点与 AI 机会)、Define(定义指标与运营体系)、和 Execute(推进数据建设与工程落地)。其中,Execute 中提到了评估工程重要性的核心原因,即这一轮大模型最关键的区别在于:度量数据和评测均没有标准的范式。这就意味着,这既是提升产品力的难点,同时也是产品竞争力的护城河。
在 AI 领域里经常提到一个词叫“品味”,这里讲的“品味”,其实就是如何设计评估工程,即对 Agent 的输出进行评价。如果没有评估,就很难理解不同的模型会如何影响我们的用例。
在传统的软件工程中,测试覆盖率和准确率是评价质量的指标。传统软件工程的测试体系建立在三个假设上:
这些假设使测试活动可以高度自动化:编写单元测试、执行、检测结果是否匹配。测试的目标是消灭 bug。在这种逻辑下,质量的度量接近“零缺陷工程”,并且保障可重复性与向前兼容性。
AI 系统的不确定性,源自三个方面:
这使得 AI 系统的故障模式不同于 bug。它是一种漂移,表现为输出分布的偏移、语义理解的失准、或行为策略的不一致。因此,对 Agent 而言,评估不再仅仅是部署前的一个阶段,而是由后训练、持续监控、自动化评估与治理,所构成的评估工程。
评估工程经历了从规则匹配、语义匹配、模型评估的演进过程,每个阶段都是对“什么是更好的答案”这一核心问题的重新定义。
在自然语言处理早期,评估主要基于规则化的重合度指标。典型代表是机器翻译的 BLEU(Bilingual Evaluation Understudy) 和用于文本摘要的 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)。它们的核心思路是通过比较模型输出与人工参考答案的重合程度来计分,从而度量生成结果的“接近度”。
但这种方法对于评估需要捕捉语义、风格、语气和创造力等细微差别的现代生成式 AI 模型来说,存在根本性的不足。一个模型生成的文本可能在措辞上与参考答案完全不同,但在语义上却更准确、更具洞察力。BLEU、ROUGE 无法识别这种情况,甚至可能给予低分。
当模型具备语义理解能力后,评估进入语义层次。BERTScore(基于 BERT 表示的文本生成质量评估指标) 和 COMET(跨语言优化的翻译质量评估指标)等方法引入了向量空间语义匹配。通过计算生成文本与参考答案在嵌入空间中的余弦相似度,评估输出的语义接近度。这使得模型可以被奖励为生成不同但合理的答案。
例如:
参考答案:“猫坐在垫子上。”模型输出:“垫子上有一只猫。”
在语义匹配指标下,这种输出会得到高分,而不是被视为错误。但这一阶段的评估仍有两个局限:
语义指标的价值在于:它让我们开始从答案正确性转向语义合理性,但仍然没触及行为一致性这一核心问题。
随着大模型迈过拐点,评估方法进入第三阶段,LLM-as-a-Judge,其核心思想是让模型学习人类的主观偏好,即利用一个功能强大的大型语言模型(通常是前沿模型)来扮演裁判的角色,对另一个 AI 模型(或应用)的输出进行评分、排序或选择,即用魔法打败魔法。
从一个更深层次的视角来看,LLM-as-a-Judge 范式能够将高级的、主观的人类偏好(通过自然语言评分指南表达)编译成一个可扩展、自动化且可重复执行的评估函数。这个过程将原本属于定性评估的艺术,转变为一门可以系统化实施的工程学科。其逻辑在于,该范式接收了抽象的、定性的输入(如评估回答的创造力),并将其转化为结构化的、定量的输出(如一个 1 到 5 的分数)。这种转化过程使得那些以往只能依赖昂贵且缓慢的人工评估才能衡量的复杂、主观标准,现在可以通过工程化的方式进行系统性评估。
无论是面向 SFT(监督微调),还是 RLHF(基于人类反馈的强化学习),LLM-as-a-Judge 都是一个更高效的对齐人类偏好的评估方案。
在 RLHF 场景中,奖励模型(Reward Model, RM)已经成为一种主流自动化评估工具的重要构成,并且出现了专门评估奖励模型的基准,如海外的 RewardBench [ 1] 和国内高校联合发布的 RM Bench [ 2] ,用来测不同 RM 的效果、比较谁能更好地预测人类偏好。下方将介绍 ModelScope 近期开源的奖励模型——RM-Gallery,项目地址:
RM-Gallery 是一个集奖励模型训练、构建与应用于一体的一站式平台,支持任务级与原子级奖励模型的高吞吐、容错实现,助力奖励模型全流程落地。
RM-Gallery 提供基于 RL 的推理奖励模型训练框架,兼容主流框架(如 Verl),并提供集成 RM-Gallery 的示例。在 RM Bench 上,经过 80 步训练,准确率由基线模型(Qwen2.5-14B)的约 55.8% 提升至约 62.5%。
RM-Gallery 的几个关键特性包括:
所以,从功能来看,它是基于奖励模型,即用于衡量大模型输出好坏、优先级、偏好一致性等,打造成一个可训练、可复用、可部署的用于评估工程的基础设施平台。
除了奖励模型,也有越来越多的企业选择在数据层(SQL 或 SPL 环境)中直接调用大模型来执行自动化评估。这种方式最大的优势在于能把模型/Agent 的自动化评估纳入了传统数据处理流水线,使得评估与数据分析、A/B 测试、观测天然融合,形成数据采集->自动化评估(包括数据预处理、评估和数据后处理)->构建新的数据集->后训练的数据飞轮。
但这种方案对端到端的丝滑体验提出了较高的要求,同时对数据采集的稳定性、可追溯性和成本可控也有一定要求。孤岛式的协作流程会降低团队积极性,影响运转效率,对反馈质量也无益处。所谓飞轮,最重要的是能形成低损耗、自校正的循环系统。
需要强调的是,不同于奖励模型,云监控 2.0 提供的 LLM-as-a-Judge,是在 SQL/SPL 中调用大模型实现的,具有不需要训练评估模型、可按任务随时修改评估规则、可原生嵌入企业数据的特点,适合轻量场景与快速验证。
评估的可靠性始于输入数据的质量。大模型的评判结果极度依赖上下文,因此采集阶段的任务不仅是收集样本,而是要保证模型在评估时能看到正确、完整且有代表性的输入输出对。一旦输入数据不一致、上下文缺失或标识混乱,后续所有指标都将失真。
云监控 2.0 提供自研无侵入探针,兼容 Opentelementry 协议,以 OpenTelemetry Python Agent 为底座,增强大模型领域语义规范与数据采集,提供多种性能诊断数据,全方位自监控保障稳定高可用,开源采集器 LoongCollector 可实时采集增量日志到服务端,性能强,无缝把大模型推理日志进行集中采集和存储,解决数据孤岛的问题。
因此,第一步我们需要将 Agent 接入云监控 2.0,创建 Project 和对应的 Logstore,采集 Agent 的运行数据 TraceLog,用于评估的数据输入。以下我们为一个电商领域的智能找挑应用创建一个 Project 和 Logstore。
采集智能找挑应用的用户和模型之间的输入和输出数据。
大模型的输出受 Prompt 极大影响。如果评估 Prompt 拼接不当,哪怕内容相同,也可能导致评估结果偏差数倍。预处理阶段的任务,是在 SQL/SPL 环境中建立一个稳定、模板化的 Prompt 构建机制,确保不同样本、不同任务类型之间的输入一致性。
云监控 2.0 基于 SQL/SPL 强大的数据处理能力,完成提取/去重/关联登陆等操作。提取操作可以只评估关键的信息,把重复的信息进行压缩,减少 LLM Judger 的负载、关联把相关数据合并在一起进行评估。此外,云监控 2.0 内置多种常见的评估模版,覆盖 Rag 评估、Agent 评估、通用评估、工具评估、语义评估等。以 Rag 评估为例,提供了 Rag 召回的语料有重复、语料多样性、语料是否和用户问题相关、是否和答案相关等模板。
因此,创建完源 Project 和 Logstore 后,我们开始选取评估模板,在过滤语句中,选择哪些数据做评估,进行任务创建。
下方创建了 3 个评估任务,分别是:
评估任务创建成功后,会在目标 SLS Project 中创建出定时 SQL 任务,周期性查询日志库中的数据,根据评估任务中内置的评估模板计算查询到的日志数据的评估分数。
内置的评估模板默认使用 Qwen-max 作为裁判模型,用户也可以采用自定义评估,支持接入自有模型作为裁判模型。以下 SQL 是基于自定义评估模板,对数据进行总结。评估指令可以在 SQL 中指定。需要配置待处理的数据、评估模板、采用的裁判模型等。
云监控 2.0 在 SQL/SPL 中提供评估算子,和预处理计算无缝衔接。其中,评估算子无缝集成 Qwen 等最先进的大模型,提升 LLM Judger 的评估能力。下方是通用评估模板中的准确性 accuracy,我们可以看到 Qwen 大模型对每个评估任务给出了评分。
评估的终点不是得分,而是决策依据。大模型输出可能带解释文本、情感分析或维度化分数,需要被结构化、聚合、再加工。如果缺少后处理,评估数据只是噪声;有了后处理,它才会成为可监控的系统指标。
云监控 2.0 基于 SPL/SQL 对评估结果进行二次加工统计。例如进行 A/B 测试,对比不同 Prompt 模板的效果、对比不同模型的效果。
此外,对于非评分类的语义搜索,支持对评估对象和评估结果进行精准筛选。并通过语义聚类功能,对评估结果进行聚类分析,发现高频的 Pattern,以及离群点。效果如下。
经过以上步骤,可以搭建起一个端到端的自动化评估系统,导出偏好数据集,再导入相关的后训练平台,就能开启数据采集->自动化评估(包括数据预处理、评估和数据后处理)->构建新的数据集->后训练的数据飞轮。
[1] RewardBench
[2] RM Bench
在半导体行业波澜壮阔的征程中,龙芯中科正站在一个新的历史节点上。近日,龙芯中科召开了2024年度暨2025年第一季度业绩说明会,悄然宣布了一项重大战略调整,这不仅是对自身技术实力的自信展示,更是对未来市场布局的深思熟虑。▌技术突破:单核性能跃居世界领先龙芯中科在技术领域的进步令人瞩目。其下一代桌面芯片3B6600的研发成果,预示着单核性能有望达到世界领先水平。这一成就并非偶然,而是龙芯中科多年深耕
什么是Agent?为什么是Agent?大模型除了Chat外还能做什么用?当我们将大型模型视为“核心调度器“时,它就变成了我们的Agent。借助任务规划、记忆及外部工具等能力,大型模型能够识别出应该执行的任务以及执行方式,从而实现自主决策。并非单纯地“执行任务的工具”,Agent更具备一种类似于具有主观能动性的人的“仿主体性”。这种拟主体性即指Agent以模仿人类的方式,实现从“计划”,“组织”
一、系统架构革命:从传统AI到认知智能基础设施Deepseek作为新一代认知智能系统的代表,其技术架构突破了传统AI系统的设计范式。基于自主创新的MoE(Mixture of Experts)架构演进路径,系统采用三级分层设计:1. 物理层异构计算集群混合部署NVIDIA H100/H200、AMD MI300X及自研AI加速卡动态资源调度系统实现跨硬件平台的无缝迁移独创的TensorFlow/P
如今跟实体经济关系如同血液之于肌体的科技金融逐渐发展成为了赋能中小微企业的利器。
经安徽、黑龙江等多省教育厅确认:教育部根据“双一流”建设专家委员会咨询提出的建设学科建议名单,已经启动新一轮“双一流”建设工作。随着第二轮“双一流”建设的动态调整结果日渐明朗,虽几家欢喜几家失落,但大多省份已经开始重新出发,将目光投向5年之后的第三轮“双一流”建设。青塔注意到,不久前,江西、河南、江苏、吉林、安徽等省份正式明确了“十四五”期间重点培育支持的高校和学科,瞄准下一轮“双一流”动态调整,
到2026年,60%的企业将部署AI Agent
需求的膨胀推动着技术变革,技术的革新进一步丰富着我们的生活,如今大数据、云计算技术已经自身疲惫了。然而跨界竞争和技术融合迫使我们不断换血和补充能量来适应一次次变革。那么在人工智能、虚拟现实、物联网等技术热潮过后,能预测到的下一个技术热点会是什么,高性能计算(HPC)?面对技术和行业融合现状,HPC应该再适合不过了,另外,我也倾向于把HPC看作是一种跟各个行业比较紧密结合的技术。 在
IT产业的热点轮动之快,超乎想象,从网络直播到共享单车到,似乎每个热点的持续时间正变得越来越短。近日,投资大佬朱啸虎在“小程序&大商业”商业峰会上预言小程序领域今年将获得几百亿元的投资,令一众创业者热血沸腾。
鲜花电商领域“高大上”与“小而美”共存。
当前,新一轮科技革命和产业变革正在孕育兴起,以互联网为代表的信息技术和制造技术的融合以及新业态的出现为我国走新型工业化道路提供了难得的机遇。可以说,我国工业化、信息化的发展正面临着关键的转折点,而这个转型时期的标志就是两化深度融合。
Helm是针对基于Kubernetes的应用程序的包管理器,可以让软件工程师定义应用程序服务,以及它们如何工作和交互。这代表了服务器端软件部署、管理和定义的一个重大发展。这一转变是微服务被大量采用的一个关键组成部分,其重要性不可忽视。任何使用过桌面包管理器(如Homebrew、Aptitude)的人都了解其价值所在。不同于建立一个单一的、单体的应用程序,使用包就意味着允许你拉进和重用其他软件的某些
# Android中如何实现“for循环中请求完接口再循环下一轮”在Android开发中,经常需要进行网络请求,而在某些情况下,我们需要在 for 循环中执行网络请求,确保每次请求完成后才能进行下一次循环。这种流程保证了数据的一致性和有效性。下面,我们就来详细讲解如何实现这一需求。## 一、流程概述我们将整个过程分为以下几个步骤:| 步骤 | 说明
# MySQL 循环中的条件控制在数据库开发中,我们经常需要处理数据的循环操作。在 MySQL 中,我们可以使用游标(Cursor)结合`WHILE`循环来进行数据的遍历。然而,有时候我们希望在遍历过程中满足某些条件时才继续执行特定的操作,其他情况则跳过。这种场景在数据处理和清洗中是非常常见的。## 游标和循环游标是指向数据表中一行的指针。使用游标,我们可以逐行处理数据,并根据不同的条
OA在中国信息化的早期一直扮演着重要的角色。那时问到是否上了信息化,大多都指办公自动化系统,而企业也把OA作为除财务系统之外的软件采购首要的考虑对象。起源于政府公文和档案管理的OA,经过一段时间的发展,在企业中也得到越来越广泛的应用。除了政府的收发文管理、档案管理、公告牌这些传统功能外,又逐步加入了BBS、日程安排、人事管理等功能。OA似乎如它最初的定义那样,达成了所谓的“Office Automation”-即通过电子化日常事务流程和各种信息,实现无纸化办公。
关于软考报名后是否可以改至下一轮考试的问题探讨在信息技术日益发展的今天,计算机软件行业的专业性认证考试越来越受到广大从业人员的关注,其中,全国计算机技术与软件专业技术资格(水平)考试,即人们常说的“软考”,便是其中的佼佼者。软考不仅在国内享有很高的认可度,而且其证书在国际上也具有一定的权威性。然而,在报名的过程中,不少考生会遇到这样的疑惑:一旦报名了软考,是否可以因为某些原因更改至下一轮考试呢
对电视行业而言,2014年是异常艰难的一年,以中国市场为例,2014年电视行业迎来了30年来首次负增长------根据奥维咨询数据,去年中国彩电市场零售量为4461万台,同比下降6.6%;零售额为1462亿元,同比下降14.5%。下降幅度如此之大,业界普遍认为,和电视产品缺乏创新和颠覆、同质化竞争愈演愈烈不无关系。 众所周知,最近几年日系品牌因缺乏创新而陷入低谷,国产厂商
<html> <body> <div style="width: 100%;height: 100%;"> <div class="box" style="width: 100px;height: 100px;border-radius: 50%;border-style: unset;box-sh ...
第一节 ifif 选择逻辑:基于不同的条件来执行不同的动作程序运行的三大结构:顺序结构、选择结构、循环结构1、顺序结构:代码逐行执行,自上而下2、选择结构:通常是和关系比较一起用;a) 单分支选择:if语句b) 双分支选择:if-else语句c) 多分支语句:if-else if-else 语句输出最大值var num1 = 3;var num2 = 5;if(num1>nun2){cons
Excel VLOOKUP函数完全教程:从基础到高级实战文章目录Excel VLOOKUP函数完全教程:从基础到高级实战一、VLOOKUP基础:语法与核心参数1. 函数语法2. 参数详解3. 关键规则(必看)二、基础VLOOKUP实战:9个高频场景场景1:精确匹配(最常用)场景2:近似匹配(用于范围 ...
作者:bee131 说到接口我们都能想到jmeter这个工具,但是我们如何借助jenkins来做可持续集成自动化的测试呢?下面就是我对jenkins、maven、jmeter做的可持续化集成环境搭建的学习心得。一,jmeter脚本录制这一步就是录制Jmeter脚本,确保脚本能正确运行。二,建立一个maven工程1,打开eclipse,点击File->N
【问题描述】 “物不知数”出自《孙子算经》。题目为:今有物不知其数,三三数之剩二,五五数之剩三,七七数之剩二,问物几何?。 意思是说有一些物品,不知道有多少个,如果一次 3 个 3 个地数,还多出 2 个;一次 5 个 5 个地数则多出 3 个;一次 7 个 7 个地数会多出 2 个。 现假设物品总 ...
一个基于UDP数据广播的局域网络会议程序 内容:介绍程序设计程序测试结论关于作者蒋清野美国导航与控制公司本文介绍了网络通讯中通用的传输控制协议(TCP)和用户数据包协议(UDP),并且利用Java语言设计了一个简单的基于UDP 数据广播的局域网络会议程序,展示了 在Java语言中进行UDP 数据发送和接收的一般步骤。由于Java语言卓越的跨平台特性,本系统能够不加修改的运行在Wi