返回

文章详情

Archer® 证明专用人工智能在监管变更管理中优于通用大型语言模型:95% 验证准确率,速度快80倍,成本降低92%

Financial Post2026年6月30日 14:17

跳到内容 新闻档案 经济 能源 石油和天然气 可再生能源 电动汽车 采矿 商品农业 房地产 抵押贷款 抵押贷款利率 金融 银行 保险 金融科技 加密货币 工作 财富 智能理财 财富管理 投资者 个人财务 家庭财务 退休 税务 高净值 FP 评论 高管女性 Puzzmo 通讯 金融时报 商业必备 其他 创新 信息技术 FP500 播客 小企业 生活故事 购物 Financial Post 店铺 讣告 发布通知 广告 与我们合作 广告解决方案 Postmedia 广告经理 赞助请求 分类广告 发布分类广告 工作档案 设置 我的订阅 保存的文章 我的优惠 通讯 客户服务 FAQ 新闻 经济 能源 采矿 房地产 金融 工作 财富 投资者 FP 评论 高管女性 Puzzmo 通讯 金融时报 商业必备 家庭商业新闻发布 PMN 新闻稿 Archer® 证明专用人工智能在监管变更管理中优于通用大型语言模型:95% 验证准确率,速度快80倍,成本降低92%。 本文作者:您可以在此免费注册以保存本文。或者如果您有账户,请登录。立即订阅以阅读您所在城市和整个加拿大的最新消息。Barbara Shecter,Joe O'Connor,Gabriel Friedman及其他作者的独家文章。来自金融时报的每日内容,全球领先的商业出版物。一个账户可无限制在线访问Financial Post,National Post和加拿大15个新闻网站的文章。National Post电子报纸是印刷版的电子副本,可以在任何设备上查看、分享和评论。每天的拼字游戏,包括《纽约时报》填字游戏。立即订阅以阅读您所在城市和整个加拿大的最新消息。来自Barbara Shecter,Joe O'Connor,Gabriel Friedman及其他作者的独家文章。来自金融时报的每日内容,全球领先的商业出版物。一个账户可无限制在线访问Financial Post,National Post和加拿大15个新闻网站的文章。National Post电子报纸是印刷版的电子副本,可以在任何设备上查看、分享和评论。每天的拼字游戏,包括《纽约时报》填字游戏。创建一个账户或登录以继续您的阅读体验。用一个账户访问加拿大各地的文章。分享您的想法并在评论中参与讨论。每月享受额外的文章。获取您最喜欢的作者的电子邮件更新。创建一个账户或登录以继续您的阅读体验。用一个账户访问加拿大各地的文章。分享您的想法并在评论中参与讨论。每月享受额外的文章。获取您最喜欢的作者的电子邮件更新。登录或创建账户。OVERLAND PARK,堪萨斯州——对于在合规中部署人工智能的企业来说,错误的日期就是错过截止日期。更危险的失败是模型以高度自信返回的错误答案,这种错误答案会悄无声息地流入合规日历,只有在窗口过后才会发现。Archer®今天发布的结果显示,专用人工智能在监管工作中优于通用大型语言模型(LLM),而且差距非常明显。这项面对面的测试比较了Archer的专用垂直特定人工智能与领先的通用LLM在一项核心合规任务上的表现:确定六个辖区内监管文件的出版、有效和评论截止日期。通用模型确实是一项重大突破,但这不是对其质量的公投。Archer要回答的问题更加狭窄和实用:如何才能以可靠、快速和经济的方式进行特定的高风险决策。在专家验证的知识基础上建立的垂直、领域聚焦的过程在这三方面同时获胜。在相同的55个文件上,通用LLM错误率高达56%。信心并没有改善,反而变得更糟。在所有被评为高度可信的答案中,35%仍然是错误的。使用Archer Evolv,超过95%的决策是直接验证的,其余的在使用之前会转交给专家。没有一个错误的日期被用于生产。没有不经过验证的内容被发出。样本文件的结果 通用LLM过程 Archer Evolv 正确率 44% 95% 验证,5% 专家检查 错误,返回有效 25% 0% 失败或超时 31% 0% 在通用LLM评为高度自信的答案中,35%是错误的。这个准确性差异是负责任地部署智能人工智能的前提,因为

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡