Archer® 证明专用人工智能在监管变更管理中优于通用大型语言模型：95% 验证准确率，速度快80倍，成本降低92%

跳到内容新闻档案经济能源石油和天然气可再生能源电动汽车采矿商品农业房地产抵押贷款抵押贷款利率金融银行保险金融科技加密货币工作财富智能理财财富管理投资者个人财务家庭财务退休税务高净值 FP 评论高管女性 Puzzmo 通讯金融时报商业必备其他创新信息技术 FP500 播客小企业生活故事购物 Financial Post 店铺讣告发布通知广告与我们合作广告解决方案 Postmedia 广告经理赞助请求分类广告发布分类广告工作档案设置我的订阅保存的文章我的优惠通讯客户服务 FAQ 新闻经济能源采矿房地产金融工作财富投资者 FP 评论高管女性 Puzzmo 通讯金融时报商业必备家庭商业新闻发布 PMN 新闻稿 Archer® 证明专用人工智能在监管变更管理中优于通用大型语言模型：95% 验证准确率，速度快80倍，成本降低92%。本文作者：您可以在此免费注册以保存本文。或者如果您有账户，请登录。立即订阅以阅读您所在城市和整个加拿大的最新消息。Barbara Shecter，Joe O'Connor，Gabriel Friedman及其他作者的独家文章。来自金融时报的每日内容，全球领先的商业出版物。一个账户可无限制在线访问Financial Post，National Post和加拿大15个新闻网站的文章。National Post电子报纸是印刷版的电子副本，可以在任何设备上查看、分享和评论。每天的拼字游戏，包括《纽约时报》填字游戏。立即订阅以阅读您所在城市和整个加拿大的最新消息。来自Barbara Shecter，Joe O'Connor，Gabriel Friedman及其他作者的独家文章。来自金融时报的每日内容，全球领先的商业出版物。一个账户可无限制在线访问Financial Post，National Post和加拿大15个新闻网站的文章。National Post电子报纸是印刷版的电子副本，可以在任何设备上查看、分享和评论。每天的拼字游戏，包括《纽约时报》填字游戏。创建一个账户或登录以继续您的阅读体验。用一个账户访问加拿大各地的文章。分享您的想法并在评论中参与讨论。每月享受额外的文章。获取您最喜欢的作者的电子邮件更新。创建一个账户或登录以继续您的阅读体验。用一个账户访问加拿大各地的文章。分享您的想法并在评论中参与讨论。每月享受额外的文章。获取您最喜欢的作者的电子邮件更新。登录或创建账户。OVERLAND PARK，堪萨斯州——对于在合规中部署人工智能的企业来说，错误的日期就是错过截止日期。更危险的失败是模型以高度自信返回的错误答案，这种错误答案会悄无声息地流入合规日历，只有在窗口过后才会发现。Archer®今天发布的结果显示，专用人工智能在监管工作中优于通用大型语言模型（LLM），而且差距非常明显。这项面对面的测试比较了Archer的专用垂直特定人工智能与领先的通用LLM在一项核心合规任务上的表现：确定六个辖区内监管文件的出版、有效和评论截止日期。通用模型确实是一项重大突破，但这不是对其质量的公投。Archer要回答的问题更加狭窄和实用：如何才能以可靠、快速和经济的方式进行特定的高风险决策。在专家验证的知识基础上建立的垂直、领域聚焦的过程在这三方面同时获胜。在相同的55个文件上，通用LLM错误率高达56%。信心并没有改善，反而变得更糟。在所有被评为高度可信的答案中，35%仍然是错误的。使用Archer Evolv，超过95%的决策是直接验证的，其余的在使用之前会转交给专家。没有一个错误的日期被用于生产。没有不经过验证的内容被发出。样本文件的结果通用LLM过程 Archer Evolv 正确率 44% 95% 验证，5% 专家检查错误，返回有效 25% 0% 失败或超时 31% 0% 在通用LLM评为高度自信的答案中，35%是错误的。这个准确性差异是负责任地部署智能人工智能的前提，因为