斯坦福法学院研究发现AI超越法学教授

由斯坦福法学院教授朱利安·尼亚尔科（Julian Nyarko）主导的一项开创性研究揭示，法学教授们更倾向于使用人工智能生成的答案来回答学生问题，而不是由同事撰写的答案，这一发现可能重塑法律教育的传授方式。该研究的标题为“法学教授更喜欢人工智能而非同行回答”，在全美法学院中，与16位法学教授进行了研究，测试大型语言模型是否能作为合同法课程的有效辅导。通过对近3000个匿名比较的盲测试，教授们对人工智能的回答给予了显著更高的评价，人工智能在面对面比较中获胜的比例达到了75%。尼亚尔科说：“这项研究挑战了关于人工智能在法律教育中角色的重要假设。”他领导着斯坦福法学院的法律创新与前沿技术实验室（liftlab），并与耶鲁大学、纽约大学、芝加哥大学及其他领先机构的同事共同撰写了论文。他指出：“我们专注于法律，正是因为它需要判断、细致的推理以及应对模糊性的能力，而不仅仅是记忆事实。” 模型能否推理？这项研究尤其引人注目，因为以往对人工智能的评估主要集中在有明确是非答案的科目上。相较之下，法律推理要求对相互竞争的论点进行仔细分析和可辩护的结论。斯坦福法教授朱利安·尼亚尔科补充道：“我们对结果的规模感到惊讶。这些并不仅仅是有明显答案的简单问题。许多问题需要综合复杂的材料，将其应用到新情境，并以帮助学生发展自身分析能力的方式解释法律概念。” 参与者设计了40个代表性的合同法问题，学生在课后或办公时间可能会问这些问题，撰写了自己的答案，然后在不知道答案来自人工智能还是其他参与教授的情况下评价这些答案。人工智能系统的表现与本研究中表现最佳的人类讲师相当。或许最引人注目的是：教授们仅在3.5%的情况下将人工智能回答标记为教学上的有害，而同行撰写的答案则为12%。耶鲁法学院的共同作者和教授萨拉斯·桑伽（Sarath Sanga）表示：“在大多数测试人工智能的领域中，都有一个正确的答案。在法律领域，通常没有这样的问题。两个对立的论点都可能是好的。我们想要知道的是，人工智能是否能够满足律师用来评估对方论点的隐性职业标准。在这种情况下，答案是肯定的。” 研究团队采取了广泛的预防措施，以确保研究的有效性。他们调整了人工智能的回答，以匹配人类答案的长度和结构，使用了多种评估方法，并让教授们评估是否可能误导或混淆学生。转变法律教育尼亚尔科解释道：“我们设计这项研究是为了尽可能严谨，因为风险非常高。法律教育是为了培养未来的律师，让他们具备批判性思维、说服力以及应对伦理复杂性的能力。我们的研究为了解人工智能是否可以支持这一使命迈出了重要的步伐。”研究的第一作者、尼亚尔科实验室的研究员亚历杭德罗·萨利纳斯（Alejandro Salinas）强调了教育方面的影响：“我们的研究将注意力转向人工智能辅导可以为法律等判断丰富的领域的学习做出贡献。当经过法律教育者评估时，人工智能辅导能够提供高质量、按需的支持，补充课堂教学，可能会拓宽对专家指导的获取。”该研究还考察了特定的人工智能模型，包括商业辅导系统和谷歌的NotebookLM，发现表现水平不一。然而，即使在情境限制影响人工智能回答的情况下，教授们仍然经常偏好人工智能的回答而非人类撰写的替代答案。研究结果适逢全国法学院在努力将人工智能工具整合进法律教育的同时，维护严格的学术标准。一些机构已积极拥抱人工智能实验，而另一些则对潜在风险（包括幻觉、过度依赖和批判性思维能力的侵蚀）保持谨慎。尼亚尔科警告道：“我们的研究评估了人工智能工具提供的答案质量。但是，如何有效地实施这些工具以改善学生学习仍然是一个开放的问题。因此，我们并不是在倡导对人工智能辅导的全面采用。我们的数据表明，全面的怀疑论可能是同样不必要的。讨论应该从人工智能能否提供准确、高质量的回答转移到如何负责任地部署人工智能来造福我们的学生。” 查看出版物链接到SSRN 关于liftlab liftlab是法律人工智能领域的首次学术努力之一，旨在通过研究、原型制作和行业实时协作相结合的方式，增加对高质量法律服务的获取。