一个新项目旨在对 AI LLM 聊天机器人的质量进行排名一个新项目已经启动

Vectara 发布了人工智能幻觉排名榜，根据各种领先的人工智能聊天机器人不产生“幻觉”的能力对它们进行排行。它显然是为了强调各种公共大语言模型(LLM)的幻觉程度，但这意味着啥子，为啥子它很重要，以及怎么衡量它?

大家惕的人工智能聊天机器人的特点之一是它们倾给于“产生幻觉”——编造事实来填补空白。壹个广为人知的例子是，Levidow, Levidow & Oberman 律师事务所“提交了不存在的司法意见，其中包含人工智能工具 ChatGPT 创建的虚假引述与引文”，从而陷入了麻烦。有人指出，马丁内斯诉达美航空等虚构的法律判决有一些和实际司法判决一致的特点，但更仔细的审查发现了部分“胡言乱语”。

如果您思考法学硕士在健康、工业、国防等领域的潜在用途，那么作为任何正在进行的开发的一部分，消除人工智能幻觉显然势在必行。为了观察人工智能在受控参考环境下产生幻觉的实际例子，Vectara 决定对 11 名公共法学硕士进行一些测试：

给法学硕士提供一叠 800 多份简短的参考文档。

标准法学硕士按照要求提示提供文件的事实摘要。

将答案提供向模型，该模型检测源中未包含的数据的引入。

共赢知识网

一个新项目旨在对 AI LLM 聊天机器人的质量进行排名一个新项目已经启动

您可能感兴趣