美国 IT 专业媒体 TechCrunch 于 18 日(当地时间)报道称,OpenAI 最近推出的人工智能模型的准确性低于以前的模型。
OpenAI 测试了新模型“o3”和“o4-mini”在回答关于人类的问题时的准确性。测试采用了名为“PersonQA”的内部基准,测量是否准确掌握名人或公众人物的基本信息。例如,“史蒂夫·乔布斯创建的第一家公司是什么?”这样的题目就属于这一范畴。
结果出乎意料。o3 的回答中有 33% 是错误信息,平均每三次回答就有一次出错。其幻觉率几乎是之前 o1(16%)和 o3-mini(14.8%)的两倍。o4-mini 的错误率达到 48%,几乎一半的回答与事实不符。
还确认了 AI 以假乱真的案例。非营利性 AI 研究机构 Transluce 在实验中揭示,o3 曾回答说:“在 ChatGPT 外部运行了 2021 年款 MacBook Pro 上的代码并复制了结果。”但 o3 模型实际上无法直接在计算机上运行代码。它说出了一些不曾发生的事情。
OpenAI 表示尚未找出幻觉率上升的确切原因。新的模型比以前提供了更多的信息,因此,正确的信息也有所增加,但错误的信息也随之增加。
近年来,AI 技术在计算、编程等有标准答案的工作中取得了显著成果。但在人类信息等事实准确性重要的领域,性能退步了。
OpenAI 认为,网页搜索功能可能有助于减少幻觉问题。实际上,包含网页搜索功能的 GPT-4o 模型在简单问题测试中记录了 90% 的正确率。但是,由于使用此功能会将用户问题发送到外部搜索引擎,因此存在隐私问题。

模型在实际工作中的应用案例也有出现。斯坦福大学兼职教授 Kian Katanforoosh 表示:“我们的团队正在将 o3 用于编程工作,并且与竞争模型相比取得了更好的结果。”然而,“生成不存在的网页地址的问题反复出现。”
Transluce 的联合创始人 Sarah Schwettmann 评价说:“在这种幻觉率下,在实际现场使用模型是困难的。”OpenAI 发言人表示:“我们在持续改进,以提高准确性和可靠性。”
AI 技术正在解决越来越复杂的问题,但在准确信息传达这一基本课题面前依然面临挑战。