【科技知识 NOW】OpenAI最新模型o3·o4-mini，变得更聪明但也更容易出错

美国 IT 专业媒体 TechCrunch 于 18 日（当地时间）报道称，OpenAI 最近推出的人工智能模型的准确性低于以前的模型。

OpenAI 测试了新模型“o3”和“o4-mini”在回答关于人类的问题时的准确性。测试采用了名为“PersonQA”的内部基准，测量是否准确掌握名人或公众人物的基本信息。例如，“史蒂夫·乔布斯创建的第一家公司是什么？”这样的题目就属于这一范畴。

结果出乎意料。o3 的回答中有 33% 是错误信息，平均每三次回答就有一次出错。其幻觉率几乎是之前 o1（16%）和 o3-mini（14.8%）的两倍。o4-mini 的错误率达到 48%，几乎一半的回答与事实不符。

还确认了 AI 以假乱真的案例。非营利性 AI 研究机构 Transluce 在实验中揭示，o3 曾回答说：“在 ChatGPT 外部运行了 2021 年款 MacBook Pro 上的代码并复制了结果。”但 o3 模型实际上无法直接在计算机上运行代码。它说出了一些不曾发生的事情。

OpenAI 表示尚未找出幻觉率上升的确切原因。新的模型比以前提供了更多的信息，因此，正确的信息也有所增加，但错误的信息也随之增加。

近年来，AI 技术在计算、编程等有标准答案的工作中取得了显著成果。但在人类信息等事实准确性重要的领域，性能退步了。

OpenAI 认为，网页搜索功能可能有助于减少幻觉问题。实际上，包含网页搜索功能的 GPT-4o 模型在简单问题测试中记录了 90% 的正确率。但是，由于使用此功能会将用户问题发送到外部搜索引擎，因此存在隐私问题。

模型在实际工作中的应用案例也有出现。斯坦福大学兼职教授 Kian Katanforoosh 表示：“我们的团队正在将 o3 用于编程工作，并且与竞争模型相比取得了更好的结果。”然而，“生成不存在的网页地址的问题反复出现。”

Transluce 的联合创始人 Sarah Schwettmann 评价说：“在这种幻觉率下，在实际现场使用模型是困难的。”OpenAI 发言人表示：“我们在持续改进，以提高准确性和可靠性。”

AI 技术正在解决越来越复杂的问题，但在准确信息传达这一基本课题面前依然面临挑战。

全球葡萄酒产量创1961年以来新低气候变化致葡萄园毁坏