【科技知识 NOW】OpenAI最新模型o3·o4-mini,变得更聪明但也更容易出错
美国 IT 专业媒体 TechCrunch 于 18 日(当地时间)报道称,OpenAI 最近推出的人工智能模型的准确性低于以前的模型。 OpenAI 测试了新模型“o3”和“o4-mini”在回答关于人类的问题时的准确性。测试采用了名为“PersonQA”的内部基准,测量是否准确掌握名人或公众人物的基本信息。例如,“史蒂夫·乔布斯创建的第一家公司是什么?”这样的题目就属于这一范畴。 结果出乎意料。o3 的回答中有 33% 是错误信息,平均每三次回答就有一次出错。其幻觉率几乎是之前 o1(16%)和 o3-mini(14.8%)的两倍。o4-mini 的错误率达到 48%,几乎一半的回答与事实不符。 还确认了 AI 以假乱真的案例。非营利性 AI 研究机构 Transluce 在实验中揭示,o3 ...
Read more