即将到来的"数字人类"：GPT-5即将问世

随着2025年7月GPT-5可能发布的消息传出，人工智能（AI）技术的方向再次受到关注。人们认为，不仅仅是简单的升级，具有思考、观察、听觉和行动能力的AI即将出现。与AI共同工作的时代已经不远。

GPT-5是全球最大的AI公司之一OpenAI正在开发的下一代语言模型。GPT是“Generative Pre-trained Transformer”的缩写，是一种通过学习大规模数据来具备理解和生成人类语言功能的AI。

OpenAI首席执行官（CEO）Sam Altman在2024年2月曾预告，GPT-5将在数月内推出，而不是几年内推出。这一言论也与现在内部讨论的发布时间相符。因此，GPT-5很可能会在2025年夏季公开。考虑到GPT-4在没有预告的情况下发布震惊世界的情况，GPT-5很可能也会以类似方式发布。

GPT-5将会拥有与现有文字基础的AI完全不同的结构。它的核心功能是能够理解和生成声音、图像和视频的‘多模态（Multimodal）’功能，超越仅仅对文本输入作答的水平。

用户用语音提问时，AI可以实时识别并理解语音，然后以自然的语音回答。此外，展示照片或图画后，AI可以进行分析并给出说明，或者直接生成用户所需的图像。甚至有预测称AI可以理解视频的意义，甚至制作简单的视频。

GPT-5引人注目另一个原因是其在软件开发能力上的潜在进步。此前的模型只能理解人编写的代码或提出简单的代码建议，而下一代模型预计能够执行更复杂的开发任务。

AI的固有问题之一“幻觉（hallucination）”现象依然是难题。这种现象指的是AI自信地给出错误信息的错误，其中GPT-3在其整体回应中大约30%展示了这样的现象。

到目前为止，GPT-4在软件开发相关的基准测试SWE Bench中的正确率约为32%。有人非正式声称，GPT-5的性能已经提高到85%水平，但这尚未得到OpenAI的正式确认。

这种功能不仅局限于开发领域。在Excel等办公软件或设计和规划工具中，AI也在向承担实质角色的方向发展。企业们利用这种技术，正在探讨引入称为“AI代理”的数字同事，以提高工作效率。

新模型的复杂性增加可能带来新的错误，这种担忧也依然存在。在解决复杂问题的过程中，“推理过程”成为了研究的重点。最新模型通过压缩逻辑步骤来提高正确率。

GPT-4使用了约1.7至1.8兆个参数（数据计算单位）。但仅增加参数数量的时代已经结束，OpenAI将重点放在了更有效的结构设计上。

[使用MCP,Anthropic的AI Claude可直接操作Canva]