双子座(Gemini)是谷歌开发的下一代人工智能模型。它被设计为一种多模态模型,能够同时理解和处理文本、图像、代码等各种数据,突破了传统以语言为中心的AI模型的局限。它直接与OpenAI的GPT系列竞争,也是围绕人工智能行业主导权的谷歌战略性反击的一部分。
双子座于2023年12月首次由谷歌的DeepMind公开。DeepMind是开发围棋人工智能AlphaGo的研究组织,负责谷歌内部的核心人工智能研究。顾名思义,双子座具有人类语言和思维的双重结构。它在理解语言的同时,将视觉、数学、编码数据相结合进行思考。
传统语言模型依赖于基于文本的数据,而双子座同时学习文本、图像、音频、代码等多种格式的数据。例如,当用户要求双子座“在此图中找到异常点,并解释其原因”时,双子座可以分析图像,通过数学推理以文字的形式提供结果,这是一个语言理解、视觉识别和逻辑判断相结合的结构。
在双子座的开发中,DeepMind积极利用了AlphaGo的强化学习技术。AlphaGo在学习人类围棋棋谱后,通过自我对弈提升了性能。双子座同样是基于学习人类反馈的强化学习模型,提高了学习效率和判断精确度。谷歌旨在通过双子座实现“自我学习和改进的AI”的发展。
双子座根据版本划分性能。截至2024年,双子座1.0系列公布了三种版本:最强大的Gemini Ultra、通用型的Gemini Pro,以及为移动设备优化的Gemini Nano。其中,Gemini Pro已适用于谷歌的聊天机器人“Bard”,2024年初,Bard与双子座更新后整合为“Gemini”品牌。
谷歌通过双子座在其服务中全面嵌入AI功能。在Gmail、Google Docs、Sheets、YouTube等主要平台结合双子座, 用户通过自然语言指令可以自动完成文档编写、视频总结、数据分析等任务。这是谷歌推动AI从工具到主体发展的战略性实验。
双子座的另一大特点是其代码理解能力。除了文本解释外,增强了分析和编写编程语言的功能。它可以进行代码生成、调试、优化,并结合谷歌云平台(Google Cloud)提高开发者的生产力。谷歌解释说,通过此过程,“AI不仅是简单的对话助手,更是支持全面工作的合作伙伴。”
在性能评估中,双子座也名列前茅。谷歌称,双子座在标准的多任务语言理解(MMLU)测试中得分超过了GPT-4。MMLU是涵盖历史、数学、物理学、伦理等多个学科领域的语言理解评估指标。这一结果显示谷歌在实际上赶上了OpenAI。
然而,争议也存在。双子座的一些性能是基于内部测试结果公开的,外部验证不足。在AI模型的透明度和安全性成为必需的情况下,实际使用环境中的准确性和伦理验证成为未来的课题。尤其是AI模型生成虚假信息(幻觉)和偏见问题依然需要解决。

谷歌正围绕双子座重组其AI生态系统。到2025年,安卓操作系统、谷歌云、搜索引擎(Google Search)也加入了基于双子座的功能。这意味着谷歌全面展开“让所有产品具备AI”的战略。
如今,AI行业从语言模型竞争转向多模态竞争。双子座象征着AI从理解人类语言的阶段扩展到“观看”世界的阶段。在文本、图像、代码边界渐消的时代,双子座是谷歌推出的新一代人工智能标准。