【深度分析】AI成本炸弹的真正解决方案在"云端之外"

企业正在向人工智能投入巨额资金。问题在于，这些钱大部分并没有转化为成果。

美国麻省理工学院（MIT）研究人员去年公布的一项分析在业界引发了震动。研究显示，企业尝试的生成式AI试点项目中，95%未能带来可量化的损益效果。

研究团队梳理了300个公开的导入案例，并调查了数百名企业高管和员工。全球企业投入的资金达到300亿至400亿美元，折合韩元约41万亿至55万亿韩元。在这笔巨额投资中，真正取得明显成果的只有5%。

研究人员的判断与常识有所不同：失败原因并非AI模型性能不足。模型本身已经足够聪明，问题在于它无法融入企业的工作流程，最终只是在消耗成本。也就是说，企业买来了聪明的工具，却没有真正用好。

当我们深入查看这笔“成本”的本质时，一种近年来浮现的解决方案轮廓便显现出来：尽可能将原本依赖云端的AI，拉回到“本地设备”一侧。

◆ AI用得越多，钱流失得越快？

使用AI大致分为两个步骤：用海量数据训练模型的“学习”，以及向已经训练好的模型发出实际提问、获得答案的“推理”。如果类比为人类，就是学习和考试的区别。企业每天产生的大部分成本，主要来自推理阶段。

如果把推理交给云端，费用就会按“token”计费。token指的是AI处理的文字单位。一次提问、回应中的每一句话都会不断累积费用。对少数员工来说，这看起来只是小钱。但当数万名客户同时使用，且一次任务中AI被调用十次、二十次时，账单就会像滚雪球一样暴涨。

价格表本身也暗藏风险。分析显示，OpenAI、Anthropic、Google等大型AI企业目前都在以低于成本的价格提供推理服务，这是一场争夺用户的出血式竞争。这意味着如今的低价能维持多久并不确定。

速度同样也是成本。把问题发到云端、再接收答案，往往会带来1到2秒的延迟。对于实时翻译或语音助手等需要即时反应的服务，这种延迟是致命的。用户一多，超过调用上限而导致服务中断的情况也并不少见。

◆ 在“云端之外”找到的解法

备受关注的替代方案是“本地优先推理”。名字听起来很宏大，其实思路很直接：不要把所有事情都交给昂贵的云端AI，能在设备或公司服务器上处理的简单任务，先在内部完成；真正困难、模糊的任务再交给云端。

本地优先推理的三阶段结构与成本节约效果。简单任务在设备端完成，只有困难任务才交给云端AI处理，以降低成本。（图表=Solution News）

实际效果已经在测算中得到验证。某科技媒体公开的案例显示，在处理4700份工程图纸文档时，有70%至80%的内容先在设备端完成了自动筛选。

这些文档的情况足够明确，因此不需要求助云端AI。结果，云端调用成本降低了75%，处理时间减少了55%。系统还被设计为：只把判断模糊的文档送往云端，遇到高风险情况则由人工最终审查，从而将错误控制住。

不过，这个75%的数字需要放在特定场景下理解。它是某项文档处理工作得出的结果，并不是适用于所有AI任务的万能公式。若要在设备端运行AI，就需要购买硬件，也需要花费人力设计和维护系统。对交易量较小的企业来说，云端反而可能更便宜。关键不在于“无条件本地化”，而在于“根据任务性质分工处理”。

从开发者的选择中也能看出这一趋势。5月第三周GitHub上增长最快的10个热门项目中，比起直接调用大模型的工具，更突出的是那些能够在设备端直接运行、或通过减少调用次数来节省成本的工具。

其中三个采用的是把所有处理都在设备内完成的方式，另外三个则专注于减少token消耗。这传递出一个信号：重心正在从以大模型为中心，转向更精细地优化其周边。

我们日常使用的智能手机也已经纳入了这种变化。通话翻译、图片文字识别等即时处理功能中的相当一部分，并不是运行在遥远的服务器上，而是在我们手中的设备里完成的。

◆ 给予企业的提问

这一趋势传达出的信息十分明确。对韩国中小企业和小商户而言，AI导入最大的门槛一直是成本。由于难以承受巨额云端费用，很多企业只能推迟导入，或在试点项目阶段就放弃。MIT指出的95%失败率之所以与他们无关，正是因为这并非别人的问题。

本地优先策略是一条现实可行的降门槛路径。比如，把客户咨询中的高频问题放在设备或自有服务器上处理，而把复杂咨询交给高性能云端AI。由于数据不会离开公司，它在隐私保护方面也更有优势。对于医疗、金融等处理敏感信息的行业来说，这一点与成本同样重要。

但成本是否会永远成为负担，则是另一个问题。市场研究机构Gartner预测，规模达到1万亿参数的模型，其推理成本到2030年将下降90%以上。

这是因为面向设备的芯片和模型效率都在快速提升。不过，该机构也补充说，能够自行处理多个步骤的“代理型AI”会因单次任务消耗更多token，即便单价下降，总成本也未必会轻易降低。

本地优先策略也不是万能的。对小企业来说，自行配备硬件和技术人员本身就是另一种负担。如果没有能力设计清楚哪些工作在内部处理、哪些工作交由外部完成，成本节省不但难以实现，系统反而会变得更复杂。

能够存活下来的那5%，之所以不同，也正体现在这一点上。相比华丽的功能，他们更清楚地回答了“AI应该嵌入我们业务的哪个环节”这一问题。

围绕AI成本的争论重心，正在从“哪个模型最聪明”转向“何时调用那个模型”。决定成败的，不是买最贵工具这件事，而是知道何时把它拿出来用。韩国企业重新设计AI导入策略的关键，也正在这里。

五天售罄6000亿韩元…国民成长基金9月推出第二批