大模型，冷静！

时间:2023-07-24 来源:区块链网络作者:AIcore

文｜《中国企业家》记者赵东山?

编辑｜李薇

图片来源：由无界 AI? 生成

大模型创业狂飙200多天后，中国探索者们的心态，从理想亢奋来到现实落地。

在此之前，AI大模型的创业在其公司本身之外，还被赋予了民族情绪、时代风口等更多的意义——面对通用大模型ChatGPT的横空出世，中国创业者们壮志未酬很快达成共识：如何打造一个中国版的OpenAI和ChatGPT。

毫无疑问，ChatGPT是今年的世界顶流。因为它，OpenAI网站的流量在4月份就超过了18亿，进入了全球流量排名前20。然而，网络分析公司Similarweb公布的数据显示，在狂飙半年后，ChatGPT的访问量首次出现负增长，6月份的访问量环比下滑9.7%。

ChatGPT流量骤降引发全球科技界对AI产业泡沫化风险的担忧和讨论，《经济学人》杂志甚至做出“越大越好的AI之路快行不通了”的论断。而成为“中国版ChatGPT”的想法，也在和中国创业圈渐行渐远。

金沙江创始合伙人朱啸虎在朋友圈写道：“不要迷信通用大模型，因为明年GPT-3.5就成commodity（通用基础设施），而三年后，GPT-4也会是。对于大部分创业者，场景优先，数据为王！”

从业者们心态变化的同时，大模型创业市场已经开始出现分野。

中国的大模型企业们已经不再执着于“成为中国的OpenAI”这种理想化目标，也不再痴迷于对参数模型和算力的追求，他们有了更务实的答案，也更注重其对实际产业场景中的问题解决。

AI大模型的竞逐迎来了新的赛道节点。

集体务实

今年年初，携程创始人、董事局主席梁建章开始接触ChatGPT。近些年，他以人口学家的身份活跃在学界和企业界，不过他也曾是中国最早和最小的程序员，也差点成为人工智能方向的博士。

13岁时梁建章设计了一个写格律诗的程序获得全国大奖，15岁考入复旦大学少年班，毕业后赴美国留学并在21岁获得乔治亚理工学院电脑系硕士学位。22岁那年正在攻读博士的梁建章，突然意识到理论知识的局限性，选择放弃读博入职美国甲骨文。

ChatGPT的出现，让梁建章庆幸自己当年没有继续念人工智能博士，因为“所有的这些自然语言处理的算法，都一下被它（ChatGPT）全部打败了”。他回忆，刚开始接触ChatGPT的时候，“非常非常震惊”，第二个感觉是谦卑，“我们最后做出来最智能的算法，竟然是跟人脑的生物构造那么的接近”。

梁建章开始思考AI大模型与携程业务的结合点。

在梁建章看来，智能社会背景下，旅游业作为“难以自动化的精神需求行业”，其需求会随着整体社会富裕程度的提升而增多，在经济中的占比也会扩大。他将目光锁定在旅游行业的垂直大模型上。

过去半年，来自携程各个业务的成员组成携程大模型技术团队。在大模型研发初期，携程根据大模型的战略要求进行了组织架构调整，并形成了包括通用技术团队、内容策略团队、榜单团队等不同部门，根据大模型产品的不断升级迭代对技术团队进行适配。

梁建章表示，携程会不遗余力地为大模型投入，“长远对我们的客户或者是商户有价值的，我们就应该非常坚定地投资下去。这个（大模型）非常新，技术团队不断优化他们的投资数额，但是我们不设限。”

携程在7月中旬正式发布了旅游行业垂直大模型问道。问道筛选了200亿非结构性旅游数据，结合携程现有的结构性实时数据，以及携程历史训练的机器人和搜索算法，进行了自研垂直模型的训练，“同时，我们投入了巨大人力对旅行通用回复内容进行生成和校验。”梁建章强调。

来源：受访者

在问道发布前，携程已经进行内测，客服人员王芸明显感觉自己的工作发生了很大的变化。以前，她一天要接150多个电话，为客人解答售后订单取消、行李丢失等问题；如今，王芸转型成行前推荐客服，从幕后走进直播间，为网友提供旅行前需要准备的服务和建议。

在梁建章看来，通用大模型的基础上，解决旅游行业准确率的问题依然是关键：“旅游是个重消费的行业，即使规划节省了半小时，但推荐的酒店或者行程结果可能有5%的几率是错的。”因此，相较于ChatGPT那样的通用大模型，梁建章更看重垂直大模型的机会。

虽然在参数上不及通用大模型，也没有通用大模型对算力等条件的苛刻要求，但垂直大模型对数据和场景提出了更高的要求。

问道大模型训练中最大的挑战是真实场景下，用户获取旅游信息过程中，多轮交互数据的搜集和清洗，数据量和数据准确性需要不断修正，特别是旅游行业变化巨大，三年前的目的地信息到现在有可能已经全部过时，特别是疫情对全球旅游业的影响更是加剧了数据的时效性。

和携程一样，越来越多的公司把大模型的赛道放到了垂直领域。

京东交出的言犀大模型答卷，也将产业大模型作为重要特征。在京东集团新CEO许冉看来，过去的人工智能技术发展，曾经数次临近应用爆发的边缘，但最终往往昙花一现，而技术没有在产业端形成扎实的应用是重要的原因之一。

在7月7日华为盘古大模型3.0的发布会上，华为云CEO张平安更是直言，“盘古大模型没有时间作诗和聊天。参数再多、对话能力做得再好，但如果解决不了实际问题，也没有多大用处。”

腾讯至今还没有公布通用大模型混元的进展，但却高调公布了行业大模型路线，一口气抛出10大行业超过50个解决方案。腾讯副总裁、腾讯政企业务总裁李强同样表示：“通用大模型不是模型应用的唯一方向，面向垂直产业的模型会成为大模型价值的引爆点。”

心态转变

大模型创业者心态转变的一个显性的节点，是从王慧文被确诊抑郁症，其创办的光年之外被美团收购开始。大家突然意识到，即便是那个曾经众望所归、被寄予厚望的明星公司，也可能因为各种意外的出现而不得不停止。

就在半年前，一夜之间其他风口似乎都消散了，只有大模型是C位。中国科技圈的创业者与投资人，纷纷飞往硅谷向OpenAI学习，张一鸣、马化腾、王兴，这些巨头的一号位或者决策中心人物，一夜间回到刚创业时的亢奋、好奇状态，深夜阅读论文、交流技术。

那时候，似乎每个中国大模型探索者思考问题的角度都是带着家国情怀的。面对ChatGPT的快速迭代，中国创业者们给自己设定的目标都是如何在多少时间内实现反超。

李彦宏称，“百度文心一言在研发阶段时，百度技术团队曾与ChatGPT进行对比测试，当时差距是40分的水平，一个月能追得上”；王小川也表示，将在年底做出中国最好的大语言模型。

来源：视觉中国

360创始人周鸿祎在此前接受《中国企业家》的采访时说道，大模型已不是商业竞争的维度了，如果中文互联网的封闭性和移动互联网导致的APP之间的数据孤岛问题未能解决，很可能导致人工智能引擎训练的局限性，进而可能导致中美之间新一轮AI革命的代际差距。

关于为什么没有在中国诞生OpenAI这样的公司，中国的企业家们甚至在当时开始反思，过往国内的人工智能探索过于实用主义了，一切以KPI为导向，以至于大家根本没有那样的投入决心和耐心，而因此错过了这样的重要节点。

激情之下，在百度文心一言打响第一枪之后，超过80个AI大模型在半年内涌现，仅在上海举办的2023世界人工智能大会上就出现了30多个大模型，用“百模大战”来形容当下大模型的火热一点也不夸张。

但我们真的需要这么多大模型吗？我们到底需要什么样的大模型？

事实上，李彦宏很早便提出，“创业公司重新做一个ChatGPT其实没有多大意义。我觉得基于这种大语言模型开发应用机会很大，没有必要再重新发明一遍轮子，有了轮子之后，做汽车、飞机，价值可能比轮子大多了。”

京东集团技术副总裁何晓冬同样从一开始意识到，“大模型要有价值的话，得落在产业上，而且最好是产业价值大的领域，这样才能真正成为一个长期可持续的事儿，否则就可能会成为昙花一现的东西。”

新的变量

就在国内创业者们苦苦为AI大模型探索时，扎克伯格的一记大招给这个本就瞬息万变的领域带来了新的变量。

北京时间7月19日凌晨，Meta发布了开源大模型Llama 2，再次引爆了AI圈：Llama 2不仅性能不输GPT-3，而且免费、开源，还可商用。Llama 2是Meta今年3月初发布的Llama模型的后续版本。

随后的微软Inspire合作伙伴大会上，微软CEO萨提亚·纳德拉宣布了Meta与微软合作的消息，这项合作让Llama 2可以运行在微软的云服务Microsoft Azure上。与此同时，亚马逊AWS云也加入与Meta的合作中。

Llama 2对大模型创业者的意义在于，就像安卓系统之于APP开发一样，开发者不用重复造轮子了，直接用最低的成本获得大模型的基础设施使用，从而可以更加聚焦自身的产业场景。

这在某种程度上也意味着，对于大多数创业者而言，选择聚焦产业垂直应用被证实确实是一条更具实用价值的道路。

不过，不同于通用大模型，产业大模型对行业参与者也提出了不同的门槛和要求：一方面，产业大模型要求开发者具备一定技术积累和实力；另一方面，产业大模型也要求操盘者具备丰富的产业应用实践场景。

梁建章告诉《中国企业家》：“通用大模型最重要的指标可能是，多少的参数或者是用多少的GPU等等，但垂直大模型，大语言模型只是其中的一个组成部分，它还有和其他数据的结合，包括人工的校验等等，这些是更重要的。最终指向是不是可以把客户的这些提问、问答来检验效率提升了多少，准确性、可靠性提升了多少。”

“旅游最大问题就是可靠性，这确实比AI作诗、写文章、写小说可能更复杂，也是一项长期的工作，凡是可以把这个提升到80%、90%，95%，甚至99%的事情，都是值得有必要做的。”梁建章最后表示。

知识：大模型

大模型，冷静！

时间:2023-07-24 来源:区块链网络 作者:AIcore

时间:2023-07-24 来源:区块链网络作者:AIcore