大模型创业潮：狂飙 180 天

作者: 晚点团队来源: 晚点LatePost 发布时间: 2023-05-31 13:11 阅读: 5553 次推荐: 8 原文链接 [收藏]

　　更大的愿景，更严酷的现实。

　　采访丨朱丽琨程曼祺

　　文丨朱丽琨

　　编辑丨钱杨

　　中国的大模型创业者已经集结在十字路口。他们之中既有研究自然语言理解将近 40 年的科学家，也有已经功成名就的前创业者，还有刚刚博士毕业的年轻人。创业者们在各个层面展开竞争。这个十字路口甚至是物理的——就是清华大学东门外的那个十字路口。这些公司地理位置上也紧挨着彼此，最近的仅仅隔着几层楼板。

　　搜狐网络大厦在十字路口的一侧。它可能是国内大模型人才密度最高的写字楼。王慧文的光年之外在三层。孵化自清华计算机系的智谱 AI 租下七到十一层，九层以上都还空着，保留着搜狗在这里办公时的痕迹，楼道贴着 “搜狗大事记”。搜狗创始人王小川在第二层的一个会议室里开了媒体沟通会，宣布开始大模型创业，成立新公司百川智能，但他准备在附近园区选址，“我不跟他们在这里卷”。这些公司忍受着比北京 CBD 均价还贵的写字楼租金，只为物理上 “接近中国最顶尖的 AI 人才”。

　　路的另一侧有 “清华系” 代表团队聆心智能和深言科技。前者由清华大学计算机系副教授黄民烈创办，自 2021 年底开始自研 “超拟人大模型”，后者创始团队几乎全部来自清华 NLP 实验室，实验室的学术带头人孙茂松教授担任公司的首席科学家。创始人兼 CEO 岂凡超想和教授交流时，只用走几百米回学校。

　　他们的创业契机不相同。智谱 AI 于 2019 年成立，是其中最早起步的公司。创业初期，他们基于谷歌 2018 年推出的 BERT 大模型做应用。光年之外 2023 年 4 月初正式启动。王慧文年初看到大模型的机会，“几天之内就做完决策”，决定再次创业。

　　他们都被 ChatGPT 显示出的 “才能” 震撼。一位大模型创业者让 ChatGPT 用动态规划方法列出从北京到上海的最短路径，每条路的里程数要被 3 整除。一位资深科技投资人让 ChatGPT 翻译日本唱片介绍。ChatGPT 可以把 “N 响” 准确地翻译成 “NHK 交响乐团”，这是相当资深的古典音乐发烧友才知道的 “黑话”。一位 AI 创业公司的科学家请 ChatGPT 写人类和 AI 的故事，不断要求加入新角色，比如一只哈士奇，不断涌出的字词还是自然地组织起来。

　　真格基金设计了 300 多个问题，包含 “香蕉的平方根是多少”，以及要求大模型模拟抽塔罗牌占卜。3 月中旬，刚发布几天的 GPT4 回答准确率超过 70%，同期已发布的国产大模型平均准确率 20%。5 月，国产大模型的平均准确率已经追到 50% 以上。

　　被大模型能力震撼的创业者们将其比作 “下一代计算机”“火的发明”“人类创造的上帝”；动用各式比喻来解释他们预计的变化量级，“寒武纪”“工业革命”“文艺复兴”“大航海”“苹果微软时刻”“黑莓时代” 等等。

　　质变从 2020 年面市的 GPT-3 开始。这款模型参数量和预训练数据量比上一代增大百倍以上，展示出更强的语言理解和预测能力。OpenAI 的设想被印证：当数据规模足够大，模型就能学到其中包含的翻译、算数、编程等各种任务的例子，因此变得更通用。ChatGPT 沿着这条路更进一步。IDEA 研究院认知计算与自然语言讲席科学家张家兴在一次活动上，引用《三体》里著名的那句 “物理学不存在了”，在现场感叹，“传统的 NLP（自然语言处理）技术不存在了”。

　　“大模型重点在数据、模型、可以规模化实施的算法，传统 NLP 研究重点在模型上做很多精巧的设计，但很多在大数据大模型上就不再有效了。” 聆心智能创始人、清华大学计算机系副教授黄民烈解释。

　　原本就在 AI 领域的创业者也活跃起来。商汤、第四范式、科大讯飞等公司相继推出大模型。AI 创业公司出门问问 CEO 李志飞感叹，“大模型的供给比想象中多多了”。他最初认为大模型的资金和技术门槛高，能做的国内公司最多两三家。一个半月之后，他预感大模型的市场竞争可能比上一波 AI 热潮更激烈。

　　怎么理解 OpenAI 的成功，部分意味着这些创业者将怎么对待他们的竞赛。李志飞认为 OpenAI 的成功是 “把研究范式切换为产品驱动”。澜舟科技创始人、前微软亚研院副院长周明认为，这家公司把数据清洗、训练速度等各方面做到极致，并且集成所有能力，包括优秀的算法、工程甚至 PR。而王慧文认为 OpenAI 的成功是 “正确的使命、愿景、价值观，正确的组织方法的成功”。

　　创业者们对大模型的终极目标 AGI（通用人工智能）的看法，从定义到理解都有很大差异。

　　王小川只跟 ChatGPT 简单聊了几轮，就确信 “ AGI 已经来了”。他认为 ChatGPT 印证了他六七年前的判断：当机器掌握了语言，强人工智能就到来了。在一个小范围分享会上，几位 AI 领域创业者仅从功能上定义 ChatGPT 的进步。

　　“大家把这件事想小了。” 王小川说。他会后接到一个在场者的电话，对方问，“小川，你是不是又在装？” 几天后，那人又打来电话：“这次你又说对了。”

　　王慧文认为，“对 AGI 的认知，随着对事实的掌握和结果的展开，可能会翻转很多次的。”

　　共同点在于，他们都确信大模型技术变革比他们经历过的任何一次变化都大，而他们站在这场可能长达几十年的变革浪潮的起点。

　　“这次 AI 的浪潮应该是一个持续几十年，由多个小浪潮波次构成的大浪潮。它不会一个波次就完成，会在不同的波次里出现不同的创新。” 王慧文说。

　　他认同美国投资人埃拉德·吉尔（Elad Gil）的观点：在部分科技浪潮中，所有的价值都可以由初创企业捕获，而在另外的浪潮中，大部分价值会归成熟企业所有，或者会在初创企业和成熟企业之间分配。王慧文认为，AGI 浪潮属于后者，因为大模型技术跟过去的技术差异化足够大，导致了市场的不可预测性，创业公司因此有了发展空间。

　　直到 ChatGPT 教育了国内市场

　　2022 年 10 月，多个美国投资人跟李志飞提到一款叫 Jasper 的 AIGC 应用很赚钱。当时 Jasper 仅仅成立 18 个月，估值 15 亿美元。Jasper 基于 GPT-3 模型，针对市场营销场景做了精调，靠生成营销文案打开市场，2022 年 ARR（衡量 SaaS 或订阅业务的收入指标）约 8000 万美元。

　　“看到它的那一刻，我真觉得自己是傻子。” 李志飞说。

　　一位美国红杉的投资人跟李志飞说：“你的时代来了。” 对方还提到美国红杉的管理合伙人只讨论 AIGC 项目，别的都不看。当时，投资界的关注点更多在应用而非底层的大模型。

　　Jasper 解决了李志飞两年前就开始思考的问题：GPT-3 到底适合应用在什么场景？李志飞想过文案场景，但只 “答对” 一半。“过去我们做的是纠错、润色、改写，没想到完全生成一篇内容”。他 2020 年做过一款基于自研大模型 UCLAI 的辅助写作应用，因为没想到好的商业前景，最终没有上市推广。

　　AI 创业公司第四范式也有类似的尝试。第四范式副总裁兼主任科学家涂威威带领百人团队，负责研究全球最前沿 AI 技术并提前投入。2018 年谷歌推出 BERT 大模型，各方面性能显著提升，涂威威和同行当时都以为，“那就是 NLP 的拐点”。他接到越来越多辅助写作的需求。其中一些客户很坦白地说，希望 AI 帮忙生成 “八股文” 式的汇报材料，“AI 都能下棋，这还写不了？”

　　涂威威团队尝试基于 BERT 和 GPT 系列模型做辅助写作应用，但只能实现续写两三句，准确性还不高，最终没有对外发布。

　　创业公司算力资源有限，注定向投入产出比更高的主营业务倾斜。这些先行者的大模型实验当时也很难得到外部支持。2020 年 6 月，GPT-3 推出，Google 科学家出身的李志飞看到了大模型更通用的能力。他和工程师结成研究组，“像上瘾一样” 读论文。

　　几个月后，在一个科技企业家的登山活动上，李志飞花一小时跟同行的人解释大模型是什么。他讲得兴奋，别人 “只是当故事听”，并且不断质疑：“So what？怎么商业化？” 其中一位企业家委婉地说：“志飞，你就适合当科学家，不适合创业。” 李志飞意识到，“不可能有人投资你做这个”。他们研发的中文大模型最终停在 60 亿参数量，没有足够的资本支持它走到能力 “涌现” 那一刻——如今从业者普遍认为 400 亿-500 亿参数量级是模型能力 “涌现” 的门槛。

　　创投界此时还没意识到 GPT-3 背后的商业空间。真格基金管理合伙人戴雨森在 2021 年就接触过两家大模型创业团队，他们也想做类似 Grammarly 的 AI 辅助写作或小说续写。戴雨森当时并不看好，认为应用场景比较局限。

　　企业客户更现实。周明在 2020 年底开始创业，拜访上百家客户，得到的反馈往往是：“你做大模型，我们也用不起。” 周明公司的客户大多是央国企，为了数据私有化，得把大模型部署到本地，至少得投入上千万元的训练成本。即使不做训练，只做本地部署推理，成本也在一两百万元。客户认为不合算。

　　直到 2023 年 1 月，ChatGPT 教育了国内市场。李志飞此时已重启自研大模型 3 个多月，他发现有 “看起来跟大模型毫不相干” 的人，也来问他得花多少钱、招什么人能做。涂威威接触到各行各业咨询大模型合作的客户，甚至包括 “农林牧副渔” 行业。

　　2 月 10 日，一条 “人工智能宣言” 流传开。“5000 万美元，带资入组，不在意岗位、薪资和 title，求组队。”3 天后，宣言变成传播度更高的 AI “英雄榜”。王慧文公告了他的决心：打造中国 OpenAI。

　　他的下场加剧了这一轮 AI 装备竞赛的激烈程度。一位大模型创业公司的员工说，“老王这么投入” 让他意识到，这个赛道的火热程度远超想象。算力资源明显紧张起来，一位创业者抱怨，“求爹告娘才搞到一些机器”。

　　“边登月边修螺丝”

　　2 月 7 日开始，王慧文给他认为适合大模型创业的人一个个地打电话。他总在问 “你怎么看……”，再问，“你要不要干？” 听到的回答经常是否定的，“太烧钱了”“这是巨头的事”……一周后，他决定自己下场。“大家往往低估了看到大变化立刻冲进去的重要性。” 王慧文说。

　　美团到家事业群总裁王莆中评价王慧文 “人才识别能力超强”。因此，被王慧文联系过的大模型人才也受到其他竞争者的关注。深言科技 CEO 岂凡超就是其中一位。岂凡超在清华 NLP 实验室读博期间，参与研发智源研究院 “悟道” 大模型，在国际顶级刊物发表 30 多篇论文，和同学研发产品 “WantWords 反向词典”，吸引超过 500 万用户。在一位深言科技员工眼中，岂凡超是难得的兼备技术和产品能力的人才，他的创新意识驱动他做科研、做产品，“他不愿意做跟别人一样的事”。

　　GPT4 发布后的一个月，创投圈氛围逐渐升至沸点。各公司开发布会，展示大模型如何在办公、营销等场景落地，如何跟医疗、智慧交通等行业结合。投资机构开闭门会，要求被投公司跟紧变化，避免被颠覆。一年前被派去新加坡看 web3 项目的投资人回来 “猛学 AI”，不少投资经理开始攻读技术论文。陆奇让团队的人做 “大模型日报” 来同步最新信息，感慨新出的论文多到他 “实在是跟不上”。

　　王小川提问 ChatGPT：我想做好这次创业，招更多合伙人和优秀的领军人物，应该做些什么？得到的建议之一是：你应该先把你的想法告诉外界。他听取了 ChatGPT 的建议，召开媒体沟通会，第一次宣告成立百川智能，计划年底发布对标 GPT-3.5 的大模型。

　　钱迅速涌入。王小川刚和朋友透露创业想法，就被问 “能不能加个亲友股”。百川智能启动资金 5000 万美元均来自他个人及好友的支持。王兴以个人身份投资王慧文的光年之外，宿华则投资了多家生成式 AI 相关公司。

　　目前，国内估值最高的两家创业公司是光年之外和 MiniMax。

　　真格基金是最早认投光年之外的投资机构之一。真格基金管理合伙人戴雨森认为，大模型技术产品化这个过程很难由科学家完成，需要一个有商业思维的人。同时，大模型资金门槛高，需要创业者有 “融几亿美金并且有效地花出去” 的经验。

　　MiniMax 公司名字取自一种算法，人们对它还不熟悉，但它的合作方有不少知名公司：4 月 18 日，火山引擎总裁谭待在发布会上专门提到 “火山引擎上跑了抖音，也跑了 MiniMax”；同一天，金山办公发布 WPS AI，CEO 章庆元介绍其底层大模型由 MiniMax 提供。

　　MiniMax 于 2021 年 12 月成立，已有文本、语音、视觉 3 个模态的自研基础模型。2023 年 3 月，MiniMax 推出面向企业用户的 API 开放平台，支持文本和语音模型的服务调用。

　　联合创始人杨斌曾任职于 Uber AI 研究院，获得过英伟达 2018 年先锋研究奖和微软 2021 全球博士奖学金。MiniMax 团队成员大多出生在 1990 年代。多位创投人士认为，开始大模型创业的最佳年龄在 35 岁以下。他们认为大模型技术更新速度 “以天计算”，年轻人能更快迭代认知，并且知识结构不陈旧。

　　云启资本是 2021 年底唯一参与 MiniMax 天使轮投资的早期投资机构。云启资本合伙人陈昱学计算机出身，他指出机器学习领域近年有两个里程碑式进展：2012 年 CNN 架构爆发，2017 年 “所有人一边倒地去搞 Transformer 架构”，GPT、BERT、LLaMa 等主流大模型都基于 Transformer。“一个人在不同年份开始接触机器学习，知识结构完全不一样。” 他认为新技术已经覆盖和超越传统 NLP 技术，“早年的知识不是经验，而是累赘。”

　　MiniMax 团队有一种活泼的面貌，自驱力强。他们内部最初给大模型起的昵称叫 “ABAB”，因为刚开始做语言能力训练时，模型只能像婴儿那样 “啊巴啊巴”。现在公司创立近 18 个月，他们自信模型能力国内领先。MiniMax 的企业文化受到 SpaceX 启发，创始团队常把做大模型比作造火箭，希望用不走捷径的方式实现 AGI。

　　现在，国内更多组织把 AGI 作为愿景，从零开始搭团队、争取资源。一位大模型创业团队成员形容此刻的局面，所有人都在 “边登月边修螺丝”。

　　“新大陆上，最值钱的不一定是黄金”

　　创业者们基于各自的经验，探索 “技术——产品——商业化” 的不同路径。

　　战略层面，多位创业者同时做大模型和商业化应用。周明称之为 “边炼边用”。周明是国内最早出发的大模型创业者之一，他认为澜舟科技的模型和应用之间已经形成 “反馈链”，有先发优势。王慧文将 “双轮驱动” 定为光年之外的战略。他认为，只做应用和只注重做模型都有战略风险。前者风险在于模型能力不断进化，很多应用场景可能被完全覆盖。后者风险在于市场被注重商业化的对手抢占、研发后期难以衡量模型好坏，以及无法通过应用收集更多数据。

　　李志飞认为，OpenAI 比 Google 等对手更早 “见到真实用户数据”，是 OpenAI 坚定研发方向、形成壁垒的重要原因。他提出 AI 应用数据分为三个阶段：上线前，研发者假设的用户数据；上线初期收集到的大量 “假数据”，比如每天流入流出的新用户，留下无意义的互动。“绝大部分产品跨越不了这个阶段。如果你不警惕，你会误以为这就是用户真实的需求。” 而 OpenAI 的应用已经走到第三阶段，有留存用户、付费用户，数据更接近真实。

　　产品路线也各不相同。周明坚定选择 2B，做针对特定领域的专用大模型，“节奏慢但是更务实”。他认为 2C 像是一条 “不归路”。2C 需要把语言理解能力和做各种任务的能力放在一个模型里，相应地模型参数规模必须大，未来会进入参数规模、数据量和算力的军备竞赛。

　　周明认为 2B 和 2C 是完全不同的两条路，打算两者都做的创业者属于 “没想明白”。而 MiniMax 和深言科技都认为，现阶段大模型可以在通用场景发挥价值，2B 和 2C 的市场需求都能满足，不会刻意区分。

　　李志飞选的方向是 to “professional consumer”，用户是 “产消者”。他们希望为创造某些内容而消费的个体提供 AIGC 工具。

　　出门问问曾以 AI 识别为重点，但这个方向困难重重。做 2C 的语音助手时，李志飞发现很难满足用户的期望。尽管语音识别、语音合成等基础技术很成熟，但一个语音助手产品包括自然语言理解、对话、数据查询等 8 个环节。在上一代 AI 技术条件下，每一步都有可能出差错——这也是 Siri 们总被调侃是 “人工智障” 的原因。他也做 2B 业务，但 “没法第一天就有商业模式”，往往是客户免费试用半年，再打磨产品，才有可能收到钱。大公司也在抢同样的客户，有些产品还免费。

　　李志飞处在一种苦闷的状态里，直到他在 2020 年的 CES 国际消费电子展得到启发。那是在三星的展台，他突然听到背后有说话声，“毛骨悚然的感觉”。他回过头，看到和他一样高的屏幕上，用极高画质渲染出来的数字人 Neon。他第一次被 AI 生成的体验震撼。回去后，他调整研发重点，带团队开始投入生成式 AI 。

　　不久后，他带团队研发的 AI 配音平台 “魔音工坊” 带来让他惊喜的利润。2023 年 4 月，出门问问发布基于自研大模型发布 AI 写作应用 “奇妙文”，“魔音工坊” 等应用也开始与大模型整合。他乐在其中，生成了一位数字人李志飞，代替他本人参加活动。

　　不同的产品路径，有一些共同的问题亟待解决。比如，怎么让大模型避免胡说八道？一种实践是引入专家知识去干预。对于 2C 产品，这帮助它们和人的价值观对齐——这也是陆奇近期演讲提到的 “OpenAI 现在优先级最高的工作”。聆心智能创始人黄民烈介绍了他们设计的一个重要规则：当他们的情感陪伴类产品识别出用户有危险行为时，机器能以符合专业干预技术的方式施行紧急援助。

　　对于 2B 产品，引入专家知识和规则帮助它们表现得更准确。第四范式于 4 月底首次公布 “以生成式 AI 重构企业软件（AIGS）” 战略，提出企业级 Copilot（助手）的进阶 “Copilot+ 知识库”。涂威威解释，这可以理解为第四范式 “培养” 出大模型的基础能力，等它进入企业后，接上内部知识库就能 “自学”，更准确地理解任务、知道什么工作该调用什么资源，输出结果也能溯源，“像一位董秘”。

　　多位创业者认为，考虑 2C 商业模式、监管等因素，ChatGPT 在国内并不是最适合的产品形态。王慧文愿意尝试 “Chat” 这个已经被充分验证的机会，但他更强调 “keep open-minded”，别在起跑时就笃定哪一条路是正确的。

　　他计划组织一支产品团队，每天探索不同方向。“我们尝试的时候可能起点很低，” 王慧文说，“要勇于从别人看不见、看不起的东西着手去尝试。不断收集信息，不怕 low。”

　　戴雨森把 ChatGPT 比作新大陆刚挖出的黄金，前往新大陆的探险者们 “去了可能发现棉花价值更大”。

　　更大的机会，更严苛的环境

　　陆奇在近期演讲中，给出中国大模型发展第一阶段的标准：谁先达到 GPT-3.5 水平，谁将能进入第一梯队。在此之前，许多事要从零做起。

　　戴雨森认为 “中国几乎没有人有做万卡并行训练的经验”。而缺少工程经验会带来各种意想不到的难题。一位创业者说，刚把算力加上去，机房电不够了。他认为目前市面上绝大部分机房的电量配置，都满足不了大模型的训练需求。

　　面对算力 “卡脖子” 的现状，李志飞尽量让自己乐观：“真正有意思的是你在有限的资源下做出别人做不到的事情。” 他用精打细算的方式炼模型，经常埋在论文里研究半天，只为了找到最合适训练大模型某项能力的框架或超参数。他所说的合适意味着，“虽然冒一定风险但可以大幅降低成本”。

　　数据工程也需要一点点摸索。黄民烈介绍，聆心智能制定了包括数据搜集来源、清洗加工等各环节的标准流程，建立起相对高效的数据工程，数据体系趋于成熟用了 1 年。他认为初创团队做数据工程的 “脏活累活” 需要的时间，不会因为技术快速发展而减少很多。

　　更核心的难题在于找到真正的人才。一位有技术背景的大模型项目的投资人在 2、3 月密集地和 50 多位国内顶尖的从业者交流，他认为真正拥有前沿洞察的人不超过 5 位。

　　王慧文希望找到这样的人：真正向往伟大事业、对工作有主人翁精神、理解不同职能和技术，足够聪明、足够自信……他认为吸引越多具备这些特质的人才，团队才能形成多种组织能力，不同职能之间有效合作。但他也承认，这样的人才非常稀少。

　　定下双轮驱动的战略后，王慧文认为最大的挑战来自组织能力。AGI 是执行属性和探索属性都很强的业务，链条也很长，这种事情对组织的要求很高，它比单独探索和单独执行，难度都高很多。

　　“比移动互联网更大的机会” 激励着每一位投身大模型的人。同时，他们也面临比移动互联网初期更严苛的监管环境。全球政府都更早介入监管。4 月 11 日，网信办发布《生成式人工智能服务管理办法（征求意见稿）》公开征求意见的通知。同日，美国商务部下属的国家电信和信息管理局（NTIA）宣布征求公众意见，关于如何制定人工智能问责措施。NTIA 负责人艾伦·戴维森（Alan Davidson）对《卫报》表示，美国立法者 2021 年提出 100 多项人工智能相关法案，“这跟社交媒体、云计算甚至互联网早期有很大不同”。当地时间 5 月 16 日，OpenAI CEO 山姆·阿尔特曼（Sam Altman）首次参加美国国会听证，呼吁政府制定监管 AI 的措施。

　　创业者也将面临来自大公司的激烈竞争。移动互联网时代的巨头比 PC 时代更难颠覆。它们不仅在算力、资金、某些垂直领域数据有优势，也渗透进更多应用场景，有高度成熟的商业变现体系。

　　王小川认为，现有的大公司虽然有资源优势，但定目标 “想象力不足”，需要跟已有业务配合，“老板不会把 AGI 当作公司的总目标”。大公司复杂的组织结构，还容易导致个人目标和公司目标产生偏差。他认为大模型时代相对互联网时代将发生 3 个重要变化：交互方式从连接改为陪伴，信息服务变为知识服务，免费模式变为付费订阅模式。

　　他相信一定是新的组织引领这些变化，“两到三年会看到一批新的巨头”。

　　相比与创业公司竞争，李志飞说，“我唯一怕的是巨头。” 他创业超过 10 年，2017 年他在做智能音箱，赶上 “百箱大战”，和大公司正面遭遇过。那是他第一次深刻意识到，“竞争是很残酷的”。最近他去硅谷跟人交流时会被问：“你怎么了？你是受了多少折磨？” 他才意识到自己一直在谈竞争，不像过去在 Google 当科学家时那样畅聊技术。

　　“创业很痛苦，如果没有乐趣坚持不下去。” 他说。2020 年，AI 市场继续下行叠加疫情，他郁闷难解。研究 GPT-3 的论文成了他的精神支撑。

　　如今，自研大模型让他找回了乐趣。他经常跟他和团队自研的大模型 “序列猴子” 聊到凌晨一两点。最初，他像辅导功课的家长，反复教 “序列猴子” 做算术题：一个苹果两元，一个梨子三元。我买三个苹果，五个梨子总共花多少钱？“序列猴子” 总是列不对方程式。他发现，大模型就像有自己的脾气，有时坚持不改错，有时会立刻改。

　　随着研究深入，李志飞理解，这不是机器产生了意识，而是大模型在各信息之间权衡，什么是更有可能正确的答案。

　　4 月中旬的一个晚上，他和朋友吃饭时收到同事的消息：“序列猴子” 有了一个还不错的新版本，让他试试。他随意问了几道地理题，比如 “湖北和湖南两个省的省会人口哪个更多？” 从简单到复杂的问题，“序列猴子” 都很好地对答。而这些看似简单的问题与结论，实际上需要机器先理解问题中的概念，再作比较。李志飞感到惊喜，“序列猴子” 可能拥有了二阶逻辑推导的能力，而他们并没有刻意训练过。

　　那一刻，他非常兴奋，匆匆结束饭局跑回家，从对话、数学、多步推理等各个方面又测试了几个小时。他发现 “序列猴子” 跟过去他做的所有 AI 系统都不一样。过去，他明确知道机器能做什么、不能做什么。现在，他意识到 “序列猴子” 能听懂问题，还不时给他意料之外的答案。

　　“序列猴子” 在努力理解人类的语言，李志飞在努力理解大模型——这是创业中他最珍视的部分。“也许我永远不能完全理解它，就像真相只能逼近。但我还是想知道 why，提出假设，做各种实验。”

　　“我认为今天是非常伟大的一个时间点。” 王慧文说，他认为起步年代意味着未来能打开的空间大小。“在这个时间点起步的公司，有希望形成研发能力与商业能力的正循环”。

　　他把这次变化的节点类比于 1980 年代左右，个人数字设备起步的时间点。苹果和微软两家公司在那个时候启动，建立了研发和商业的正循环，成为人类数字科技进步浪潮的主要推动者，当浪潮由别人推动时，它们也有能力跟进。

　　不止一位创业者会从科技史、商业史的角度打量过去浪潮中诞生的创业公司，从它们的故事中寻找规律，以它们的历程激励自己前进。中国的大模型创业者们的竞赛刚刚开始。肯定的是，竞争将十分激烈，环境将十分严苛，赛程将十分漫长。

　　题图来源：Midjourney

标签：AI 大模型

大模型创业潮：狂飙 180 天

推荐链接

人工智能热门文章

人工智能最新文章

最新新闻

热门新闻