王小川,用大模型再造下一个搜狗 | 焦点分析
36氪新媒体 2023-08-12 05:09:41

作者 | 邓咏仪

编辑 | 苏建勋

“去美国之前,我是希望能在(技术)理想上比OpenAI慢半步,落地快半步,但交流完回来,我们改成要比OpenAI的理想慢一步,落地快三步。”


(资料图片)

6月刚从硅谷转悠一圈回来,王小川设定了百川的最新目标。

8月8日,王小川的新AI创业公司“百川智能”发布首款闭源大模型Baichuan-53B,参数量为530亿。新模型已经开放内测,下个月将会开放API及系列组件,以供开发者进行对齐、强化。

在一众国内大模型公司中,百川在模型发布节奏上,显得尤其激进。此前,百川分别在7月和6月分别发布了两款开源大模型,参数量为70亿和130亿——直到发布新模型的此刻,百川也不过成立4个月。

新模型Baichuan-53B参数更大。据百川智能,Baichuan-53B融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作上能力更加完善。

功能、效果的完善只是第一步,如今百川在应用一侧的决心更甚:要优先在B端落地,还要一手抓模型,一手抓应用——下半年,百川将推出千亿级的大模型,也会有C端的超级应用部署。搜索,将成为成为其中的重要部分。

而为了能迅速商业化落地,王小川在4月拉来原搜狗原CMO洪涛,负责百川的商业化。加上此前入职的COO茹立云,搜狗“三剑客”如今再度在百川聚首。

“现在我们已经有103个人,基本上是一天招一个人的速度,往后速度可能会更快,”王小川对36氪表示,“To B也好,To C也好,市场哪个地方的组织先ready,哪个地方就能跑得快一些。

开源闭源不是核心问题,To B/To C才是

王小川形容新模型53B为“文科专业选手”。他表示,在不同测试集上,之前百川发的两个开源模型“英文部分和LLaMA 1持平,中文部分领先”。而新模型的效果,比这两个还要更好。

但与之前发布模型时的不同,此次王小川并没有对模型的参数、技术细节侃侃而谈。在对模型进行解释、生成能力的演示时,更多像是走个过场。“这些能力也都不新鲜了,主要看做得怎么样。”王小川笑言。

以53B模型开发的“百川大模型”对话机器人 来源:百川智能

发布会的重点,很大一部分是在解释开源/闭源路线的考量,以及具体的应用落地情况。

这和当下国内大模型的发展现状同频共振。国内大模型厂商尚在追赶GPT-3.5到GPT-4的过程中,无论是开发者还是用户,如今都已经脱离盲目追求模型参数的阶段。

全球大模型已经分为开源和闭源两股力量。OpenAI一开始走开源路线,在推出ChatGPT后转向闭源,试图保持竞争优势;另一边则是Meta——作为后发者,Meta显然希望依靠旗下的Llama拉拢更多开发者,弥补技术层面差距。

国外的开源生态,是国内市场的一个重要变数,不少国内大模型厂商正是在开源大模型上进行微调,同质化现象已然显著。Meta开源了Llama 2商用版后,有市场评论辛辣讽刺:“国内的大模型厂商又有新模型可用了。”

在这样的背景下,国内大模型厂商得解释清楚“为什么我们的模型更好”,是道更重要的证明题。

7月,王小川就曾回应过baichuan-7B套壳Llama争议,认为团队拥有取得高质量语料的渠道,模型迭代速度很快,开源能力已经比肩Llama。

而到了发布闭源模型的现在,王小川说,开源还是闭源并非问题核心,也不构成当下的共识难题。相比起来,选择To B还是To C才是关键。

“大模型不是To C生态,用户不需要像在安卓、iOS之间‘二选一’,而是开源、闭源都需要,”他直言:“未来,我们认为80%的企业都会用到一些开源模型,因为闭源没法对场景做特别好的适配。”

但多说也无用,有模型之后,能拿出实际的落地成果,对此刻的的百川而言更重要。

百川做“超级应用”的底气,主要来自王小川团队在搜狗时期积累的经验。搜狗做过两个超级应用,一是搜索,另一个是输入法。

尽管要到年底才能知道具体进展,但可以从一些细节看出“超级应用”的端倪。本次的53B模型就已经做了搜索增强,大模型能够参照搜索结果,针对用户请求生成高价值且具有实时性的回答。

搜索出身的王小川,未来也会将很大一部分筹码押注在老本行上。他认为,大模型不会取代搜索,而是会以另一种形式融合在一起。

比如,如今ChatGPT是以插件形式引入搜索引擎Bing的能力,但百川会希望让搜索和大模型两个产品,在技术底层就进行融合。对中国市场而言,这会是触及C端更好的方式。

”比OpenAI技术上慢一步,落地快三步”

做了半年大模型,百川现在已经建立起两个开源模型+一个闭源模型的“模型矩阵”,按王小川的话来说:“第一场入门之仗算是立住了。”

发布更大参数的闭源模型,其实是面向To B市场的一次“秀肌肉”。

此前百川的开源模型分别为70亿和130亿,而这次发布的新模型参数量达到530亿——这已经是一个足够让“智能”涌现、相当大的模型量级。“这次的53B只是用来反映我们的大模型能力,本质是为To B服务的,之前的7B、13B,也都一样。”王小川表示。

做大模型是一项综合工程,从早期的数据获取、数据选择、数据配比、标注到后期的训练框架,一个环节发生变化,都会对效果产生很大影响。简言之,模型参数越大,也更考验大模型团队的“硬功夫”。

大模型没有办法做完服务用户的最后一步,某种程度上,这给了中国厂商机会。王小川以13B和7B模型举例,在这两款模型推出并落地后,已经有超过150家企业注册使用。在一些行业中,用户反馈甚至已经比闭源的GPT模型更好用。

下半年,百川还将计划发布千亿级的大模型。未来,开源和闭源模型会以互补的形式为客户提供服务。

来源:百川智能

和年初宣布入场相比,如今王小川在应用一侧落地的信心更足了。他认为,应用层依旧有中国厂商的大机会。

6月发布百川的第二款模型之后,王小川随即奔赴硅谷拜访。和技术人员交流后,王小川发现,他们技术确实做得不错,但美国以工程师主导的文化浓厚,很多工程师并没有应用的经验,做应用能力“实在不咋样”。

“他们(硅谷)现在在研究怎么把1000万颗GPU联在一块做模型架构,英伟达一年才生产100万颗GPU。拼理想实在拼不过,但落地我们能跑得快。”

既做模型也做应用,百川“左右开弓”的路线,是如今国内大模型厂商的缩影。

在美国,OpenAI、Google、Meta打得火热,模型层格局已定,几乎没有创业公司会选择“再造一个OpenAI”。转而兴起的,是如火如荼的中间层和应用层创业,几层生态之间泾渭分明。

但在国内,通用模型层还没能分出胜负——无论是大厂派、互联网创业派还是学院派的模型团队,大家都在往GPT-3.5到GPT-4之间的目标前进。在效果上,大家没有办法拉开决定性差距。

局势不明朗时,一个更为牢靠的抓手是必要的,这是以后差异化的关键。比如,国内最早做大模型的的智谱,如今也在探索To C的应用形式;像讯飞这类垂类厂商造了通用大模型后,也上线了讯飞星火app,切入到学习和办公场景。

从造大模型到造应用,短短半年过去了,国内“百模大战”的第一阶段追逐战也告一段落。“现在还是群模乱舞的状态,未来慢慢会有更多的分层。“王小川说。而接下来的应用层之争,才是资源、技术、产品、商业化的全方位“持久战”。