第一财经专访丨对话吴悦:行业级大模型商业化路径更短,基于大模型技术的超级APP将会出现

2024-03-06   第一财经


编者按:继ChatGPT之后,Sora在2024年年初面世,引爆新一轮AI热潮。身处时下最受关注的领域,AI企业如何落地与变现,是所有参与者需要共同思考的问题。第一财经数字中国行第二季,发起AI专题对话,与AI业的领航员们共同探讨AI如何由虚向实。

Key Points:

1、大模型技术的出现对NLP领域产生了颠覆性的影响,使得机器像人一样的聊天与对话成为可能。

2、行业级大模型的商业化路径相对较短,因为它们已经在客户端落地并显示出效率提升。

3、虽然大模型的研发投入巨大,但开源大模型的出现降低了成本压力。

4、Sora的推出被视为里程碑事件,尽管目前还不确定其在人类意识领域的突破程度。

5、基于大模型技术的超级APP将会出现,并且大模型的成本问题会通过规模化得到缓解。


正文:

近几年,人工智能至少有两波浪潮,一波以2023年ChatGPT的出世为开始,一波在更早之前,以2016年AlphaGo大战李世石为标志性事件。

追一科技就成立于2016年。追一科技创始人兼CEO吴悦回忆道,“我们2016年出来创业的时候,也是人工智能的高热期。在2012、2013年,深度学习应用于图像识别领域出现了技术突破。2016年AlphaGo战胜李世石也属于人工智能技术的一个突破。”

2006年,吴悦从中科大硕士毕业后就进入了腾讯工作,2006-2011年,吴悦在腾讯主要做存储系统研发,2011年到2016年专攻搜索技术。

由于既做过基础架构,又做过搜索推荐等,吴悦看到了NLP(自然语言处理)技术的商业价值。“NLP在搜索领域诞生出了Google、百度这样的大公司;后来在推荐领域,诞生出了今日头条。在这个基础上,我们就判定NLP下一个爆发的方向应该是对话,所以2016年出来创业时就决策主攻NLP的对话机器人方向。”

这个猜想在今天得到了验证。生成式大模型是对NLP技术的颠覆性改变,基于生成式大模型的ChatGPT也是人机对话的产品形式。


追一科技官网介绍称,追一科技主攻人工智能三大技术栈之一的NLP技术,拥有自研的领域大模型“追一博文”,并延展到智能语音、多模态的AI全栈技术,目前已累计服务300+企业/政府类客户,在2022年完成D轮融资。

以下是第一财经与吴悦的访谈内容:

嗅到对话风口,创立追一科技

第一财经:你当时离开腾讯选择创业,是看到了什么机会?有什么契机?

吴悦:我们公司成立于2016年,正是和深度学习的这一波浪潮挂钩。因为我自己本身做过搜索和推荐,所用到的自然语言处理是人工智能其中一个比较重要的分支。我们看到了深度学习技术突破在自然语言处理方向带来的一些新的机会,这可能是第一个比较重要的原因。第二,具体在自然语言处理这个方向,我们在这一领域里做的时间比较久,团队先后做过几个重要的自然语言处理的应用系统:最开始是搜索,也就是对网页和文字的处理,这是自然语言处理里非常重要的一个应用。随后又做过类似于头条这样的文本推荐系统。搜索和推荐我们都做过,从技术发展趋势上判断下一个应用的发展方向和机会点可能在人机对话方向。第三,我们团队之前的背景主要是在互联网行业面向C端的应用,16年的时候看到了一个面向企业B端的机会点。综合这三个方面,我们决定出来创业,专注于自然语言处理人机对话面向企业B端的应用。

第一财经:追一科技这几年推出了不少AI员工产品,这是你基于“下个方向是对话”而选择的策略吗?

吴悦:对。对话有三种媒介:文字对话、语音对话和视频对话。文字对话最主要就是NLP技术。基于文字对话之上还可以叠加语音识别、语音合成等,那就是属于NLP叠加语音技术,变成了语音对话。在语音对话上,再加上一个视觉的数字人形象,变成一个视频对话。


第一财经:现在很多人工智能公司,包括一些大厂都在做数字人。这是由市场需求决定的吗?还是说落地门槛相对没有那么高?

吴悦:主要是市场需求决定的。因为抖音、视频号这种视频类的应用与社区在快速爆发,产生了很多的客户需要和机会。另外,数字人底层技术在不断发展与突破,目前也有成熟的技术能够满足这样的需求。

第一财经:对于不同的行业,比如金融和政务领域,追一科技交付的AI员工产品有区别吗?

吴悦:AI员工本质上是产品叠加上企业私有的知识、流程与管理规则所构建的私有专用的AI模型。单从产品上来说没有区别,它是一个标准化的产品,但是不同的行业及各个企业之间的知识、流程与管理规则不一样,我们要把它们构建为企业私有专用的AI模型的并落地到标准化产品里面来。所以总结一下,产品是标准的,但是企业私有专用的AI模型是有差异的。


第一财经:这些专业的知识是由企业客户自己提供?相当于追一科技交付一个标品,企业把自己的知识或者自己的数据封装进去?

吴悦:是这样。但这个过程需要我们全程参与,因为企业软件产品这部分服务很重要,包括前期的咨询、售前,后期的实施和交付,到后面持续的运营,这些都是服务的一部分,这也是我们给客户提供的一种能力。所以其实面向企业而言,我们一手提供标准化产品,另一手提供标准化与专业化的服务。

第一财经:追一科技发布的博文大模型是在开源大模型基础上优化而来的吗?

吴悦:对,可以这么说,我们现在会基于多个开源模型和开源模型所用到的方法去构建自己的领域大模型。从另外一个角度来看,因为我们一直做这个方向,所以在整个大模型的方向上也会做一些单点算法上的研究。过去我们也公开了一些算法,比如我们自研 Roformer 模型中的核心算法 RoPE(旋转位置编码)是追一科技为大语言模型技术发展做出的重要贡献,据公开资料显示,RoPE先后被 Google PaLM系列、Meta LLama系列、百川系列、ChatGLM系列等全球头部大语言模型所采用,成为LLM位置编码的主流方案。

第一财经:未来几年,追一科技有什么计划与愿景?

吴悦:两个方向,一是面向于市场、客户的维度,我们还是会聚焦在中大型企业客户,比如像金融、运营商、政企类的客户,围绕着客户的需要去创造价值,并且以给他们创造价值作为一个目标导向,不断对我们的产品进行迭代。另外,服务也很重要,要不断去提升我们的服务能力和水平,提升客户满意度。

其次,面向创新的维度,我们还是比较相信AI员工后面会普遍运用到企业里来。我们现在主要做企业对外的服务和营销,但渗透率不高,所以我们会抓住一些技术创新,比如说大模型多模态技术,不断基于技术创新来迭代产品,提高AI员工在企业场景的渗透率。

另外,要实现长期的商业化,首先要有自我造血的能力,得有自己的业务根据地,也就是企业本身的立足点。有了这个立足点,未来再去做延展才是能够成立的。

“Sora给AI理解物理世界打开了一个口子”

第一财经:去年ChatGPT爆火出圈后,人工智能进入2.0阶段,越来越多初创企业涌入AI赛道。过去的2023年,对追一科技而言意味着什么?是感受到了更多机会,还是更多竞争的压力?

吴悦:还是感受到的机会更多,当然压力肯定还是有的。因为毕竟大模型领域,最核心的就是要比拼技术。过去技术比较难突破,所以相对来说它可能针对不同的业务需要,会有专业的模型来做专门的研发。但大模型技术突破后,能力比较强,通常一个模型就能解决很多个问题。从这个角度来看,会带来两方面的收益:一是效率提升,二是可以解决更多问题,应用场景上也有更多延展。比如我们之前应用在企业对外的客服场景居多,能力变强之后,我们在一些非常专业的营销场景,甚至可能在一些产品定义的环节都可以用到。所以无论是从效率的提升,还是从产品的延展,都带来比较多的机会。

压力大是因为大模型的研发投入还是蛮大的,因为要构建一个大模型在算力上的投入和开销是巨大的。但是后来看到像Llama 2,包括国内很多开源大模型,可以基于开源的技术,去研发自己的领域大模型,我们感受到成本大的压力得到了有效化解。

第一财经:去年Open AI推出了ChatGPT,成为全年持续火爆的一个话题,今年年初又推出了Sora,再次给市场带来一波热潮,你如何看待Sora?

吴悦:第一,Sora的出现确实是一个里程碑事件。从行业角度来看,ChatGPT的突破是自然语言处理技术的突破。语言文字是人类独有的产物,动物或许有语言但是没有创造出来文字。语言文字承载了人类的智慧。我们的社会、商业的很多载体都是依靠语言文字完成的,ChatGPT的突破我觉得可能是对人类意识世界的突破,因为它可以理解语言文字,而且生成的语言文字整体水平也不比人差。Sora其实相当于自动生成了真实世界的一些视频,我觉得它可能是AI对现实世界理解的一个里程碑式的突破。第二,ChatGPT对语言的理解、生成能力已经达到了很高的水平,我们可以认为它掌握了语言能力,但是我觉得Sora还不一定掌握物理世界的能力,因为它更多是生成了一些跟这个物理世界非常相近、灵活、方便或者低成本的视频,但这并不能证明它对物理世界产生了理解,比如说很多的物理规律,牛顿定律之类。所以,我觉得Sora可能打开了一个口子,它将来能不能真的在理解物理世界方面类似于ChatGPT在语言文字领域的突破,还有一定的不确定性。

行业级大模型的商业化路径更短

第一财经:基础级和行业级的大模型商业化目前处于一个怎样的进程?哪类大模型的落地变现相对来说更容易一些?

吴悦:行业级大模型的商业化路径相对更短一些。以我们为例,比如说我们的AI员工软件产品,我们是比较清楚地知道我们这几款机器人,包括在线语音和视频端的对话机器人在服务和营销过程中可以做怎样的辅助。因为产品已经在客户端落地。在落地过程中,我们看到了大模型对工作效率的提升,也看到我们在做对话的过程中,有一些问题过去的小模型解决得并不是特别好,现在有了大模型,我们就可以把这个能力接入进来。

也包括一些新场景的应用,比如我们之前只做一些局部的自动化,因为这里面要处理非常复杂的对话,同时涉及到的知识数据也非常复杂,现在有了大模型,可以看到全过程的自动化,我们在落地过程中看到了大模型能够为我解决什么样的问题,我就很清晰地来定义大模型未来应该如何去做研发。在博文大模型里,我们提出了几点。第一,如何融合企业的专业知识与专业技能。第二,如何为企业实现降本增效。

我们目前没有做基础级大模型,对基础级大模型遇到的具体困难和挑战不是特别清楚,但我感受到国内做行业大模型的企业,首先会面临开源大模型的竞争,至少对很多应用层的企业和客户来说,它会基于免费的开源大模型去做开发。

此外,基础级大模型会带来一些超级应用的机会,一是“明牌”,已经被国外大厂验证过的模式,但这块国内的大厂也会激烈竞争;二是“暗牌”,可能有一些大家还没看到的机会,时间窗口会是一个比较大的挑战。基础级大模型的投入确实很大,多长时间能够验证出来是关键。

第一财经:现在市场上有一种观点,认为基础级大模型在C端的应用仅仅为了提升自身知名度,而后更好地向B端收费。

吴悦:我觉得有难度。第一点,从B端的需要来看,它需要的是比较成熟的软件产品和服务,这样才能够真正解决问题。要做产品化,要提供与产品相应配套的专业服务,单点的技术落地到企业端的链条比较长。第二,落地在企业里的软件产品,技术是非常重要的,但还有一个很重要的条件是对企业Know-How的理解。因为我们的软件产品是根据企业客户需要来做定义的,对于头部企业客户理解越深刻,和它的业务场景结合越紧密,才能够拿到更完备的或者说更深入的Know-How。Know-How的沉淀其实是需要时间周期的。比如大模型要落地到企业端,本身就面临企业知识如何融入的问题,也面临企业技能如何融入的问题。再一个,企业B端和C端的产品技术需求还是存在差异的。C端需求特点是管理与维护单一的量级大和复杂的AI系统。企业B端需求特点是每个企业一个专用AI系统,需要考虑管理与维护多个量级和复杂度都中等的AI系统。

一财经:大模型未来会成为一个超级APP吗?

吴悦:会。或者说,一定会有基于大模型技术的超级APP出现。过去搜索网站本质上也是一个技术主导的超级应用;包括像推荐算法,头条也算是一个基于文本推荐的超级APP。我觉得包括目前ChatGPT,其实某种程度上已经算一个超级APP了。从国内的角度来看,国外已经验证的模式,我觉得在国内肯定会出现,也不会特别远。

规模化可缓解大模型成本问题

第一财经:目前无论是2B还是2C的大模型,在成本方面仍然比较高,成本问题未来会有缓解的可能吗?

吴悦:我感觉未来还是会很贵,因为AI还在不断发展,还会有更多的数据进来,需要更多算力,整体成本会越来越贵。但从单个用户的角度来看,它也可能会变得能够承受,比如通过规模化来实现。同样一个大模型,不管是基础级大模型,还是行业级大模型,因为整体的产业发展,大模型所应用的场景或所获得的价值变得更大了,这样分担到每个用户或者每次调用上的成本是不断降低的。

第一财经:很多客户对大模型存在定制化需求,不同行业领域的客户需求不同,但追一科技交付的是一个标品,是否会因此遇到难以铺开的困境?从行业来看,如何来平衡这个问题?

吴悦:定制化的大模型,对于有一定体量的客户而言是可以接受的。因为我们是做企业软件,对企业软件的定制化是很难的。每个大客户都有自己个性化的一些需求,这些需求都会对应到软件可能需要涉及到的开发方面。过去中国企业软件就一直没有特别好的规模化的一个非常标准的卡点,特别多的定制化,特别是面向中大型企业客户。现在有了大模型之后,这个问题是得到缓解的。

举个例子,每个客户的需求是100%,以前可能100%都是要定制化开发代码来实现,现在可能70%已经变成了模型的定制化,这又是可以规模化的,剩下30%的需求需要定制化开发。现在大模型又可以写代码,可以通过低代码或者大模型生成代码的方式来做优化。所以从这个角度来看,有了大模型后,面向中大型企业客户的企业软件会有一个比较大的变化或机会。

第一财经:为什么说大模型可以减少定制化需求?

吴悦:这里面还有一个深层的逻辑,企业软件过去是以人为核心的,人是个性化的,所以人会提各种各样的需求。现在的软件是以AI为核心的,减少了人的个性化输入,定制化需求的来源就会减少很多。