博文一周年,争当奋楫者

2025-02-21   追一科技

2023年11月,对于成立了7年的追一科技来说,博文大模型的发布,是一件足以让追一打破七年之痒的里程碑事件。

得益2023年11月,对于成立了7年的追一科技来说,博文大模型的发布,是一件足以让追一打破七年之痒的里程碑事件。

得益于追一自研的AI Agent框架,博文在充分发挥思维链能力的同时,还能保证输出结果的可控,让博文在政务和金融领域的落地更加可靠。但在真正落地的过程中,效果和成本这对矛盾体却如影随形,如何在有限的资源条件下寻求最优解是所有大模型厂家难以回避的难题。

彼时追一便提出”增程式“技术方案,旨在通过一个类似“增程器”的组件,根据用户或者实际处理任务的不同,来做动态配置和组合,让大模型出现在最应该出现的地方,提升模型效果的同时,实现性价比最大化。

历经一年的探索,博文曾经描绘的绚丽蓝图,究竟落地几何?


01

风起燎原

OpenAI的GPT-5仍然遥遥无期,文生视频的Sora,正式产品至今也还未发布,大模型技术的演进曲线正在从陡峭趋于平缓,行业对于技术浪漫的追求也逐渐过渡为落地求生,百花齐放的大模型们开始了“拿着锤子找钉子”的落地之路。幸运的是,对于追一来说,“钉子”很早就在那里了。

2024年3月,阿杰接到1个需求。需求来自华中地区某省会城市的12345平台。

12345热线每天面对数以万计的群众咨询、投诉、举报等诉求,需投入大量的工作人员来做工单登记和填写等工作,效率低下,导致无法及时解决群众诉求。所以该市12345平台提出,希望能通过大模型的能力辅助填单,从而提高为群众办事的效率,解决百姓诉求。

“智能填单这个场景很特殊,完完全全的是大模型出来之后才开发出来的场景,在这之前,无论是基于小模型的信息抽取和分类方案,还是其它的技术手段,工单填写工作都无法真正的达到智能,甚至通用大模型也无法高效准确的完成填单工作。追一博文大模型经过填单规则的学习、政务行业知识注入,能够精准的从对话中提取出实体信息、判定对话意图、识别情绪、生成市民诉求和沟通摘要等,使得工单填写任务变得轻而易举。”阿杰说到。

然而达成合作往往只是大模型项目的开始,距离大模型真正落地,往往还需要一段时间。在项目开始测试初期,基础大模型获取的工单填单结果对比工作人员真实填写结果采用率不到30%,参考率不到70%,且大模型的处理速度也达不到客户提出3秒内返回结果的要求。

大模型并非传统的NLP技术,无法依靠业务标注数据进行自主优化,那么大模型的调用方在业务应用中,该如何进行使用效果优化成为了难题。

追一研发团队与12345项目组就效果调优的事情紧锣密鼓的开展了工作。

最初,研发团队为确保大模型输出的结果满足业务要求,对大模型施加了诸多限制条件,但在测试中发现工单总结错误和幻觉问题仍然会出现。在多轮磋商和试验后,追一研发团队在大模型的指令遵循和对齐上做了大量工作,通过高质量数据的领域指令微调和强化学习,解决大模型在专有场景下的理解错误和幻觉问题。

此外,追一运用政务行业多年积累的know-how,完成知识注入,并对Prompt进行了针对性的优化和微调,以确保博文拥有通用的“领域知识”。与此同时,追一还通过对常见的智能填单场景进行抽象,让运营人员可以便捷地输入企业专属知识。通过将运营人员输入的信息与Prompt进行融合。目前大模型的生成的工单数据采用率达到60%,参考率接近100%,看到效果指标的不断提升,客户工作效率的不断提高,也坚定了追一把大模型应用到政务和金融行业解决专业场景问题的信心。

阿杰提到,目前除该市外,华南和华北等地区多个城市的12345和政企合作也在依次展开,在和客户的沟通中,我们发现,得益于政策的鼓励,政务系统对于大模型的应用和落地都很积极,这对于我们这种垂类大模型公司是一件很激动人心的事情。


02

不疾不徐,积沙成塔

成功从来不是一蹴而就,而是日积月累的积沙成塔,项目落地的背后,是研发团队精益求精的技术追求。

博文大模型研发总监Bruce表示,“这一年,在研发层面,我们主要是做了两个层面的事情:大模型领域能力的增强以及大模型应用技术(包含系统和架构)方面的创新。”

博文领域能力的增强包含几个方面:一是大模型领域指令遵循能力和安全可控的基础能力提升;二是结合场景需求,进行面向应用层核心能力的强化;再者就是确保效果保持前提下,降低大模型的规模参数,达到降低应用成本的目标。

目前,博文的算法模型在通用场景下的评估,与各类开源或者闭源模型能力保持齐平,但在领域专家能力上,指标大幅领先各类通用的、规模更大的大模型。

到了具体应用层面,在大量的测试和调优之后,就智能客服场景来说,博文和目前市面主流大模型进行对比,各项指标都处于领先地位。尤其是在拒识和文档转FAQ这两项上大幅领先。

另外,在最新的版本测试中,博文大模型用友商10分之一的规模参数,即可达到同等乃至更优的效果。 


至于系统架构层面的创新,在这之前,我们先需要搞清楚人机对话系统的本质:由机器人替代人来担任企业知识库和用户之间的沟通桥梁。

在非大模型的人工智能时代,由于技术能力有限,基本只能做信息收取和分类,所以机器人对企业知识有较强的结构化需求,多为依赖强运营的 FAQ 和任务流程两类。有了大模型后,机器人增强了对结构化和非结构化知识的串联能力,同时也在研发过程中增强了工具调用能力,如 agent 插件调用等,这些都是系统层面的应用创新。其应用的结果,让追一人机交互、人机协同的机器人类产品的知识运营效率更高,效果更好,交互体验更流畅,但同时又安全可控。

“其实,除了以上2点,我们还在尝试一些更新的方向,比如用大模型去改变现阶段AI外呼过于依赖人力运营的模式。这是一种接近于端到端的AI外呼形式。我们希望的是大模型不仅仅只用在对现有技术或应用的单点增强上,就像新能源汽车一样,我们希望把内燃机给革新掉。”Bruce如是说。


03

百舸争流,奋楫者先

在谈及未来之时,Bruce和阿杰都不约而同的表示,虽然路远且阻,但未来终将是坦途。对于追一所专注的行业,沙利文和头豹研究院的相关数据显示,现阶段政务和金融对于大模型下的智能服务需求确实是最迫切和强烈的。

数据来源:沙利文和头豹研究院

而另一组数据也表明大模型TOG市场的蛋糕,确实颇为庞大:2024年上半年,已经产生了498次大模型相关招标项目,金额达到13.4亿元,超过去年的两倍。

“过去一年时间,对追一来说,其实是非常兴奋的,但同时压力也很大,你必须不断的往前跑,做技术升级,才能取得一丁点儿的领先。“Bruce说。