重磅升级!!追一科技大模型ASR,让对话更流畅

2025-06-26   追一科技

在人工智能高速发展的今天,语音交互已成为企业降本增效的核心抓手,其中ASR(Automatic Speech Recognition)语音识别,是一种将语音转化为文字的技术,被广泛应用于智能语音交互和多媒体内容理解领域,例如语音助手、语音输入、视频字幕等场景。

近日,追一科技基于多年技术沉淀,正式发布大模型ASR(语音识别)产品,以“对话式语音识别”为核心,深度融合大模型能力,为企业客户提供更精准、更智能的语音交互解决方案。相比较于标准版本的ASR,本次迭代在上下文理解、方言识别、信息捕捉和对话体验上均有大幅升级。

技术突破:大模型+场景化,定义语音识别新标杆

传统ASR常因口音混杂、环境噪声干扰、专业术语复杂等问题陷入瓶颈,尤其在金融、政务等高严谨性场景中,识别偏差可能导致严重后果。追一科技全新推出的大模型ASR,以“大模型驱动+场景化深耕”为核心,通过三大技术维度重构行业标准,为企业打造更懂业务、更懂场景的语音交互引擎。

1.多维感知:让AI“听懂”对话背后的意图

传统ASR仅聚焦单句识别,而真实业务场景中,用户表达往往依赖上下文关联。追一科技采用Dense架构大模型,并引入RoPE旋转位置编码技术,增强模型对上下文信息的建模能力,进一步提升了语音识别的准确率,以此提高模型跨语句捕获对话信息的能力赋予系统“语义连贯性分析”能力:

● 智能对话理解与信息捕捉:在连续对话中,系统可自动关联前后文信息,轻松识别剪短零散的口语短句,捕捉其中的核心语义,解决代词指代、省略句等复杂表达问题。例如,用户询问“转账到这个账户”,系统能结合历史对话锁定“账户”具体指向。

● 多维度适应性:针对普通话与方言混杂场景,模型通过大规模方言数据预训练,可覆盖粤语、川渝等20多种主流方言,且识别率突破90%;另外,通过声纹识别与情感分析算法,模型具备精准识别主说话人的能力,通过声纹特征迅速锁定当前说话人的身份,同时深入分析语音中的情绪波动和语速变化,精准感知说话人的情绪状态和心理意图,从而提供更具人性化的情感关怀服务。某面向全国用户设立服务的家装企业,通过全国方言+意图/情绪识别的支持,在其营销场景中对话中识别准确率提升15%左右。

追一大模型ASR支持的方言一览表

● 智能精准打断:追一大模型ASR能够精准识别用户打断语音输入的意图,并迅速做出恰当的响应,当用户插话、纠正或提出新的观点时,系统能够立即停止当前输出,无缝切换到用户的语音输入,并基于新的输入信息继续对话,让对话更加灵活、自然,符合人类日常交流的习惯。

2.行业场景深度适配:从“通用识别”到“专业赋能”

追一科技摒弃“一刀切”方案,基于行业知识图谱与垂直领域数据训练,为各行业提供单独识别模型,打造场景化专用引擎:

● 金融场景:针对金融行业高敏数据,追一基于已有的通用声学模型,提升在特定场景的识别准确率。使短句识别准确率达91%,金融实体(如产品名称、法规术语)识别率超90%。某证券公司在接入后,专业术语识别准确率从78%跃升至92%,业务办理效率提升20%。

● 政务与公共服务:在供水、电力等民生场景中,系统内置地址标准化库与地方政策术语库,精准解析用户报修地址与诉求。例如,某市自来水公司升级后,地址识别准确率提升至95%,工单处理时效缩短50%。

● 可扩展性:支持热词调优,企业自定义热词库与业务规则,快速适配汽车、能源等新兴领域需求,如汽车型号、专业名词等高难度词汇识别。

3.多种部署方式:速度与安全的双重保障

为应对企业多样化需求,追一ASR支持CPU和GPU多种部署方式,且支持国产信创化,保证稳定性和安全性:

● 全双工极速交互引擎:采用双向流(WS和gRPC)支持,首包延时低至500ms,较平均水准快200-300ms,适用于智能外呼、在线客服等强即时性场景,支持大规模集群,并发无上限—万级用户同时在线无卡顿。

● 国产信创化:全面兼容主流国产操作系统、芯片架构和应用框架,不仅确保了在国产信息化环境中的无缝集成和应用,还为保障国家安全、推动国产技术产业创新贡献力量。对于政府、国企等对信息安全和自主可控要求较高的机关单位,以及广大国内企业用户,提供了可靠、稳定的语音技术支持,助力数字化转型进程在国产技术生态中稳步推进。

目前,大模型ASR的版本已在追一智能服务机器人中、智能外呼机器人等多款AI员工中应用,通过技术创新与场景化深耕,为企业打开智能化服务的新维度——让机器真正“听懂人话”,让交互回归“自然对话”,助力更多企业实现服务智能化、运营高效化。