重磅升级！！追一科技大模型ASR，让对话更流畅

2025-06-26 追一科技

在人工智能高速发展的今天，语音交互已成为企业降本增效的核心抓手，其中ASR（Automatic Speech Recognition）语音识别，是一种将语音转化为文字的技术，被广泛应用于智能语音交互和多媒体内容理解领域，例如语音助手、语音输入、视频字幕等场景。

近日，追一科技基于多年技术沉淀，正式发布大模型ASR（语音识别）产品，以“对话式语音识别”为核心，深度融合大模型能力，为企业客户提供更精准、更智能的语音交互解决方案。相比较于标准版本的ASR，本次迭代在上下文理解、方言识别、信息捕捉和对话体验上均有大幅升级。

技术突破：大模型+场景化，定义语音识别新标杆

传统ASR常因口音混杂、环境噪声干扰、专业术语复杂等问题陷入瓶颈，尤其在金融、政务等高严谨性场景中，识别偏差可能导致严重后果。追一科技全新推出的大模型ASR，以“大模型驱动+场景化深耕”为核心，通过三大技术维度重构行业标准，为企业打造更懂业务、更懂场景的语音交互引擎。

1.多维感知：让AI“听懂”对话背后的意图

传统ASR仅聚焦单句识别，而真实业务场景中，用户表达往往依赖上下文关联。追一科技采用Dense架构大模型，并引入RoPE旋转位置编码技术，增强模型对上下文信息的建模能力，进一步提升了语音识别的准确率，以此提高模型跨语句捕获对话信息的能力赋予系统“语义连贯性分析”能力：

● 智能对话理解与信息捕捉：在连续对话中，系统可自动关联前后文信息，轻松识别剪短零散的口语短句，捕捉其中的核心语义，解决代词指代、省略句等复杂表达问题。例如，用户询问“转账到这个账户”，系统能结合历史对话锁定“账户”具体指向。

● 多维度适应性：针对普通话与方言混杂场景，模型通过大规模方言数据预训练，可覆盖粤语、川渝等20多种主流方言，且识别率突破90%；另外，通过声纹识别与情感分析算法，模型具备精准识别主说话人的能力，通过声纹特征迅速锁定当前说话人的身份，同时深入分析语音中的情绪波动和语速变化，精准感知说话人的情绪状态和心理意图，从而提供更具人性化的情感关怀服务。某面向全国用户设立服务的家装企业，通过全国方言+意图/情绪识别的支持，在其营销场景中对话中识别准确率提升15%左右。

追一大模型ASR支持的方言一览表

● 智能精准打断：追一大模型ASR能够精准识别用户打断语音输入的意图，并迅速做出恰当的响应，当用户插话、纠正或提出新的观点时，系统能够立即停止当前输出，无缝切换到用户的语音输入，并基于新的输入信息继续对话，让对话更加灵活、自然，符合人类日常交流的习惯。

2.行业场景深度适配：从“通用识别”到“专业赋能”

追一科技摒弃“一刀切”方案，基于行业知识图谱与垂直领域数据训练，为各行业提供单独识别模型，打造场景化专用引擎：

● 金融场景：针对金融行业高敏数据，追一基于已有的通用声学模型，提升在特定场景的识别准确率。使短句识别准确率达91%，金融实体（如产品名称、法规术语）识别率超90%。某证券公司在接入后，专业术语识别准确率从78%跃升至92%，业务办理效率提升20%。

● 政务与公共服务：在供水、电力等民生场景中，系统内置地址标准化库与地方政策术语库，精准解析用户报修地址与诉求。例如，某市自来水公司升级后，地址识别准确率提升至95%，工单处理时效缩短50%。

● 可扩展性：支持热词调优，企业自定义热词库与业务规则，快速适配汽车、能源等新兴领域需求，如汽车型号、专业名词等高难度词汇识别。

3.多种部署方式：速度与安全的双重保障

为应对企业多样化需求，追一ASR支持CPU和GPU多种部署方式，且支持国产信创化，保证稳定性和安全性：

● 全双工极速交互引擎：采用双向流（WS和gRPC）支持，首包延时低至500ms，较平均水准快200-300ms，适用于智能外呼、在线客服等强即时性场景，支持大规模集群，并发无上限—万级用户同时在线无卡顿。

● 国产信创化：全面兼容主流国产操作系统、芯片架构和应用框架，不仅确保了在国产信息化环境中的无缝集成和应用，还为保障国家安全、推动国产技术产业创新贡献力量。对于政府、国企等对信息安全和自主可控要求较高的机关单位，以及广大国内企业用户，提供了可靠、稳定的语音技术支持，助力数字化转型进程在国产技术生态中稳步推进。

目前，大模型ASR的版本已在追一智能服务机器人中、智能外呼机器人等多款AI员工中应用，通过技术创新与场景化深耕，为企业打开智能化服务的新维度——让机器真正“听懂人话”，让交互回归“自然对话”，助力更多企业实现服务智能化、运营高效化。