声网刘斌:RTE 演进助力 AI Agent 应用落地
12月11日,声网 COO 刘斌出席由量子位举办的 MEET2025智能未来大会,并带来了主题演讲,他分享了在实时多模态的趋势下,RTE 的演进如何助力 AI Agent 应用落地,并认为 RTE 将成为生成式 AI 时代 AI 基础设施的关键部分。
在 GenAI 时代,RTE 与 AI Agent 有什么关系?刘斌首先分享了两个事件,其一,今年10月初,声网的兄弟公司 Agora 作为语音 API 合作者出现在了 OpenAI 发布的 Realtime API 公开测试版中。其二,10月底的 RTE2024实时互联网大会中,声网也宣布与 MiniMax 正在打磨国内首个 Realtime API。通过这两个事件反映出当下大模型的交互正在走向实时多模态。
实时音视频成为对话式 AI Agent 的关键一环
刘斌认为,在多模态模型推出后,对话的方式与原来纯文本交互不同,会从异步变为实时双工交互,实现了很大的飞跃。但在最终应用落地的过程中,依然存在很多客户痛点,比如在实际应用场景中,用户的设备通常无法像发布会演示的那样一直处于固定网络与物理环境下,大部分Conversational AI Agent 的使用场景是随机的,也就是可能会发在 Anytime Anywhere,比如在开车送完孩子上学之后,这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。一般来说,延迟在 1.7 秒内会让人感觉自然,2 秒多、 3 秒则会让人觉得卡顿、反应慢。
其次在模型交互中能否支持智能打断以及主动交互也是用户非常关注的一个关键点。要做到这些,除了模型能力,在应用落地方面,需要端到端的能力支持,不仅需要成熟的 VAD 技术来实现自由打断,更需要一整套的音频高级算法来支撑实现优雅打断,从而实现用户体验最好的人模对话,当然也需要应对不同的物理环境、复杂的网络环境、PC、手机以及各类 IoT 终端等。
声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过将 RTE 与 GenAI 结合,推出了声网 Conversational AI Agents ,旨在帮助开发者与企业解决 Agent 应用落地的一系列痛点,快速构建适配自己业务场景的 AI 实时语音对话服务。
语音对话延迟低至500ms:针对大模型语音交互中普遍存在响应时间长的痛点,声网自研的 SD-RTN? 实时传输网络可以实现全球范围的低延时音视频传输,目前可做到语音对话延迟低至 500ms,并进一步通过更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性,达到近似人与人之间日常对话停顿与间隔。
支持智能打断:开发者在构建 AI 应用场景时,会将能否支持随时打断也成为衡量大模型智能化的重要指标。声网自研的 AI VAD 技术,适应人类对话的停顿、语气和对话节奏,支持 AI 对话过程中随时打断。同时,声网的解决方案还深度优化 AI 角色,最大程度保留情绪情感等关键信息,超拟人真实音色丰富通话体验。
支持30000+移动终端:在大模型的应用落地中,不同的终端设备、操作系统等也会带来不一样的体验,声网的音视频 SDK 经过不断的迭代升级,可以支持 30 多个平台框架、30000 多终端机型及各种操作系统,包括各类 IoT 设备终端;
领先的音频处理:在人与人音视频通话的过程中,环境噪音是经常遭遇的一大痛点,影响沟通效率。在 GenAI 场景中,环境噪音同样无法避免。声网具备业界领先的音频3A能力,提供 AI 回声消除、AI 智能降噪、背景人声过滤、音乐检测/过滤、主讲人声纹锁定等自研音频技术,即使在商场、地铁站等嘈杂环境中,也能保证 AI 对话过程不受影响。
灵活可扩展的 AI Agent 架构:开发者在构建 AI 应用时,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。
RTE 成为 GenAI 时代 AI Infra 的关键部分
在与大模型厂商合作的过程中,声网也发现想要提升大模型落地的实用性,现有 RTE 技术栈和基础设施仍有大量改进空间。刘斌表示,只有通过不断的演进,大模型才有机会在各种场景、形态下大规模参与到和人的语音对话中,大模型也将基于云、设备端、边缘的多维度参与与协作。基于这些能力的改进和普及,未来 RTE 将成为 GenAI 时代 AI 基础设施(AI Infra)的关键部分。
同时,Gen AI 也在驱动 RTE 实时互动的技术变革与体验革新,在人与人的实时互动中,声网一直致力于实现从 QoS 服务质量到 QoE 体验质量的技术变革,在体验层面也从“听得到“变为“听得清”。而在人与 AI 的实时互动中,为了进一步增强体验,RTE 的技术变革也演变为 AI QoE 甚至多模态 AI QoE,这背后就包含了声网自研的 AI VAD 能力、降噪能力及网络优化等一系列技术能力,以使得人与 AI 的对话更符合实际情况,大模型也从理解内容,变成理解对话人的心理、情绪,最终理解对话时的人类意图,最后实现从“听得懂“到“听「得心」”的体验革新。
在 GenAI 时代,声网的产品体系也在不断加强,刘斌也进一步介绍了声网的 AI RTE 产品矩阵,包括 Linux Sever SDK、AI VAD 能力、AI Agent Service 等都在做补充与优化。
最后刘斌还介绍了声网 RTE + AI 能力全景图,包括 RTE+AI 生态能力、声网 AI Agent、Conversational AI Agents 解决方案等,全面的展现了声网对 RTE+AI 的整体思考,致力于成为 GenAI 时代 AI 基础设施的关键部分。

本文链接:http://www.yangtunzhen.com/game/202412/145722.html
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
-
平加一笔变成什么字 平加一笔能变成什么字
1、平字加一笔可以变成乎字。2、在汉字平的基础上增加一笔,我们可以得到新的字乎。这一变化发生在平字的上方,通过添加一个横线,使得原有 [详细] -
恶魔游戏2024 **2024年未过期兑换码大全
一、咸鱼之王兑换码4月*****2024年未过期兑换码大全咸鱼之王这款游戏也是很多玩家们所喜欢的手游,咸鱼之王的**除了会经常为玩家们带来全新 [详细] -
2024飞机游戏下载 微软飞行模拟2024推荐配置
一、网易云游戏兑换码2024** 网易云游戏兑换码大全2024无限制网易云游戏是针对云游戏用户打造的一个游戏平台,有着大量优质游戏资源,让用 [详细] -
2024年游戏礼包 2024年蛋仔派对皮肤兑换码
一、蛋仔派对2024彩虹币兑换码2024年《蛋仔派对》彩虹币兑换码为eggy0000,兑换流程如下:工具:iPhone11、ios15 3、蛋仔派对1 0 101版本。 [详细] -
2024游戏cp 漫展2024时间表和地点
一、重庆漫展2024年时间表重庆·第3届中二病原神x星穹only时间:2024 01 25 11:00-01 25 17:00场馆:美联广场(汇流路1号金渝苏宁易购广场 [详细] -
2002拳皇风云再起 电脑版本2002风云再起拳皇风火神必杀怎么发。
1、基本操作 H-轻拳 J-轻腿 K-重拳 L-重腿 HJ-滚动闪避 JK-POWERMHX发动 KL-超重击普通投回到9↑的**力 KL费点取消防御有**力。能 [详细] -
战神2024游戏本 笔记本cpu排行榜天梯图2024
一、笔记本cpu排行榜天梯图2024 2024年笔记本电脑CPU天梯图,带你探索*强*能与*价比在选购笔记本电脑时,CPU*能无疑是关键因素。以下是一 [详细] -
英雄联盟领皮肤 英雄联盟怎么领皮肤
1、登录**网站:htt: lol qq**** 点击【新手礼包】登录自己的账号并选择大区2、领取任务奖励,就可以得到一款免费皮肤3、点击确定就能在, [详细] -
饥饿的小鱼 喂天鹅的作文
1、寒假里,我和同学一起去湿地公园喂黑天鹅。2、来到天鹅湖,我拿来大白菜喂黑天鹅,一只黑天鹅被这美味的食物给吸引过来了,这只天鹅尾巴 [详细] -
手游推荐大型单机游戏 安卓系统手机上好玩的大型单机游戏有哪些
又到了推荐时间,推荐熊再次来给大家推荐游戏了。这次推荐的游戏部分可能之前推荐过,但是因为游戏太过经典想不推荐都不行。那么,废话不多 [详细]