声网钟声：分布式端边云结合将成为实时 AI 基础设施的未来

全世界各行各业联合起来，internet一定要实现！

声网钟声：分布式端边云结合将成为实时 AI 基础设施的未来｜RTE2024演讲实录

2024-11-13 eNet&Ciweek

在 RTE2024 第十届实时互联网大会主论坛上，声网首席科学家、CTO 钟声带来主题演讲。他分享了关于 AI 基础设施进化、AI 应用前景以及分布式端边云结合的 AI 系统将如何成为现代基础设施的基本形态等前沿技术上的实践。

钟声认为，未来，AI 分身和 AI 助手可以让我们每个人的时间稀缺性得到极大的缓解，生命体验也会得到提升。技术的进步，使得内容的生成、表达、分发和消费的效率也与时俱进，利用端边能力结合云计算一起构建更合理的实时 AI 系统将成为新的竞争热点。

一个分布式端边云结合的 AI 系统将把计算和传输在各节点做合理地配置，系统会智能地以自适应的方式把任务编排到端、边、云或者其组合上执行，可以非常有效地降低成本，同时在许多场景下也可以提供更低延时（低于1秒级的响应速度）、更高网络抖动容忍度、优秀的抗噪声能力，并且完整的用户数据只会保留在端上，是隐私保护的更好的机制。

同时，钟声还在大会现场演示了一个由STT、LLM、TTS 、RTC四个模块组成的端边结合实时对话AI智能体，这也是全球首次有厂商在比日常实际场景更具挑战的环境下展示实时AI 对话能力。现场观众规模超过千人，面临复杂的噪声、回声、麦克风延迟等困难，但智能体与钟声的互动仍然表现出了优秀的对话能力，在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话，对话模型的极快响应速度、及时打断与被打断的自然程度、对抗噪声能力、遵循语音指令做等待能力都非常突出。

以下内容整理自，钟声在 RTE2024第十届实时互联网大会的演讲：

过去三年，我和团队一直在探索如何让通信更智能化。在去年的 RTE 大会上，我分享了一个观点，具备端边实时智能的高清高质量实时互动能力将成为新趋势和竞争焦点。今天看来，依然如此。

信息传播、消费与实时分布式智能

其实，人类进步历史就是信息产生和传播效率不断提升的历史。十几万年前，人们靠口口相传的方式把部落的经典故事做传播，触达范围非常有限，口头内容表达也存在瓶颈。几千年前，信息传播方式进化成了把文字刻在石头、竹简、布匹和纸张上，但能够触达的人依然很少。

直到大约五百年前，印刷技术极大地改变了人类历史走向，信息、知识、智慧乃至真理的传播效率有了极大提升，书籍阅读成了主要的消费方式，更多人也由此受益，并引发了一系列科学、宗教、工业革命和社会形态的变化。资产阶级、社会主义随之产生，公司这一形式也在那时出现并沿用至今。不过，由于书籍需要印刷、运输，且难以预知哪些书畅销以及哪里销量大，内容分发又成了瓶颈。

互联网诞生后，内容分发效率变得极高，专业人士生产的内容（PGC）被数字化，消费方式变成了通过搜索获取相关内容，Google 等公司应运而生。随着需求的增多，内容供给侧的生成又出现了瓶颈，由普通用户生产的内容（UGC）随后日益增多，如何筛选令人感兴趣的内容又成了用户消费内容时的瓶颈。于是基于算法推荐技术，成就了Facebook、TikTok/抖音等新时代的典型社交媒体和平台。进入算法推荐时代后，由于自媒体内容鱼龙混杂，对精品内容的诉求成了各大平台需要努力改善的新瓶颈。MCN 机构打造的网红、名师等有影响力的名人，也逐渐成为各大平台重金挽留的对象。

近来，生成式 AI 的快速发展，有机会打破这一瓶颈，我们所听、所看的东西也就有机会做到万“视”如意。Vision Pro 的出现让消费有了更沉浸式的体验，如聚一堂。大量高清、高帧率的数据在网络上传输促使实时传输也需要与时俱进。当这些瓶颈都解决后，大V、名师、名人就可以有分身，粉丝就能够实现与他们一一互动，进而缓解消费者对精品内容的大量诉求。

未来，AI 分身和 AI 助手可以让我们每个人的时间稀缺性得到极大的缓解，生命体验也会得到提升。技术的进步，使得内容的生成、表达、分发和消费的效率也与时俱进，利用端边能力结合云计算一起构建更合理的实时 AI 系统将成为新的竞争热点。

大模型痛点：成本、隐私保护、用户体验

在已经到来的 AI 时代，现代化基础设施应该是什么样？大量用户设备往往会先接入边缘节点、并在需要的时候再接入云端，数据将在端设备、边缘节点和云之间往返传递。AI 时代的公有云数据中心会包含以大量异构算力组成的超级计算集群（SuperScaler）。但是，停留在仅依赖超级计算集群的系统是远远不够的，万亿参数、多模态引入所造成的高昂计算成本、缺乏机制约束的数据隐私保护、几秒钟的延时都将阻碍大模型的普惠，极大地限制其在很多场景下的应用。具体来说：

其一，成本高昂。目前大模型的 Scaling Law 还在继续，万亿级参数模型部署在公有云数据中心的超级集群上，以及多模态模型引入将造成成本进一步提升。从 OpenAI 的 GPT-4o 最近公布的价格来看，输入端和输出端分别是文字版本的10倍、20倍。假设一半时间是人在讲话、另一半时间是 AI 在回答，每小时成本将会达到9美金，比很多国家的人工费都贵。

其二，缺乏数据隐私保护。当所有的数据传到云端后，涉及个人伦理观、道德观、健康等敏感信息，虽然有数据合规相应法律法规限制，但在技术机制上是缺乏约束的。

其三，用户体验会受到影响。在大模型的运作模式下，很多情况下需要连接到公有云数据中心，这往往会导致更多的延时，同时也会使服务在更大概率上受到网络状况抖动的影响，仅仅依赖大型公有云的实时智能计算方案缺乏对实际使用场景的充分考量。

我认为，分布式端边云结合的 AI 系统将有效解决这些痛点，在这个系统中，我们更强调在设备、边缘上的能力，结合云端大模型能力一起构建用户场景。

端边云结合AI系统如何解决大模型痛点？

当一个用户在端上发起应用时，先对其做任务分析，得出任务难度的估计，再实时检测环境信息，比如实时感知设备状态（包括 CPU 和 GPU占比和功耗情况）、实时感知网络的延时、丢包以及拥堵情况等信息（可以通过实时通信系统进行侦测）、实时感知环境噪声。

任务难度和和环境信息，被智能地用来帮助编排决定该任务在端上、边缘端还是云端执行，或者由二者、三者结合起来共同完成。

此外，所有个人数据存储于设备上，经过符号化（Tokenizing）和嵌入式（Embedding）处理，以嵌入式向量数据库或知识图谱的形式存在于端设备本地。

当实际应用场景发生时，个人信息能够通过诸如检索增强生成技术（RAG）从过往历史中提取出相关片段，与当前应用的相关信息一同输入给相应的AI模型。所以，即使数据送到云端，也仅仅是片段而已。

随着技术的不断进步，会有越来越多的任务在终端设备和边缘端得以完成。这种方式能够从技术机制层面为隐私数据提供更好的保护。

分布式端边云结合的 AI 系统将把计算和传输在各节点做合理地配置，系统会智能地以自适应的方式把任务编排到端、边、云或者其组合上执行，可以非常有效地降低了成本，同时在许多场景下提供了更低延时（低于1秒级的响应速度）、更高网络抖动容忍度、优秀的抗噪声能力，并且完整的用户数据只会保留在端上，是隐私保护的更好的机制。

现场演示Demo中左边两个视频是声网部署于边缘的自研 ASR 方案，两个视频的区别在于端上自研降噪能力的开关。右边两个是美国著名云厂商提供的 ASR 语音识别方案，也同样分为端上降噪能力的开和关。

从对比视频中可以看到两点：第一，右边的视频比左边的延迟多了3-4秒左右；第二，由于背景噪声会造成模型理解能力的下降，所以在关闭降噪能力的情况下，两种方案都有错误，开了降噪以后识别率均有所提升。

之所以说回声消除最适合在端上做，原因是回声消除采用的是原始信号作为参考信号，如果传到云端就会经过编解码，信号会因此而变形。网络抖动也可能造成参考信号不完整。当参考信号受损，回声就很可能会泄露。因而在端设备上做回声消除更合适。另外，降噪以后的信号通常更加容易压缩和传输。

此外，端边云结合的 AI 系统也可以在视频中带来好的体验和成本降低。刚才有提到，Vision Pro提供了沉浸式的体验，未来要想体验好，就需要极高的分辨率和帧率，如果按照每秒90帧、4K 、双目视频来直接生成视频会带来大量计算，进一步加大成本压力。我们的解决方案就是先让服务器端生成低分辨率、低帧率的视频，传输到手机端和边上后再利用超分、插帧等能力恢复高清体验。

未来 AI 基础设施要素

未来，从设备到边缘服务器再到云端，每个节点要做的不仅是传输，还需要加上计算能力，促使任何数据都有可能在多个数据表达形式之间转换。未来的 AI 基础架构需要具备这样的能力。

相应的传输协议也应有所更新，以便支持更多形态的数据格式，比如Token, embedding向量等。在新的架构下，端到端的调度和编排能力，动态地、自适应地对任务需求进行调整都是必须的。并且可以综合考虑隐私保护以及成本，再选择适合应用场景的最佳配置。

实时通信系统以现有的带宽估计（BWE）、拥塞控制算法（CC）、前向纠错（FEC）、自动重传请求（ARQ）等能力，为在具有挑战的网络条件下实现可靠的实时传输提供质量保障。

另外，AI 大模型同样需要考量抗丢包能力。数据能够完整地传输至大模型始终只是一种理想假设，实际场景并非如此，必然会出现丢包、拥堵以及延时等情况。这些都是新的传输层面基础设施必须加以考虑的问题。

AI 基础设施还有一些其它要素：

允许多云策略。无论出于应用场景的特殊需求还是价格因素考虑，应用可能需要通过多云策略以调用多云服务，来提高灵活性或者更好的价格选择。当把若干模型分布到多个云上时，不仅会增加延时，也会让服务受到网络变化的影响。所以，端、边缘和云设备之间的快速切换是很重要的能力。实时的对网络、设备的感知，以及出问题时的快速响应都是保证服务质量所必需的。深度异构计算模型的优化，尤其是在终端和边缘端的能力优化，将极大地拓展体验并提升合理的可支付成本的能力。

在模型深度优化和加速方面。传统的模型深度优化是通过剪枝、量化、蒸馏、稀疏等形式，但新的思路和算法仍然有层出不穷的探索。以 RWKV 模型举例，RWKV 其实是 Transformer 模型的变种，它把计算量从注意力机制的二维矩阵运算变成了一维线性运算，让复杂度有效降低。

生成式视频模型也有 Consistency Model （一致性模型），它可以把扩散模型传统需要的若干步变成一步，有效降低计算的时间和计算量。

GPT-o1的推出也对推理计算有新的要求，它是一个慢思维的过程，允许多步推理，而且会在每一步推理过程中评估中间结果是否合适，从而引导最终的结果走向更好的方向。这和强化学习的思路很一致，我们甚至可以把多步思维的推理过程数据收集起来重新训练模型，这样模型一步推理的能力还会有提升。

理论上，当推理的步骤或嵌入向量的维数增加，都对模型能力有极大的帮助。相反，如果缺乏足够的推理步数，缺乏足够的嵌入式向量数据的长度，能够解决的问题会有局限。当然，任何给定的模型参数量以及表达精度理论上会存在解决问题能力的上限，但因为缺乏理想的数据和足够好的训练方法，达到这一上限其实不容易，往往只能达到部分能力。

这时，通过思维链（CoT）或者允许多步推理的方式，每一步都需要有一个引导的奖励函数评判怎么走，最终结果会更好。或者每隔一段时间搜集更好的数据，微调模型也可以逐渐让模型能力提升，逼近理论上限。

任务复杂度和意图分析是在端上发挥能力的一个重要模块，可以通过训练一个模型去给任务复杂度打分的方式来实现。复杂度分析用已知的数据，知道真实的、最好的答案是什么，然后用已知的数据把模型训练出来，假设它具备一定的泛化能力，就可以用在未知的任务中进行判断。

端边云结合 AI 系统将最大限度满足用户需求

一个好的 AI Agent 应该具备推理、规划、做决策、用工具、采取行动等能力，通常会有若干模型选择来完成任务，在通信上也有相应的网络连接。声网兄弟公司 Agora 和 RTE 开发者社区一起做了 TEN Framework 开源框架，它采用的是实时通信传输网络，并允许做一些模块化、积木式的选择，如果用它和人进行类比，大家可以把它的五官，比如嘴巴、耳朵、眼睛、形象、大脑和记忆都置换成相应的应用场景所需要的形式和能力。TEN Framework 提供了图形编辑器 Graphic Designer，无需写代码，通过拖、拉、拽的方式就可以完成智能体的构建，输出相应的 Pipeline。

我们首先做一个边云结合AI Agengt系统的演示。演示视频中就是通过 TEN Framework 把 RTC、STT（语音转文字）、LLM（大语言模型）、TTS（文字转语音）、Video Gen（视频生成）五个模块串到了一起。其中中间三个都是在公有云端，而且是不同的供应商的，所以往云端来回跑了三个来回。另外两个（RTC 和 Video Gen）是部署在北美的边缘机房，实验是在上海做的，延时大致2秒左右，通过将实时传输和视频生成放在边缘上做，已经能够有效地把延时减下来，否则延时大致是4秒。

接下来是端边结合的AI Agent演示。从现场这个演示，可以看出这个对话AI智能体已经具备了几个突出能力。一是响应很快，另外打断和被打断很自然，第三是我让她等待时，她能等待不再抢话。这个实验中 RTC、STT（语音转文字）、LLM（大语言模型）、TTS（文字转语音）这四个模块都部署在北美（加拿大）的边缘上，另外，在设备端做了降噪和回声消除。

事实证明，端边云结合的方案，在某些应用场景上，因为减少了网络条件带来的干扰，不仅速度更快，算力和成本也有变得更少。可能有些更复杂的任务仍需要利用公有云上更大的模型，但我相信只有端边云结合才能最大限度地满足各种用户的需求，也能够最大限度地释放包括云端大模型在内的能力。

Meta 最近推出了 AR 眼镜 Orin，仅重98克有7个摄像头，但是价格很贵。可以预见的是，未来还会有很多端设备出现。随着端设备的多样化以及能力提升，我们将会有一个越来越合理合理优化的 AI 基础设施，使得 AI 无处不在。我们可以利用 AI 分身和 AI 助手有效地、更多地服务和帮助我们，甚至是无限参与。届时，便可以有效缓解时间的稀缺性，并改善工作和生活体验。