RTE2021，实时互动技术的进化与蝶变

2021-11-01 16:48

10 月 22—23 日，由声网 Agora 主办的 RTE2021 实时互联网大会在北京圆满落幕。大会以“万象频道”为主题，带来了 20 余场实时互联网全生态线下论坛及活动、近百场的精彩演讲分享，覆盖技术开发、行业观察、创业投资、趋势洞察等多维度话题。同时，在大会现场还设置了 demo 丰富的声网展台、酷炫的 Metaverse 展台以及丰富的周边活动，为参会观众展示了实时互动技术带来的全新体验。

从 2015 到 2021，今年已经是实时互联网大会跨过的第七个年头，本届大会吸引了 150+ 全球极具前瞻性与实践力的技术领袖、近千名实时互联网领域的从业者与数千名行业开发者的关注与参与。大会围绕实时互动行业一年来的行业变迁、趋势展望，从场景、技术、产品、生态等多个维度进行了深度探讨与分享。

RTE 万象图谱重磅发布

全球首个全自动多场景模拟声学实验室落成

10 月 22 日 RTE2021 大会的主论坛上，声网 Agora 创始人&CEO 赵斌发表了主题为《万象纷呈，实时进化》的演讲。随着线上模式被越来越多的行业所接受，RTE 技术正在不断解锁着全新的应用场景。从远程办公的兴起到 LiveAudioCast 场景的爆发，2021 年每一个人都亲眼见证了实时互动、实时音视频能力在媒体行业改造工业、引爆新的媒体形态、改造社会的交流形式的潜力。

声网 Agora 创始人、CEO 赵斌

赵斌在演讲中谈到了他总结的对于未来实时互动领域未来发展趋势的关键词：孪生与融合。

从趋势上来看，数字化的普及是大势所趋。但从娱乐场景来看，从影视到文艺、从直播到展会，越来越多的娱乐场景完成了由线上到线下的华丽转身。当真正的数字化普及完成并实际发挥效用后，互动就成为了其中不可或缺的重要环节。这是针对现有场景而言，而当数字化技术与实时互动技术发生碰撞，还会有更多的应用场景诞生。数字化与互动技术的孪生，正是目前 RTE 领域使用量增加、应用渗透率提高，同时应用场景也在爆发的根本原因。

当深入数字化场景，其实不难发现线上线下体验的相互融合，其本质便是一种技术上深刻的进化。在虚拟与现实交融的场景中，数据的实时同步和共通带来了数据的虚实融合。不论是技术的进化，亦或是环境的变化，都会给各种可能性释放更多的空间。同理，实时互动的边界也在不断进化，传统意义上的实时通讯向实时互动场景化的人的共同存在，这样的交互也有可能创造价值的扩张。

在演讲过程中，赵斌发布了基于实时互动场景的“ RTE 万象图谱”，共覆盖教育、泛娱乐、IoT、金融、医疗、企业协作、数字政府、智慧城市等 20+ 行业赛道，200+ 场景。赵斌表示：疫情的影响助推动万象图谱中的场景加速丰富和成熟，例如教育、社交、直播、会议等领域已初步形成成熟场景，并且他们未来将长期存在。

在万象图谱所包含的 200+ 场景中，不仅有许多已经经过实际应用考验的成熟场景，还有数量远超成熟场景的新萌芽场景。在万象图谱中，声网 Agore 依托自身庞大的行业经验与市场分析能力，对全球处在萌芽阶段的应用场景进行了全面的梳理。开发者和创业者能够通过万象图谱中的场景梳理，找寻全新的灵感与视角，并同声网一起对这些萌芽场景进行打磨，探索其中真正的价值与创新点。

除了万象图谱，赵斌还在演讲中宣布另一个重磅消息：声网 Agora 打造了全球第一个全自动的多场景模拟声学实验室。他表示：它的出现代表着 RTE 行业在多场景的实时互动下第一个专业的测试设施和测试环境的建设已经成功投产，将为未来多场景下的音频和音效的研究、测试、评估带来新的高度和便利。

下一代实时互联网，路向何方？

声网 Agora 首席科学家钟声博士分享了《实时互动与智能互联网》的主题演讲：

随着线上线下的加速融合，在当下无论是视频通话、在线课堂、VR/AR、直播秀场都已经成为我们习以为常的生活体验。实时互动技术，毫无疑问它的出现极大地强化了人们在线上世界中的社交体验，同时也提升了线上应用场景中的用户粘性。

想要在线上世界中重现线下人们“欢聚一堂”的体验，对于通信网络低延时的需求是十分严苛的。针对实时互动中的低延时需求，在面对海量的非结构化数据要被处理、要被理解、要被还原的需求上，做到感知通信计算一体化的技术支持是非常必要的。

声网 Agora 首席科学家钟声博士

在未来的实时互动场景里，从体验上来讲是叙事的延展，从过去单纯的感官体验到沉浸式的互动叙事感受，在未来的实时互动场景中人们将获得更加丰富的体验。在线上世界中，我们需要构建基于自身的虚拟角色去演绎效果，其中虚拟角色与现实中真实存在的“我”，二者之间的联系是需要数字孪生以及人体的数字孪生技术作为纽带的。未来的实时互动中必须要有的是一种强大的交付、表达以及共情的能力，这其中包含了对表情情感的识别，以及环境的感知、触觉的感知以及基于 AI 的 3D 建模，这些技术共同构成了数字孪生。

在谈到影响未来实时互联网发展的关键技术时，钟声介绍到：声网专注在做低延迟+边+云的加速，实时构筑在 PaaS 系统里，API 提供灵活应用业务构建的内容，以及先进的云/边计算，未来这些肯定是非常重要的技术发展方向。通信领域除了带宽、宽口的延时、可靠率、多设备连接继续演进之外，像太赫兹、毫米波、超大规模 MIMO 都是底层的关键技术。同时，为了呈现更加贴近现实的视频图像效果，超高分辨率的视频技术也是不可避免的。

同时，针对AI技术在实时互联网中的应用，钟声也给出了自己的思路：如何能够做到通过一个小数据就能把所有的信息检索出来，恢复出来？这看似不能完成，但实际上可以通过 AI 的算法泛化大数据转化为小数据，以小数据驱动大数据。从发送端提取关键点，在接收端根据关键点重新生成视频。

针对现如今通信与计算融合后，现有的运维、技术架构已经无法应对当今实时互动的业务和体验要求。声网 Agora 首席科学家钟声在演讲中表示，下一代的实时互联网，需要全网协同及网络感知能力，并做好全域带宽实时调度、全域资源实时调度，发展支持灵活的动态分布式计算云原生软件架构，充分利用 AI算法来泛化智能，小数据驱动大数据，并持续提升端/边/芯片等硬件能力，才能满足当今实时互动场景提出的技术、业务和体验要求。

AI、深度学习不断渗透 RTE 的方方面面

除了钟声博士的前瞻性研究，在 RTE2021 大会上我们能看到的另一个重要现象，是 AI、深度学习正在不断渗透到实时音视频的方方面面。音频、视频、网络各领域的算法工程师们都在实践，以 AI 去优化与提升自身领域的性能表现。

谷歌工程师在 RTE2021 大会上分享了最新的低比特率语音编解码器 Lyra，Lyra 以少量数据压缩重构语音，实现 20kpbs 以下的顺畅视频通话。谷歌工程师们对单个最大矩阵进行稀疏化，即门控循环单元（GRU）内的矩阵，而这些块矩阵可以实现为小而密集的矩阵，从而让深度学习训练速度提高了两倍。

声网的 Silver 语音编解码器则是通过深度学习探索码率、算力和效果的平衡。声网的音频算法团队使用 AI-NS 降噪算法提升语音信噪比，解决噪声问题，以减少低码率带来的 artifact；

编码基于传统算法的分频带特征提取（基频、子带频谱包络、能量等），以及 RVQ、距离编码等方法实现特征编码节省码率；解码采用自回归模型和带宽扩展（BWE）的 WaveRNN 模型实现模型算力的精简。基于自研的多平台 AI 推理引擎实现模型的非对称量化、混合精度推理、计算压缩解码耗时，最终保证移动端部署的实时性。

另外，还有 NVIDIA 深度学习资深解决方案架构师在大会上分享了英伟达从提升算力、结构化稀疏减少算力损耗、模型量化寻找最优算力的深度学习“一增两减”思路。声网 Agora SD-RTNTM 网络传输质量工程师分享，探索声网如何将运维操作的 API 化、平台化，将 AI 和 OPS 拆解成算法-决策-执行，以实现 7*24H 无间断、运维执行的质量和效率。

视频标准与专利发展迅速，期待 AV2 的到来

除了 AI 的深入实践，国内厂商在实时音视频领域另一个重要的战场，标准制定上，也在投入大量精力。RTE2021 大会上，参与了高清、4K 等视频国际标准制定的叶琰博士，分享了关于 MPEG、ITU 发展历程，VVC 性能演进详细指标数据，以及视频标准商用落地的最新个人观点。

MPEG 发展路径

她很坦率地提出了，已经占据互联网 80% 流量的视频，压缩技术日趋被重视，也将带来专利技术之争，以及专利授权的复杂场景。另外，MPEG 视频相关工作将在 VVC 下一代标准技术研发、AI 视频编码（包含传统框架下提供更高压缩性能、神经网络进行视频压缩两个方向），以及浸入式视频方向发力。

除了视频标准，RTE2021大会上，谷歌工程师也带来了最新的 AV2 编解码器的设计和性能优化成果。上一代 AV1 仅仅在引入实际场景落地的进程中，谷歌的工程师们已经在继续向前，以 0.4~1.5% 的性能提升，探索编解码效率的极限。所以，与 AV2 相关的场景和标准，也将是业界重点关注的工作。

WebRTC 开源与标准之上，声网如何打破“黑盒子”

今年，WebRTC 正式成为 W3C 与 IETF 的官方标准，看起来尘埃落定。不过，WebRTC 开源社区 Committer、声网 Agora WebRTC 负责人毛玉杰在大会上分享了，各组织在 WebRTC Codecs 存在着开源与标准之争的现状问题，以及声网在 WebRTC 标准之上，如何设计 Web 端到端音视频传输架构，降低开发者对实时音视频的使用门槛。

他总结了 WebRTC 的六个现有问题：设备与外设缺乏适配、各类浏览器兼容性、移动端支持不佳、音视频模块不可定制、性能问题、统计数据缺失，目前浏览器厂商并不能全部解决以上问题。声网结合 ORTC、WebRTC Extenions、WebRTC-SVC、Web Transport、Raw-Socket……等多个技术标准，形成了现在声网的 Web 端到端音视频传输架构。

声网 Web 端到端音视频传输架构

从 AgoraAI 实时 AI 加速引擎的推出，到在千元机上开启各类 AI 玩法；从 WebRTC 的标准化，到在探索在 Web 端达到 native 端同等的能力；从 RTC 与 IM 融合基础上提供的 aPaaS 到 RTE 万象图谱的发布。过去一年是声网 Agora 技术进化的一年，也是实时互联网迈向全新技术阶段的重要变革点，RTE 领域的未来值得我们期待！

消息来源：CSDN