音视频技术开发周刊 | 196

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

小提示:链接跳转仅支持公众号相关链接

音视频算法在淘宝中的应用

近年来,内容业务在行业蓬勃发展。淘宝也在积极进行内容化转型,本次LiveVideoStackCon 2021 上海站大会我们邀请到了阿里巴巴淘系技术高级算法专家——王立波(庄恕),回顾淘宝从图文到短视频直播的发展历程,介绍音视频算法在其中的应用和未来的投入方向包括编解码、视频处理、音频通讯与互动。

解密华为云原生媒体网络如何保障实时音视频服务质量
随着5G和AI的发展,内容表达视频化成为了当今的主流,很多行业对视频分发有非常旺盛的需求。我们非常荣幸地请到了华为云的资深视频架构师黄挺,为大家介绍基于互联网的实时音视频服务所面临的挑战,分享华为云原生媒体网络全方位保障实时音视频服务体验的实践。

TOP级CG行业云渲染服务的演进之路
影视动画、特效制作等行业渲染需求量增多,4K/6K以及各高分辨率会陆续成为主流,本地算力与存储资源已无法满足现有任务量。而随着大环境的演变,CG行业发展已进入发展快车道。本次大会我们邀请到了赞奇科技CEO 金伟老师,与我们分享赞奇科技关于CG行业在云端制作和渲染是如何推进服务的。

谷歌 I/O 2021 在音视频领域中有哪些技术值得被关注?
时隔两年Google I/O大会再次与大家见面。虽然去年的大会因新冠疫情被迫取消,但技术的迭代发展却未被打断,反而因疫情的影响促使了技术的创新变得愈加以人们的需求为首要考量,从而变得更具人性化也更具智能化。

手写 Android 录屏直播
观看手游直播时,我们观众端看到的是选手的屏幕上的内容,这是如何实现的呢?这篇博客将手写一个录屏直播 Demo,实现类似手游直播的效果。

快手实现基于深度学习实时变声直播
近日,快手成为业内首次在 PC 客户端实现基于深度学习实时变声直播的公司。这项变声技术可以实现任意用户到目标音色的稳定变声,变声后语音具有自然度高,相似度高,音质清晰等优势,同时整个系统的链路延迟可低至 200 毫秒。


一种“在 Android 设备上,播放视频的同时,获取实时音频流”的有效方案
这篇文章将会按照一般的需求开发流程,从需求、分析、开发,到总结,来给大家讲解一种“在 Android 设备上,播放视频的同时,获取实时音频流”的有效方案。

实时广播视频的公网传输:压缩视频的 SRT, NDI和RIST
本文来自SMPTE的会议,主讲人是来自Alpha Video的销售客户经理Bryan Nelson和RIST论坛主席、Cobalt Digital工程部执行副总裁Ciro Noronha。主要内容是介绍如何用SRT、RIST和NDI实现实时广播视频的公共互联网传输。

The Road to multipath QUIC: 阿里自研多路径传输技术XLINK
阿里巴巴淘系技术部淘系架构团队与达摩院XG实验室共同研发的XLINK多路传输技术,相关论文「XLINK: QoE-driven multi-path QUIC transport in large-scale video services」已经被顶级学术会议SIGCOMM 2021正式接收, 这也是SIGCOMM会议历史上第一篇关于多路径QUIC的论文。

学术界AV1编码优化技术的进展
学术界的一些优化工作是涵盖了编码过程的大部分模块。很 明显的趋势就是许多深度学习的网络或者方法已经开始与编码的模块进行结合,并取得了很多不错的收益。本文将按照编码过程的大致顺序分享学术界AV1编码优化技术的进展。

从Satin到Lyra 为何微软、谷歌都盯向音频编解码器?
回顾今年的2月份,可以说是音频编解码器最为热闹的一个月。先是微软宣布推出最新款由AI支持的音频编解码器——Satin。仅一周后,谷歌推出了用于语音压缩的新型超低比特率音频编解码器——Lyra,并且Android版本已开源。在此,也非常感谢来自国内音频领域的知名业内人士对本文发表评论及审校。

AI技术 | 弱光下的人脸准确检测识别(附论文下载)
在弱光图像中进行人脸检测具有挑战性,因为照片数量有限,而且不可避免地会有噪声,而这些噪声往往在空间上分布不均匀,使得这项任务更加困难。

前馈网络+线性交互层=残差MLP,Facebook纯MLP图像分类架构入场
近日,来自 Facebook 的研究者进一步推动了这一趋势,他们提出了 ResMLP(Residual Multi-Layer Perceptron ),一种用于图像分类的纯多层感知机(MLP)架构。


实践解析 | 如何用 OpenGL 实现跨平台应用高效渲染
OpenGL(Open Graphics Library 开放式图形库)是一个定义了跨编程语言、跨平台的编程接口规格的专业图形程序接口。它可用于三维、二维图形图像的渲染,是一个功能强大,调用方便的底层图形库。在一个 RTC 应用中,因视频渲染或算法处理的需要,OpenGL 是一种高效的渲染或处理实现方式。OpenGL 的高效实现在 Windows、Linux 和 macOS 都有相应支持。

OpenAI新研究:扩散模型在图像合成质量上击败BigGAN,多样性还更佳
新模型在ImageNet512×512上实现了3.85FID,甚至在每个样本只有25次正向传递的情况下,其生成图像质量可匹敌DeepMind提出的BigGAN。

8K时代有望提前到来?看《超高清视频产业发展白皮书(2021年)》了解!
根据该“白皮书”的测算,在市场规模方面,2020年,超高清视频产业总规模达1.8万亿元,其中超高清视频核心环节直接销售收入超过8100亿元,行业应用规模超过9800亿元,其硬件直接销售收入约900亿元,解决、集成方案等超过8900亿元。

活动推荐

# 基于CDN边缘网络智能优化图片和视频

随着在线业务的蓬勃发展,好的数字用户体验有助于提升转化率已毋庸置疑,高质量的图片和视频已成为成功吸引用户的重要因素。然而,既要交付制作精美、视觉效果出色的图片和视频,又要保证用户体验,尤其在高延迟的移动蜂窝网络和性能参差不齐的移动终端设备上,在这两者之间找到平衡是一个复杂的过程。

5月27日19:30,我们邀请到了 Akamai 高级技术顾问 何明聪 结合Akamai图片和视频优化解决方案,和大家一同探讨在无需修改源站代码的前提下,如何通过自动化的工作流程在CDN边缘网络智能优化图片和视频。(扫描上图二维码来报名吧:)

# 泛娱乐社交音视频技术实践沙龙

全球领先的实时音视频云服务商即构科技将于6月5日(周六)在北京联合火山引擎举办『泛娱乐社交音视频技术实践沙龙』,特别邀请到了思享无限(秀色直播)研发总监、即构科技解决方案高级架构师、火山引擎解决方案高级顾问三位嘉宾,分别从技术推动娱乐直播的内容升级与体验升级、共享体验场景创新、RTC服务体验优化、音视频业务全链路增长等维度分享最佳实践,复盘实战经验,畅聊技术趋势和未来玩法,对音视频技术/泛娱乐社交场景创新感兴趣的朋友,请赶快扫码报名,抢先获得与大咖面对面交流的机会,更有超多精美礼品相送哦!

插图源自Pexels


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部