2021SACC专场十八：音视频技术与应用佳实践（ppt下载）

2021-05-25 14:44:57

FFmpeg/Gstreamer的挑战和实践

演讲简介：

FFmpeg和Gstreamer是视频领域主流的免费开源框架。他们提供了视频采集，编解码，流化处理以及新的视频分析等功能。在功能齐全，框架灵活的同时还是会遇到各种问题，比如, 性能是否还有继续调优的可能？社区大版本常常升级，很难跟上怎么办？反复” rebase” 太辛苦，我也想贡献，可是该如何开始，递交了代码，维护人员不理我怎么办？在新兴的5G新场景和AI的飞速发展下，视频框架又会有那些新鲜玩法？其实，这些问题非常的实际，也是视频框架开发人员每天的日常，开发人员也是在摸索中前进。经历了这么多年视频框架的工程师们，也是有了些许的经验和同仁们分享。
本演讲将会介绍，目前在FFmpeg和Gstreamer中新添加的功能和具体应用时的挑战和解决思路，以及分享我们在开发过程中所踩过的坑。

赵娟英特尔亚太研发有限公司研发工程师

嘉宾介绍：

赵娟硕士毕业于华中科技大学, 目前在职博士在读，深耕图形图像十几年。2008年初加入 VIA，职业生涯始于图形驱动开发软件工程师。2009年底加入 Intel 开源技术中心，参于和领导过图形图像，视频分析和处理领域项目开发。2017~2021年初任视频框架和处理团队的研发经理，带领团队在视频框架中使用硬件加速，运用 AI 技术提升视频处理的性能和质量。赵娟在管理初期接管libVA，在庆祝libVA十周年后，带领团队转型视频框架，在FFmpeg/Gstreamer上贡献了数千个patch，在任期间培养出5个FFmpeg/Gstreamer Committer/Maintainer，带领工程师开创了FFmpeg DNN框架，开创了开源视频框架的DevOps, 孕育了在拼接领域领先的libxcam项目，带领团队贡献了OpenCV OpenCL和Vulkan加速后端，2019年带领实习生获得 CVPR2019 人脸活检的比赛第三名。拥有视频相关5个国际专利，2篇论文和 “OpenCV深度学习应用与性能优化实践” 一书。关注的领域有：云基础架构，视频处理与编解码理论，框架及应用等。

58同城流式语音识别引擎实践

演讲简介：

流式语音识别即将音频流实时转译为文字，实现边说边识别的效果，被广泛应用于人机语音对话、实时语音分析场景。我们基于Kaldi实现了58同城流式语音识别引擎，本次议题将分享流式语音识别引擎后端架构设计，首先介绍背景和应用场景，如招聘面试机器人、智能外呼机器人，然后介绍总体架构和后端服务实现细节，如客户端和服务端的交互逻辑设计、实时解码服务设计等，并总结在开发过程中遇到的问题及优化经验，包括Kaldi原生解码器性能优化、后端服务耗时优化等。

王焱 58同城后端架构师

嘉宾介绍：

王焱，58同城AI Lab后端架构师。2017年2月加入58，目前主要负责语音识别引擎后端架构设计和开发工作，曾先后负责过推荐系统、语音机器人后端架构设计与开发工作，曾就职于汤森路透、H3C。2012年硕士毕业于华北计算机系统工程研究所。