FFmpeg和Gstreamer是视频领域主流的免费开源框架。他们提供了视频采集,编解码,流化处理以及新的视频分析等功能。在功能齐全,框架灵活的同时还是会遇到各种问题,比如, 性能是否还有继续调优的可能?社区大版本常常升级,很难跟上怎么办?反复” rebase” 太辛苦,我也想贡献,可是该如何开始,递交了代码,维护人员不理我怎么办?在新兴的5G新场景和AI的飞速发展下,视频框架又会有那些新鲜玩法? 其实,这些问题非常的实际,也是视频框架开发人员每天的日常,开发人员也是在摸索中前进。经历了这么多年视频框架的工程师们,也是有了些许的经验和同仁们分享。
本演讲将会介绍,目前在FFmpeg和Gstreamer中新添加的功能和具体应用时的挑战和解决思路,以及分享我们在开发过程中所踩过的坑。
赵娟硕士毕业于华中科技大学, 目前在职博士在读,深耕图形图像十几年。2008年初加入 VIA,职业生涯始于图形驱动开发软件工程师。2009年底加入 Intel 开源技术中心,参于和领导过图形图像,视频分析和处理领域项目开发。2017~2021年初任视频框架和处理团队的研发经理,带领团队在视频框架中使用硬件加速,运用 AI 技术提升视频处理的性能和质量。赵娟在管理初期接管libVA,在庆祝libVA十周年后,带领团队转型视频框架,在FFmpeg/Gstreamer上贡献了数千个patch,在任期间培养出5个FFmpeg/Gstreamer Committer/Maintainer,带领工程师开创了FFmpeg DNN框架,开创了开源视频框架的DevOps, 孕育了在拼接领域领先的libxcam项目,带领团队贡献了OpenCV OpenCL和Vulkan加速后端,2019年带领实习生获得 CVPR2019 人脸活检的比赛第三名。拥有视频相关5个国际专利,2篇论文 和 “OpenCV深度学习应用与性能优化实践” 一书。关注的领域有:云基础架构,视频处理与编解码理论,框架及应用等。
流式语音识别即将音频流实时转译为文字,实现边说边识别的效果,被广泛应用于人机语音对话、实时语音分析场景。我们基于Kaldi实现了58同城流式语音识别引擎,本次议题将分享流式语音识别引擎后端架构设计,首先介绍背景和应用场景,如招聘面试机器人、智能外呼机器人,然后介绍总体架构和后端服务实现细节,如客户端和服务端的交互逻辑设计、实时解码服务设计等,并总结在开发过程中遇到的问题及优化经验,包括Kaldi原生解码器性能优化、后端服务耗时优化等。
王焱,58同城AI Lab后端架构师。2017年2月加入58,目前主要负责语音识别引擎后端架构设计和开发工作,曾先后负责过推荐系统、语音机器人后端架构设计与开发工作,曾就职于汤森路透、H3C。2012年硕士毕业于华北计算机系统工程研究所。