直播预告｜百度视觉前沿创新技术与应用分享

发布日期：2021-08-19 11:05浏览量：2598次

2021年6月23日，全球知名咨询机构IDC发布《中国AI云服务市场2020年度研究》报告，在中国AI公有云服务市场， 百度智能云市场份额排名第一 。计算机视觉的细分场景百度取得了令人瞩目的成绩： 图像视频领域份额超过30%，连续三次第一；人脸人体识别市场份额占比超过40%，连续两次第一 。

百度智能云在计算机视觉领域的市场领先，背后是源自百度视觉方向同学的不懈努力，实现了基于海量数据、创新算法、领先算力、顶级平台的持续不断的技术创新和应用突破。从图像到视频，从2D到3D，从软件到硬件，从算法到平台，百度视觉技术一次次的站在行业技术浪潮的顶端，成为AI技术革命的弄潮儿。

2021年8月21日（周六）14:00-18:00 ，百度技术沙龙第93期迎来了 《百度视觉前沿创新技术与应用》 的分享，一起来解密行业最领先的视觉技术团队的技术密码。本期沙龙我们将邀请百度视觉技术部的4位资深研发工程师，就“百度OCR创新技术与应用、VideoReborn: From Understanding to Re-Generation、3D技术的冰山一角、Light AutoDL模型小型化技术”等技术创新话题进行深入分享。

同时我们邀请到百度飞桨团队的资深研发工程师王冠中，介绍飞桨(PaddlePaddle) 目标检测PP-YOLO算法以及飞桨教育相关成果。欢迎各个高校的视觉方向小伙伴们一起讨论交流。本次技术沙龙同时还开放了一批2022年校招的招聘岗位，即将参加校招的同学可以重点关注。

日程安排

详细介绍

章成全

百度视觉技术部文字识别技术负责人

2016年在华中科技大学电子信息与通信学院获得硕士学位。毕业后加入百度视觉团队，专注于OCR检测和识别、文本图像编辑、以及文档图像智能化理解等技术方向的研究工作。在文档领域相关国际会议和期刊发表过相关论文10+篇，获得ICDAR 2019 Best Paper Runner-Up Award，以及多次取得ICDAR-RRC系列相关赛事和榜单任务第一，并获得首届人工智能多媒体信息识别技术竞赛”印刷文本OCR”赛道唯一A级证书。

演讲议题： 百度OCR创新技术与应用

议题介绍： 文字是人类社会生产和生活中重要的信息交流工具，我们离不开和各种富视觉文档图像数据打交道，小到一张车票，大到一份体检表、述职报告等。相比于纯文本数据，富视觉文档图像数据往往是经过强视觉元素的渲染和精心的排版设计而成的，蕴含着比较丰富的、有价值的结构化关键信息。如何让计算机自动提取富视觉文档图像中的重要信息，已经成为了IPA时代聚焦的人工智能技术。本报告将从企业应用研究视角出发，分享百度OCR团队在端到端文字识别、文档图像智能结构化等前沿技术工作。同时，也将和大家交流关于OCR技术在企业规模化落地的策略。

何栋梁

百度视觉技术部视频理解及增强技术负责人

2017年于中国科学技术大学-微软亚洲研究院联合培训博士项目毕业后加入百度视觉技术部。目前主要负责视频团队的技术研发工作。几年来，其团队在视频理解及底层视觉等国际权威竞赛累计获得冠军近10项，在CVPR/ICCV/TPAMI/TIP/AAAI等国际会议期刊发表近30篇学术论文。其研发的技术成果广泛转化至百度产品，是百度最高奖获得者。

演讲议题： VideoReborn: From Understanding to Re-Generation

议题介绍： 视频将成为未来最为主要的多媒体内容流量，用户生产的原始数据因为信息冗余码率太高、缺乏内容标签、画质模糊清晰度不够或者内容单调等等原因，导致其直接在互联网平台直接分发面临成本过高或者用户体验太差等问题。本次talk主要介绍针对这些实际问题所开展的VideoReborn项目中的一系列研发工作，通过视频理解/底层视觉/GAN等技术使得视频资源焕发活力，满足线上线下成本与用户体验之间平衡的需求。本次将着重介绍视频理解、lowlevel vision及GAN等关键技术点上的部分典型前沿工作。

叶晓青

百度视觉技术部3D技术负责人

2019年博士毕业于中国科学院, 入选百度『AIDU』全球顶尖人工智能人才计划，同期加入百度视觉技术部，研究方向为3D视觉，包括深度估计、3D目标检测、3D场景理解、NeRF等，在CVPR/ICCV/ECCV/AAAI等顶会和期刊发表论文15+篇，担任CVPR、AAAI审稿人，获得智慧城市挑战赛（AICity）、毫米波雷达目标检测竞赛等多项冠军。

演讲议题: 3D技术的冰山一角

议题介绍: 虽然2D视觉技术在过去一段时间里面，借助强大的CV和深度学习算法取得了可媲美甚至超越人类认知的成就，但世界是立体的，三维信息才能真正反映物体和环境的状态，也更接近人类的感知模式。相机拍摄的图像是二维平面的，3D视觉技术则可以从中恢复三维场景，智能地感知和探索周围的环境。正因如此，3D视觉技术正在快速发展，从近几年CVPR论文数量中3D占比的逐年增长也可以看出。本次talk主要介绍百度视觉技术部近一两年在3D技术领域的一些阶段性工作，主要是3D技术的发展、阶段性工作与技术前瞻。3D技术涵盖的范围非常广，此仅为3D技术的冰山一角。

希滕

百度视觉技术部AutoDL技术负责人

2018年博士毕业于北京邮电大学，博士期间曾获国家奖学金，国家公派出国，入选百度『AIDU』全球顶尖人工智能人才计划，并在清华大学计算机科学与技术系博士后流动站、百度博士后工作站从事博士后研究工作。在模型压缩领域，原创性的提出了SA-NAS（IJCV）、GP-NAS（CVPR）等AutoDL技术，并在CVPR2019，CVPR2020，ECCV2020 等多个顶会国际比赛上，累计夺得7项世界第一，提交专利申请超过200项。在CVPR 2021举办了NAS workshop和首届轻量级NAS国际比赛。

演讲议题: Light AutoDL模型小型化技术

议题介绍: AutoDL是目前工业界和学术界重要和热门的技术方向，研发领先和实用的AutoDL技术一方面可以继续保持百度的技术品牌和技术领先优势，另一方面通过技术落地，提升人效，帮助提升公司业务水平和收入能力。本演讲将介绍如何通过技术创新来降低AutoDL的使用成本，达到可规模化工业应用的状态，在百度搜索、智能交通、度目硬件等合作项目中取得比人工训练更好的效果并且降低人力成本。此外，本次分享还介绍AutoDL技术多次在国际比赛中夺冠的经历。

王冠中

百度深度学习技术平台部资深研发工程师

毕业于南加州大学，飞桨目标检测套件PaddleDetection核心开发者，从0到1打造了飞桨目标检测端到端的开发套件，开发的检测模型效果达到业界前列，具有多年目标检测方向的算法积累和实战经验，对目标检测领域有着深入的理解。同时负责关键点检测及多目标跟踪方向。

演讲议题：飞桨目标检测算法解读及教育生态

议题介绍: 本次talk主要介绍飞桨目标检测PP-YOLO算法以及飞桨教育相关成果。

工业视觉、自动驾驶、安防、新零售等我们身边熟知的各行各业都需要目标检测技术, 而实际生产环境对检测算法的精度、速度、体积等要求往往十分苛刻。因此,如何在保持高检测精度的前提下,尽量提高检测速度、减小模型体积,成为这项技术真正深入工业实际应用的关键。PP-YOLO及PP-YOLOv2是在 YOLOv3 的基础上，采用了一整套优化策略，在几乎不增加模型参数和计算量的前提下，提升检测器的精度得到的极高性价比的单阶段目标检测器。百度飞桨推出全新awesome-DeepLearning一站式深度学习在线百科，将深度学习理论和实践知识融为一体，从科研到产业应用各类学习材料一应俱全，有助于开发者高效地学习和掌握深度学习知识，快速成为复合型AI人才。

如有飞桨相关技术问题，欢迎在飞桨论坛中提问交流：

http://discuss.paddlepaddle.org.cn/

欢迎加入官方QQ群获取最新活动资讯：793866180。

如果您想详细了解更多飞桨的相关内容，请参阅以下文档。

·飞桨官网地址·

https://www.paddlepaddle.org.cn/

·飞桨开源框架项目地址·

GitHub: https://github.com/PaddlePaddle/Paddle

Gitee: https://gitee.com/paddlepaddle/Paddle

长按上方二维码立即star！

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体，是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。飞桨企业版针对企业级需求增强了相应特性，包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业，提供零门槛、预置丰富网络和模型、便捷高效的开发平台；BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END