\u200E
专访:6位飞桨开发者的「新生代」AI创新故事!
发布日期:2022-12-22T06:10:53.000+0000 浏览量:530次

 如何让看世界杯变得科技感十足?

如何在发朋友圈时自动配上优美的图片?

如何在工业安全生产环境下识别违规手机?

飞桨的年轻开发者们给出了自己的方案。


他们,借助飞桨及飞桨AI Studio,

开发了一个个令人惊艳的系统,

在实现AI梦想的同时,

也帮助更多人、更多行业解决难题。

他们正以AI为桨,划出时代的未来。

近日,百度CTO王海峰在WAVE SUMMIT+ 2022深度学习开发者峰会上公布了飞桨生态最新进展:飞桨已凝聚了535万位开发者,构建起全方位的产学研协同共创、共生、共赢的生态体系。其中,基于百度飞桨深度学习平台的学习与实训社区飞桨AI Studio,自2018年7月上线以来用户量也突破了200万。


在这个庞大的数据背后,浓缩了中国的AI开发者和创造者的身影。他们大多是深耕于制造业、农业、金融等各行各业的工程师,也有刚开始接触AI的青年开发者,他们是未来“AI新生力量”。通过参加飞桨AI Studio获得免费算力、进阶课程、实训项目、各类竞赛等学习机会和资源支持,逐渐将自己想法应用到实际生产生活中,成为影响世界的一股新锐力量。

在飞桨开发者突破500万之际,飞桨特别策划走近6位年轻的开发者,让我们来聆听他们的故事,感受那些极具创新性开发案例的魅力。






让视频字幕提取更快更准确 

Prompt 患者(飞桨社区用户名)

华东师范大学  计算机专业 硕士在读

我加入飞桨AI Studio社区已经1306天,是加入社区比较早的开发者。三年前,我就注意到飞桨AI Studio是国内少有的AI学习平台,虽然我曾参与多项国内外顶级算法竞赛并获奖,如Deecamp&AIR全球大学生夏令营赛道冠军及总冠军、数字中国创新大赛冠军等。但2021年,参加由中国计算机学会主办的CCF BDCI大数据与计算智能大赛,让我印象尤为深刻。

我记得那次大赛上,主办方提出参赛者可以尝试使用任何框架迎接挑战,我过去习惯使用国外深度学习框架,这次我尝试使用飞桨框架,让我惊讶的是,在专一文本赛题方面,飞桨框架竟然效果最好!这次比赛印证了我的看法,即百度的深度学习技术运用到专业技术比赛场也能取得显著优势,与国外产品对比并没有丝毫的逊色。

除了技术以外,飞桨社区带给我全新的体验。比如,最近我看到一个与广告视觉算法有关的技术材料,这个材料涉及算法比较偏,内部也没有披露相关技术环节,我与一些圈内人探讨,但他们都没有得出合理的结论,于是我分享到飞桨AI Studio,有很多同学主动来加我,与我交流,甚至他们还请教了他们领域内的人,最后飞桨上有一个叫“坑姐”的开发者,帮我解决了这个问题,成功地推理出内部结论。

我当时有一种难以言表的激动,你知道吗?当有一群和你一样拥有技术情怀的人共同去探索AI时,那感觉真挺好。

我的研究方向是自然语言处理与多模态预训练。最近我发现市场上视频平台开发的智能字幕提取系统大多存在缺陷,就算是最好的开源字幕算法提取效果也不尽如人意。我尝试利用飞桨开发了“极速识别视频字幕”项目,现在我们开源的这一版达到99%准确率的提取效果,几乎可以无损耗地还原OCR识别效果,目前项目进展2个月,开源到社区上大受开发者欢迎,已积累300+的Fork数量(指拷贝数)。

可将一分钟左右的视频

在5秒内实现字幕快速提取,准确率达99%






  让工业生产环境更安全 

张赫航 北京科技大学 

机械工程专业 硕士在读

我首次接触到飞桨是通过参加去年12月飞桨AI Studio举办的常规赛。之后,我参与了飞桨举办的活动,跟一位PPDE(注:飞桨开发者技术专家 PaddlePaddle Developer Experts)入门做计算机视觉。他对飞桨 PaddleDetection 套件以及飞桨全流程开发工具PaddleX比较了解,记得有一次可能都晚上11点,他居然还秒回消息,帮我们检查项目。

接下来,我完成了中国交通标志图像分类、基于PP-PicoDet的工业安全生产环境违规使用手机的识别、基于JetsonNano工业安全手机识别部署、文心大模型教你搞定公众号图文生成等项目的开发,并在一些飞桨常规赛中拿到名次。

我想重点说一下,识别工业安全生产环境中违规使用手机的项目。我学工科机械出身,平常会涉及到工业设备实验室安全,在实际工业场景中,实验室环境或比较危险的生产环境下是不允许使用手机的(因为使用手机容易造成安全事故),如果能通过技术的手段监测违规使用手机的行为,就能避免一些安全隐患。因此,我就想到开发一种手机识别应用来监测工业安全生产环境下违规使用手机的操作行为。

工业安全生产环境违规使用手机的识别应用样机

具体来说,我采用了计算机视觉、深度学习模型的方法,选择PaddleDetection套件,将其部署到开发板上(后续商业应用还可以部署到移动端上),用户只要将开发板连上电源,打开摄像头,输入命令,用摄像头对准你要检测的某一个区域,当区域内出现有人违规拿着手机时,就能进行识别,此时开发板所连接的显示器会呈现自动框选出来的目标手机。


由于飞桨套件非常方便、好用,上手极快,项目进展整体比较顺利,我根据套件要求传入数据,训练模型后,进行快速高效预测。目前已部署成功,实现了实时在线识别,我们还将项目开源到飞桨AI Studio上。

当然中间也遇到过一些小困难。比如,在开发识别时,开始有一些模型数据接口没有调好导致报错,当时在飞桨PPDE高睿老师帮助下,我们顺利地解决了问题;在部署阶段,我应用C++进行编译部署,出现了一些小语法操作错误,当时同负责部署的导师交流后,也成功解决了。

我认为,飞桨为广大开发者学子提供了一个低门槛上手深度学习的平台。作为国内开源的框架,飞桨是比较亲民的,为开发者提供免费的算力,要知道有些算力比如显卡、开发板造价比较贵,普遍开发者无力承受。此外,深度学习是这个时代的前沿, 我希望自己能有大的格局与视野,不断思考和创新,做一些对生活生产有帮助的事情。 可以说,飞桨为我打开探索新世界的一扇窗。






 让室友不再为朋友圈文案配图费心  

彭腾宇 广西民族大学  

智能科学与技术专业 本科在读

随着AI科技的发展,我们的世界正因AI的参与变得越来越美好。举例来说,自动驾驶接管了我们的车辆,让驾驶员也能在旅途中作为一个观赏者去欣赏外面的风景,而不是辛苦地开车,将注意力集中在道路安全上。

另外受到我哥哥的影响,我高考志愿选择了智能科学与技术专业。他在华南理工大学读大三,专业也是AI方向,在我高考前的寒暑假,他每次回来都会给我分享展示他做过的项目。当时我就觉得好有趣!从那时起我就决定以后也往AI方向发展。

刚进大学那会,我查询了一些平台,想锻炼自己的专业能力,偶然的机会摸索到了飞桨平台,但真正近距离接触飞桨还是在学校的研习周,学院统一组织我们参加了飞桨文心大模型创意赛。

我觉得这次邂逅是我人生中第一次接触到了真正意义上的AI。我现在学校的专业学习基本上是训练编程能力和编程思维,但对我来说,会编程和编好程离AI还有非常遥远的距离,文心大模型中有上千亿的参数量,可以自行调节参数优化项目,搭建前端页面的新事物,这些是仅靠编程做不出来的。

加入飞桨AI Studio社区后发生了一件有意思的事。我经常听到室友抱怨发朋友圈写的文案找不到合适的配图。一个月前,我刚好接触到了飞桨文心大模型,知道文心大模型有根据文字生成图片的能力,我想尝试开发一个项目去解决这个问题。

我开发的“关键词句AI作画”系统,利用文心大模型的文本理解与创作能力,用户只要输入一段文字,复制粘贴到这个系统里,系统就可以提取段落句子里的关键词并自动生成图片。现在这个项目已经上升为文心创意赛的11月月赛的精选项目。

当然,开发项目过程中我也遇到过棘手的事。比如,文心把文字转化为图片是以网页链接的形式,而不是直接将图片展示给用户,这对用户的体验感会大打折扣。为了解决这个问题,我请教了我的指导老师蒋权,在他的帮助下,最终的项目实现了生成的图片可以在前端页面直接展示给用户。

我记得完成这个项目的当天晚上,我的室友就用我开发的这个项目去生成了一个图片,还发了一篇“秋天的第一杯奶茶”的朋友圈,在朋友圈里面收获了很多的点赞。

室友用关键词句AI作画系统

生成朋友圈“秋天的第一杯奶茶”






 让观众看世界杯更具科技感  

卜宜凡 华东理工大学 

智能科学与技术专业 本科在读

我今年暑假参加飞桨AI Studio特训营接触到了飞桨。飞桨社区氛围很好,大家都愿意帮忙,彼此之间互相成长,社区活动也非常丰富,对我个人帮助很大。除了特训营,还有个创造营,社区给了我们这些开发者一些硬件来实操,还组织过英特尔工程师和我们交流。

我印象比较深的是社区上有一个叫“深渊上的坑”的大神,她写了很多项目,而且每一次改进她都会将其写成一个全新的项目,我们可以在这个过程中看到一个很牛逼的东西或完善的功能是如何一点一点变成现实的。
我喜欢看足球,最近在关注世界杯,但看球赛时,有时会认不齐人,有时想要一些帅气的片段分享给好朋友看,我就想做一个可视化的辅助工具,实现一些看起来科技感十足的可视化效果。

足球赛识别追踪改良项目效果图

球类检测的难点在于,足球体积很小,往往难以定位追踪,特别是在镜头较远时,一般很难确切找到球在哪个位置。百度的指导老师卢飞翔对我帮助很大,在他的指导下发现是初期采集的数据不好造成的定位不准。

我们团队调用了一些数据,训练了一个球类检测模型,选择用PaddleDetection套件里的实验识别工具,将之前训练的模型串到一起,形成球员和球类识别追踪的可视化,这样观众在看球赛时可以实时标注赛场上的球员姓名、足球位置,并一键生成视频进行分享转发。这个小项目后来并入了PaddleSports的官方Repo(指Github上的代码仓库),同时还扩展了许多新的功能,包括号码识别、队伍识别等。






  让AI变得更好玩 

常钧淋 北京航空航天大学

虚拟现实技术与系统国家重点实验室 硕士在读


我去年9月第一次接触飞桨,当时选修了软件学院的模式识别课程,课上老师布置了一个作业,要求用飞桨框架实现,我就第一次注册了AI Studio。今年5月,我报名参加了飞桨AI Studio特训营,跟着PPDE李文博老师做项目,一个月做了18个项目,那时经常干到晚上两三点,基本上每天就是看论文,然后写代码,去跑后台第二天看效果。

这些项目中,类MLP架构是我比较有成就感的。我想在点云场景中,找一个Transformer或MLP看能不能替换。我当时调研了图像分类领域的类MLP架构的论文,发现市场上Transformer比较火,但是自注意力机制到底是不是必要的存疑。而类MLP架构实际上要解决的问题是通过设计MLP去替换自注意力机制,换而言之,如果只用MLP能达到与Transform一样的性能,在图像分类目标检测,语义分割数据集上实现同样的效果,那么就可以证明自注意力机制并不是那么必要。后面李文博老师还推荐我去飞桨《开发者说》做分享,当时既惊喜又忐忑。


搞AI传统方向其实挺枯燥的,在飞桨和大家一起探索AI是一件很好玩的事,像我比较爱看动漫,就想做人脸动漫生成,飞桨给我提供了一个实现创意的舞台。





   让媒体工作更方便快捷  

周军 成都广播电视台 

软件工程师 在职

说来你可能不相信,我已经40多岁了。我大学不是学AI的,毕业后我就进入电台工作,现在融媒体发展部做新媒体、PHP开发相关的事情。电台是事业单位,可能有些人会很羡慕,但是其实有点像古代后妃困在深宫中一样熬人,一不小心十年、二十年过去了,我时常觉得我的人生可能就要这样浪费了,接触飞桨以后才让我重新燃起对生活的希望。

我一直对AI很感兴趣,自己找了很多资料看,但由于缺乏驱动力,一段时间就放弃了。今年2月,一次偶然机会我参加了飞桨AI Studio的AI达人创造营,在这里我遇到了许多对AI有热情的开发者,后来我在创造营以优秀的成绩结业,加入AI Studio作者群,遇到了我崇拜已久的大佬,比如辉佬、胡雷等,让我很是激动。社区非常活跃,还有助教帮助开发者解决问题,对像我这样的零基础的人真的很友好,我好像忽然一下子就找到了AI入门的钥匙。

10月24日,周军参加飞桨组织的成都程序员节

现场与众多开发者互动

加入飞桨这段时间以来,我的个人生活和思维方式发生了巨大变化,我现在每天下班后第一件事情就是打开飞桨AI Studio看一看。工作上,我经常会不自觉地思考这个事情AI是不是能够解决?

我认为,AI在广播媒体行业是一种革新,可以让媒体传播制作变得更好。比如,AI可以帮助媒体资源管理库,进行音视频的语义分析;我之前尝试过做过一个AI主播,用了飞桨的套件和模型,虽然声音模仿上嘴型吻合得不是特别好,但能达到90%声音逼真效果;还尝试过开发字幕转换工具。

我现在实力还不够,就想着尽自己的能力多给在社区做点事,我希望自己能力强大时,成为一个贡献者,让飞桨变得更好。