当前位置:中国生活都市网 >> 看科普 >> 文章正文

百度的AI事件正在启蒙一代年轻人

发布于:2020-12-21

一提到“AI开发者”,大多数人可能会想到互联网大公司的“程”。他们生活在算法工程师、数据工程师等高调岗位,拥有名医甚至博士后的傲人学历,年薪百万。

如你所见,第三波人工智能已经进行了很久,逐渐从象牙塔跌落到社会的角落。但在大多数人的认知中,AI还有很长的路要走,它还是一些智力研究的产物,还是一部普通人摸不着的“天书”。

但是现实中发生的一些事情,超出了我们的预期。

埃隆马斯克在为特斯拉招AI人才时直言:“博士学位肯定不是必须的。我不管你高中毕业没有。”与很多人对教育和经验的执念不同,马斯克寻找的是对人工智能有“深刻理解”的人。

不仅仅是特斯拉的不拘一格,而是一群20岁的少年刚刚经历了一场AI世界的“奇幻漂流”,说明他们对人工智能的理解。

01 像看地图一样看新闻

大四学生罗云是武汉大学地理信息科学专业的本科生。他获得人工智能的机会始于今年年初的新冠肺炎疫情。

寒假期间回到家乡的罗云刚刚在床上住了几天,被班级里的讨论弄得很紧张。原来,他们离开学校几天后,武汉就因为新冠肺炎疫情而关闭了。罗云想知道那个熟悉的城市发生了什么,试图在社交媒体和信息平台上搜索所有与武汉相关的新闻,但发现网上有太多的谣言和虚假消息。如果他想进一步了解学校周围的情况,他只能在社交媒体上找到一些未经证实的内容。

由于地理信息科学属于计算机和地理的交叉学科,除了和地理有关的课程,罗运还自学了计算机编程,并且经常在国外的慕课平台上看一些人工智能的课程和案例。苦于查找武汉当地新闻的罗运萌生了一个大胆的想法:能不能将地图和新闻资讯进行结合,像看地图一样查看当地的新闻?

罗云与两位参加大学生创新创业大赛的小伙伴交流了自己的想法,三人一拍即合,决定打造一款面向地图的时空新闻互动网页应用。

该团队首先确定自己要抓取的权威可信的新闻源网站,然后使用Scratch异步爬虫框架智能提取新闻,在百度Feioar提供的深度学习框架支持下,基于ERNIE识别命名实体,结合百度地图等地理编码服务,利用PostGIS计算空间数据的规模和跨度,提取分词和词性。TF-IDF、LDA等算法用于文本的矢量化、词频分析、主题分析和相似性分析。最后利用飞桨GRU4Rec模型,根据用户行为顺序和兴趣区域推荐新闻。

经过四个多月的开发和测试,结合地图和新闻的网络应用程序正式推出。当将鼠标指向武昌火车站时,网页上弹出了长江网的最新消息,称武汉解除了对韩至湖北通道的控制,涉及武昌火车站、武汉火车站、汉口火车站。看着他的成就,罗云比任何时候都更想念这个熟悉的城市和学校。

不善言谈的他很快就和朋友们定下了下一个目标:目前他们正在给这个应用增加新的功能,逐步增加情感趋势面分析、舆情导向分析等功能,方便普通用户在地图上找到不同时间的新闻,帮助相关部门从新闻和人们的情绪中挖掘出社会热点和痛点。

02 告别垃圾分类的烦恼

在距离武汉700多公里的杭州,杭州电子科技大学信息工程学院的计算机专业学生杰今敏也在踏上人工智能的征程。

家住杭州的杰金敏,看到妈妈每天花很多时间对厨余垃圾、可回收垃圾、有害垃圾进行分类。然而,由于垃圾种类繁多,分类错误时有发生。社区必须派志愿者去监督每个社区。基本上,在居民刚刚把垃圾扔出去后,志愿者需要再把它捡起来放到垃圾桶里。

一些志愿者被放在垃圾桶旁接受检查,但每个人都有一种——的“幸运感”。毕竟,即使他们被错误地分类,一些志愿者也会被重新分类。每天看着志愿者在臭气熏天的垃圾桶里整理东西,这揭示了今敏心里有些不好的感觉。有什么方法可以帮助这些志愿者不用担心垃圾分类?

作为一名计算机专业的本科生,揭金民想要用人工智能来改变现状:倘若可以用计算机视觉技术对垃圾进行分类识别,居民们就能更轻松地完成垃圾分类,准确性也会提升,志愿者也不用再忍受恶臭翻垃圾桶。

杰今敏招募了两名软件工程专业的学生,以三人团队的形式实践自己的想法。杰今敏负责硬件设计。他想做一个三层智能垃圾桶。第一层用于垃圾识别,第二层用于垃圾处理,第三层用于存储不同类型的垃圾。另外两个合作伙伴负责系统后端和前端的开发。

分工敲定后,必须解决的一个核心问题是建立垃圾分类的算法模型。如果自己写一套图像识别算法,目前的水平和积累跟不上,会耽误产品成型的时间,错过最好的市场。幸运的是,团队找到了百度的EasyDL平台。EasyDL作为零阈值AI开发平台,拥有丰富的算法模型,包括图像分类、人脸识别等。算法模型终于有了“谱”。杰今敏和他的朋友们松了口气,立即专注于硬件和系统开发。

在一年的时间里,杰今敏团队收集整理了近2万张垃圾照片,其中包括大量袋装垃圾,EasyDL训练后识别准确率高达96%。硬件设计组装完成后,杰金民把智能垃圾桶放在自己的小区里进行试点。目前已协助用户完成近1000kg垃圾的分类,异常识别率控制在5%以内。

“这只是第一步。我们要推出智能分类垃圾桶的家庭版,尝试推出“代别人扔垃圾”的服务……”细心的杰今敏已经想到了未来的所有可能性。

03 解放高空中的补漆工

在风能资源最丰富的西北地区,风车立如林,不断将风能转化为电能。

然而,风扇的维护已经成为一个令人头痛的问题。西安电子科技大学的黄耀辉(音译)了解到,维修电风扇需要工人用绳子爬上天空,提着油漆桶来修补油漆。

小时候,她觉得这是一件冒险的事情。长大后她意识到冒险背后有一个可怕的风险:高空绘画通常在二级、三级甚至超高空作业,二级高空作业坠落死亡率高达40%;同时《工业卫生与职业病》指出7.2%的油漆工白细胞减少,18.3%有沙眼,22.8%心电图异常,17.8%视力下降.

作为西安电子科技大学创新创业实验班的学生,黄耀辉在心中一直藏着“解放”高空补漆工的想法,并在课余时间自学了人工智能相关的课程。一次偶然的机会,黄耀辉在学校的微信群中看到同学们在讨论飞桨,在好奇心的驱动下走进了深度学习的世界。

当黄耀辉开始热衷于深度学习时,他也遇到了一个好伙伴:左毅。当时,左毅正在团队中从事一项无人驾驶飞行器项目。他和黄耀辉沟通之后,大家很快就想出了一个新的点子:既然飞桨上有那么多成熟的算法模型,那么人工智能和无人机结合起来,让无人机代替工人在高空完成补漆工作,或许是有可能的。

团队讨论明确目标后,左毅作为队长,将无人机的工作分解为四个流程。第一步是检查锈斑和喷洒除锈剂,第二步是让无人机打磨铁锈,第三步和第四步是分别涂底漆和面漆。由于该团队在无人机检查和机械控制方面积累了一些经验,问题主要集中在图像识别和喷墨控制系统上。

团队在飞桨中调用计算机视觉模型,以空地联动的形式进行操作,即无人机将第一幅图像传送到地面站,地面站设置高效的识别设备,将数据再次发送给无人机。由于使用了可视化SLAM技术,无人机上的摄像头可以完成环境感知,不仅降低了硬件成本,还提高了野外作业的可行性。

目前这个项目已经在校园内进行了测试:无人机慢慢飞到灯柱上的电箱附近,准确的识别出电箱上的锈斑,然后一次打磨、上漆,越来越接近他们解放高空油漆维修工人的想法。

作为团队中的一员,出生在中国西北部并在那里长大的女孩黄耀辉看到无人机飞过时眼睛有点湿润:“虽然这仍然只是一场比赛,但我相信,通过我们的努力,那些工人总有一天不再需要冒着生命危险。爬到高空去工作。”

04 让濒危语言不再消失

远在英国南约克郡,谢菲尔德大学林赛多集团正在读博的徐坦彭也有着“科技好”的公益理念。

在2020年初的“国际母语日”期间,徐坦鹏在谢菲尔德大学人文学院听了一场演讲,得知在世界上记录的7000多种语言中,有400多种濒临灭绝,200多种处于濒危状态。“语言是文明的DNA”。当一些语言不再传承给下一代的时候,就意味着一个文明正在被人们遗忘。

经过培训的学生徐坦鹏发现,濒危语言的保护仍然是一项“劳动密集型”的工作,需要大量专家进行实地调查和收集数据。因为现在还在说濒危语言的人主要是老年人,很少有人能同时使用汉语和自己的语言,这使得人工抄写语料库非常困难。无独有偶,以自然语言处理为研究方向的徐坦鹏,也在关注低资源语言的词典生成,有着用自己的技能减少濒危语言保护工作量的想法。

Xutan Peng戏称自己是个话痨,所以对语言相关的工作有着天生的兴趣。然而现实问题的复杂度远超Xutan Peng的料想,尽管国内已经在少数民族语言保护上做了很多卓有成效的工作 ,可很多濒危语言的文字已经失传,只有语音留存,研究者甚至无法获知其背后所传达的语义。

但徐坦鹏发现,少数民族的语言材料主要集中在神话传说、民间故事、民歌和日常会话等方面,因此有可能构建一个现代汉语同领域语料库。当它们的语言材料相对相似时,可以通过对齐算法建立濒危语言与现代汉语的关系。

徐坦鹏首先获得了相关数据的授权,用PaddleOCR将相关论文语料库转换成文本,建立了业界第一个大规模的中文故事数据集。然后,从国际开源语料库数据库中找到苏尔、贾蓉、独龙族和撒拉族四种语言,并将母语者的录音转录成国际音标。

最后,徐坦鹏将少数民族语言词汇嵌入到一个高维语义空间,而汉语词汇则嵌入到另一个空间。基于双语词向量结构的相似性,通过正交映射将两个空间对齐,生成高质量的大规模双语词典。

目前,徐坦鹏已将导出词典提供给中国社会科学院研究人员进行内部测试。大部分单词和名词的翻译准确率非常理想,有效提高了少数民族语言的转录速度和濒危语言的收集速度。这个特别会说话的大男孩不忘强调:“你看,语言好有趣。”

05 AI人才培养需要闭环

看完这些故事,你有没有发现,这些年轻人并不是都经过培训的,有的甚至在开始这些项目之前对编程知之甚少?但他们也有一个共同点:有思想,善于发现生活中的痛点,希望通过人工智能技术解决。

好在百度飞桨和EasyDL降低了这些青少年进入AI世界的门槛,让他们略显稚嫩但充满活力的想法有了新的可能。

从好创意变成好应用,AI人才培养机制在其中起着关键的作用。虽然越来越多的高校开设了人工智能专业或课程,越来越多的政府和企业为AI人才开出了优渥的条件,动辄百万的年薪也切实激励着当下的年轻人,只是选出“千里马”所需要的不仅仅是伯乐,还要给他们一片可以自由驰骋的宽阔草原。

综上,说“闻鼓而思好人,谋大业而呼人才”是有道理的。而AI人才培养需要一个闭环的人才培养思路,需要政府、高校、企业共同努力,打通激励、培训、实训、竞争、就业的产业链。

至少在刚刚结束的中国大学计算机大赛——人工智能创意大赛中,免费的计算资源帮助他们把想法变成了现实,半年的实践经验让他们对自己想要解决的问题有了更深入的了解。

好在以百度为代表的AI头鹅已经开始行动了。

以上四个故事只是百度主办的第三届“中国大学计算机大赛——人工智能创意大赛”的一角。还有2200多个有梦想的学生团队,继续在各自关注的领域写自己的故事。就像上一届比赛中获奖的中南大学“爱知福宝”团队,获得了数千万的孵化资金,他们的项目已经连接到全国618家医院,帮助1万多名医生进行初步诊断。

事实上,“以赛促学”是高校AI人才培养的重要组成部分。百度打造的一整套AI人才培养体系已经初具规模:

对于高校,百度为AI人才培养、学习培训社区AI Studio和计算能力提供全套的教学和数据资源,共同构建专业课程体系,举办教师培训课程。它培训了来自近500所大学的1600多名教师;

对于企业来说,百度针对不同的技术水平创建了培训项目,如黄埔学院、AI快轨、AI私人俱乐部等,构建了深度学习专业加实际应用的课程体系。此外,百度还通过开展能力评估认证、举办竞赛等方式为人员培训保驾护航。

百度培养了100多万AI人才,未来五年将培养500万AI人才,为中国智能经济和智能社会的发展提供人才保障。

有理由相信,在百度等企业的推动下,会有越来越多的“少年”在AI世界里进行“幻想漂流”,用可触摸的物品解读他们的内心世界。

再来讨论百度对中国AI人才的贡献,恐怕不仅仅是培养高端人才的“黄埔军校”,更是无数优秀AI人才的“启蒙工厂”。