中国,是AI大国还是AI强国?

在深度学习框架领域,飞桨已经取得斐然成绩,打破了谷歌、Meta的垄断。”作者|代聪飞编辑|胡喆近日,斯坦福大学发布了《2022年AI指数报告》。这份长达190多页的报告涵盖研发、经济、教育等各个方面的AI发展成果。根据这份报告,2021年,中国AI专利申请量占全球总数的52%,专利申请数量居世界首位。但是,在授权专利数量上,仍然落后于美国。这个结果并不意外,作为计算机科学的发源地,美国在AI领域始…

中国,是AI大国还是AI强国?

在深度学习框架领域,飞桨已经取得斐然成绩,打破了谷歌、Meta的垄断。

作者 | 代聪飞

编辑 | 胡喆

近日,斯坦福大学发布了《2022年AI指数报告》。这份长达190多页的报告涵盖研发、经济、教育等各个方面的AI发展成果。

根据这份报告,2021年,中国AI专利申请量占全球总数的52%,专利申请数量居世界首位。但是,在授权专利数量上,仍然落后于美国。

这个结果并不意外,作为计算机科学的发源地,美国在AI领域始终独树一帜,其它国家难以望其项背。但中国的发足追赶也是不争的事实。

在整体落后的背景下,中国AI如何实现赶超?是单点突破还是多点开花?是在商业落地领域突进还是在工程技术角度比拼,这些问题都有待探讨。

不过,在深度学习框架/平台这个基于底层创新,又服务于产业落地的交界领域,似乎给我们提供了一条中国AI如何赶超的良好视角。

1

是AI大国,但还不是AI强国

1956年,美国汉诺斯小镇宁静的一所大学内,包括诺贝尔经济学家奖得主赫伯特·西蒙在内的一众知名科学家聚集一堂,召开了一场漫长的会议,讨论一个在当时的人们看来天方夜谭的话题:用机器模仿人类学习以及其他方面的智能。

这就是后来广为熟知的达特茅斯会议,这次会议时间足足长达两个月,学者们却仍然没有达成共识,但为讨论内容起了一个名字:人工智能(AI)。

时间过去66载,曾经讨论的话题有许多可能已然成为现实,AI已经从逻辑推理、专家系统来到机器学习、深度学习的第三次发展浪潮,迎来发展的爆发期。

客观的说,最早提出AI理论的美国在整个AI发展的全球化潮流中,在基础技术创新、商业化落地等领域,依然独占鳌头,在学术研究、实践应用等方面也均有着他国无可比拟的水平。

不过,中国也有独特的优势。

很多人都知道,AI研发的三要素是算法、算力和数据,但这只是技术意义上的要素。更重要的要素,其实来自于需求和场景,在这方面,中国有14亿人口的庞大国内市场、有不少世界级的超大规模互联网平台、有大量来自传统产业转型升级的新基建需求,它们决定了除了美国之外,再没有任何一个经济体拥有与中国竞争成为AI创新的世界级策源地的底蕴,包括科技发达的欧盟。

的确,关于AI,我们有很多很好的政策,也有不错的数据和成绩。

比如,早在2016年,“人工智能”一词就已经被写入我国“十三五”规划纲要。这之后,相关利好政策频出,AI企业的发展随之进入快车道,融资数量和金额都在快速增长。

例如,2016年以来,中国AI投资领域每年融资事件平均约1000 起。在过去的2021年,中国发生了1132起相关行业投融资事件,累计金额3996.4亿元,较2020年增长51.44%,再创新高。

又比如,在AI最为核心的算力水平,中国的发展速度同样不容忽视。有报告显示,过去一年,各国算力评分均有提升,但中国增幅最大,以总分70分进入全球领跑者行列。

还有,中国可能是发表AI会议出版物数量最多的的国家,已经成为AI专利“账面上”的全球第一。

但这不是我们盲目乐观的理由。

AI毕竟是要通过应用才能发挥实际效能的。

而根据斯坦福大学发布的《2022年AI指数报告》,美国在授权专利数量上占全球总数的40%,排名世界第一。

这个数据的意义是,获得专利授权才能“证明你的专利实际上是可信并且有用的”。这有点类似于出版物数量和被引用次数的情况。也就是说,中国的研究成果很多,但在真实落地上的影响力和美国仍存在一定的差距。

某种程度上,这当然是因为美国在AI以及整个计算机科学领域,有着不是一星半点的先发优势。

但某种程度上,即使在美国,AI也是极少部分有前瞻精神的学者,在公众普遍看不到AI潜力的情况下,坚持努力、筚路蓝缕开创的结果,这种精神才是值得我们学习的。

回顾历史,深度学习的发展实际上经历了从边缘化课题走向主流技术的路径。“教父”级人物杰弗里·辛顿对神经网络的探索最早可以追溯到上世纪80年代初期,当时的AI不仅是边缘,还是低谷。但正是少数人的努力,比如像辛顿这样,将神经网络带入到研究与应用的热潮,将“深度学习”从边缘课题变成了谷歌等互联网巨头仰赖的核心技术,使人工智能发展到今天这般炙手可热。

更值得一提的是,辛顿早在2013年就意识到企业可能比学校能提供更好的AI研究场景和数据、算力,于是他在2013年进入谷歌,由此推动了一系列AI技术的产品化。

但是,对于矢志成为人工智能全球中心的中国来说,追赶也同时开始了。

2

为什么是深度学习框架?

从表面上看,2015年-2016年是AI技术走进公众认知的一个分水岭。

2015年的年尾,谷歌对外发布了迄今为止仍然占据深度学习主流框架位置的TensorFlow,其支撑的AlphaGo在2016年3月的人机大战中以4:1战胜世界围棋冠军李世石。深度学习的概念由此开始被越来越多的“外行人”知晓,更新迭代也日新月异。

杰弗里·辛顿曾在一次演讲中讲道:“深度学习以前之所以不成功是因为缺乏三个必要前提:足够多的数据、足够强大的计算能力和设定好初始化权重”。而现在,这些困难正在被逐渐抹平。

业界有一句名言是,搜索引擎是现有的最大的人工智能项目。这一点,在中美两国都得到了确证。

早在2011年,谷歌已经通过Google Brain(谷歌大脑)内部孵化了一个叫做DistBelief的项目。随后,包括杰弗里·辛顿在内的大批科学家、工程师对其进行改造,才有了后来声名鹊起的TensorFlow。

无独有偶,在中国产业界,最早孕育出人工智能特别是深度学习框架的,也是搜索引擎公司。

在现有的记录中,百度自发应用人工智能技术最早可以追溯到2006年,深度学习这一波强势崛起后,百度也是国内最早能够“看到”深度学习技术及应用的潜力的,某种程度上,百度同样属于早期的深度学习开拓者之一。例如,2013年,百度率先建立全球首个专注深度学习研究的深度学习研究院。

这里要重点讲一下的是,为什么百度在AI研发中,逐步选择了深度学习框架/平台作为核心突破口。

事实上,百度最早的应用人工智能,并不完全是自上而下的,相反有某种自下而上的趋势,人工智能犹如火种,在百度的不同体系、架构、产品中,逐渐出现了不同层次的应用。

可以说,深度学习框架是绝大多数人使用人工智能的起点,再往前则是通过手工搭建模型,这是属于部分科学家和高级工程技术人员的专利,它们太难也无法推广。

当时百度的内部,不仅在使用不同来源的早期深度学习框架,甚至是不同部门都开始了自行研究深度学习框架。

“研发随着业务走”也是一种常态。但深度学习的星火燎原,引发了百度高层的关注。

在超大型互联网平台中,不同业务、不同部门使用不同的技术底座是很常见的事情,部门墙也是很难穿透的。但百度这次做了一个决定,要把深度学习的技术底座统一到一个框架中来,实现集中资源重点突破。

为此,百度梳理了各个部门的需求,从某种程度上来说,这些部门的需求其实就代表着当时中国产业界对AI应用需求的最高水平,而汇集并设计一个可以包容这些需求的框架,则可以解决许许多多个企业、行业降低AI应用门槛的问题。

相较于很多出自高校、历史久远、演变曲折的框架,飞桨一开始就奠定了“产业级”深度学习框架的基础。

基于已有的技术积累,百度在2016年正式对外开源PaddlePaddle框架;而三年后的2019年4月,PaddlePaddle正式发布中文名——飞桨。

而在美国,2018年时,在GitHub的活跃度、Google上的搜索量、知名科技媒体Medium上的文章数量以及arXiv上的论文数量,TensorFlow所占比重都是最多的。

同年,也是2018年,Caffe2代码并入PyTorch ,Facebook主力支持的两大深度学习框架合二为一,PyTorch的发展驶入快车道,如今,PyTorch已经在学术论文圈形成了绝对的优势。据统计,在Hugging Face上有85%的模型是PyTorch独家的。

百度在观察到这两大世界级框架的各自长短板后,毅然做出了一个重要的决定。

3

为什么是PPT?

飞桨能够成为Pytorch和TensorFlow之外的世界深度学习框架第三极,真正的弯道超车来自一个重大的决定。

美国的两大框架一个在学术圈受欢迎,一个在产业界受欢迎,而飞桨要形成差异化致胜,并尽可能把学术界和产业界的精锐集中到一个生态中来,唯有走一条不同的路——从单纯的产业级框架,变成一个打通产业界和学术界藩篱的通用型框架,它既是产业级的,也同样要是学术界深度欢迎和拥抱的。

为了一切从实际出发,飞桨研发人员经常深入到QQ群接受开发者反馈的问题,及时予以解决。这种把开发者需求放在首位的低姿态,既帮助飞桨获得了不少开发人员的拥趸,也促进了飞桨的快速发展。截至2021年底,飞桨PaddlePaddle已经汇聚406万开发者,创建了47.6万个模型,服务15.7万家企业。

从市场份额看,IDC发布的报告显示,在中国深度学习平台市场,2021年上半年,百度的综合份额持续增长,已经超过Google和Meta(Facebook),跃居第一。

《2021中国开源年度报告》也提到,2021年GitHub中国项目活跃度Top30中,飞桨占据5个项目,其中飞桨框架位列榜首。

这使得我国AI技术开发者和使用者不再依赖于国外平台,同时也为进一步培育自主可控的AI开发应用生态奠定了扎实的基础,更是中国在计算机科学的基础领域非常突出的世界级成就。

至此,飞桨PaddlePaddle、PyTorch、TensorFlow形成三强鼎立局面,深度学习框架步入“PPT”时代。

但这并不是故事的终点。

随着深度学习的理论研究日趋成熟和深度学习框架的快速迭代,AI技术的应用和普及进入加速期,但在具体实践应用过程中仍存在许多痛点。

比如,人工智能模型的生产成本仍然很高,而在企业实际应用中也存在适配等各种疑难杂症。就此,飞桨在模型库中为开发者提供了一套全流程指导。从前期适配到后期运行,飞桨都提供了相应方案。

具体而言,在前期数据处理、模型选择时,飞桨能够通过自己的方式帮助企业选择一个合适的场景。在此之后,飞桨还会对部署芯片的效率进行跟踪,在出现准确率不高等问题时快速提供反馈指导。

换句话说,这套指导不仅仅是一个学术界的算法,而是真正根据行业需求所梳理设计的环节。

此外,由于某些行业的特殊要求,如零件质检对速度要求非常高,有限的算力很难同时在速度和精度上达到极致。为此,针对这些痛点,飞桨通过对算法模型的优化设计了PP系列模型, 实现精度和性能两者间的平衡。

截至2021年,飞桨已经发布13个PP系列模型,官方提供的算法模型库更是已经超过500个。在训练这些模型过程中,飞桨总结了自己的一套方法论,在一定程度上,加快了训练速度。

百度AI技术生态总经理马艳军告诉雷峰网,深度学习框架要解决的一个长期研发问题就是提升训练效果。为此,飞桨做了很多工作去提升训练性能。

据马艳军介绍,训练性能主要包括两个层面,一是跟训练芯片间的联合优化,充分发挥硬件本身的算力;二是针对深度框架本身执行调度的优化。同时也结合模型设计进行全链路优化,最终实现提高训练速度的目的。

可以说,从始至终,飞桨在每一个步骤的设计、优化上都为保障后期训练速度提供了助力。

经过努力,飞桨大约70%的模型训练速度已经快于业界最快水准。这些模型主要包括两类:一是通用模型,比如芯片适配是在所有地方都会应用到的。二是基于飞桨视角,所发现的需求量大的应用场景。例如,图像分类在物流、电商等场景应用非常普遍。

飞桨在发挥硬件算力性能上也几乎发挥到了极致,得到了包括英特尔、英伟达、ARM等诸多芯片厂商的支持,同22家国内外硬件厂商完成了31种芯片的适配和联合优化工作。值得一提的是,不少硬件厂商还主动在开源社区为飞桨贡献代码。

像英伟达这样的深度适配芯片,飞桨更可以将其所能用的算力充分发挥出来。

在深度学习框架领域,飞桨已经取得斐然成绩,打破了谷歌、Meta的垄断,成为中国深度学习平台名副其实的行业第一。

当然,不可否认,到目前为止,深度学习框架适配仍较为复杂,有些行业的低频长尾问题尚不能通过AI得以解决。但这正是飞桨一直在努力解决的问题,而且也的确已经小有成绩。

马艳军坦言,“尽管深度学习框架属于高投入、长周期、抢生态的竞争,但已经得到国家和企业的战略性支持,是开启下一个AI时代的钥匙。”

人工智能的下一个十年,飞桨以及中国AI将书写怎样的传奇,我们不妨拭目以待。

END

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2022年4月29日 下午12:55
下一篇 2022年4月29日 下午12:56

相关推荐

  • 3000米一二三级运动员标准(3000米12分钟什么水平)

    对男运动员来说,3000米的国家一级运动员成绩标准是快于8分35秒00;对女运动员来说,3000米的国家一级运动员成绩标准是9分50秒00至9分20秒00之间。 并非任意一项比赛都具备认定一级运动员的资格,除了在可授予国际级运动健将/运动健将的比赛中达到成绩标准之外,在全国体育传统学校联赛等田协赛事中达到成绩标准,以及各省(区、市)体育行政、教育行政部门主办…

    2022年12月21日
    8270
  • 阜阳疫情防控今天最新消息哪里封了?新增了多少例

    据今天最新发布的疫情消息,9月27日,阜阳市颍州区在管控风险人员中发现2例核酸初筛阳性(两人系夫妻,王店镇桃花村人),经市疾控中心复核为阳性。下面,我们一起来具体了解一下吧。阜阳疫情最新消息2022年

    2022年10月5日
    460
  • excel公式怎么输入表格里(怎么给表格单元格设置公式)

    Excel表格中经常需要计算,我们常说用函数用公式计算。那怎么把公式设置到表格中呢?对于新手来说一脸懵。 我整理了三种方法,一起看看吧! 以给单元格设置求和公式举例说明: 假设目标:计算B2和B3的和,显示在B4中,那就要给B4单元格设置公式。 这样设置公式: 方法一:直接输入=B2+B3 注意: ①要以=开头,后面按计算逻辑输入即可。 比如求平均,我们可以…

    2023年12月28日
    40
  • gmv是什么意思(gmv和销售额的区别)

    GMV,是电商行业常见的一个术语。GMV (Gross Merchandise Volume) 电商网站定义里面是网站成交金额。 其实GMV是没有统一标准定义的,每家都可以自己定义统计口径的。电商gmv和营业收入的差别有哪些?Gmv计算公式和影响因素。 一、gmv是什么意思? GMV只是一些电子商务平台常用的一种称呼,像淘宝、京东、天猫等知名电商,常常用GM…

    2023年4月14日
    120
  • 安南子是什么的别名(安南子的功效与作用)

    随着时代的变迁,社会上出现了许多的诱惑,尤其是在各种应酬的场合,烟酒都是避免不了的事情,所以现在抽烟几乎已经成了每个男人都会有的一种习惯,有的人的烟龄甚至长达十几年。 “戒烟一点都不难,我上个月已经戒了十多次了”,这个笑话相信很多人都听过吧,也侧面反应出了想要戒烟有多困难,长期抽烟不仅会影响自己的身体,还会影响到周边人的身体健康。 虽然大家都知道抽烟伤身,但…

    2022年12月9日
    450
  • printscreen键是什么意思(电脑键盘上实用的8个按键功能)

    电脑键盘是我们日常生活中最常用、接触最多的电脑外设。很多人只知道电脑键盘能够打字,其实键盘上还有很多实用的按键,可能你还不知道,今天就让我们来一起学习一下吧! 电脑键盘 一、键盘上不常用的几个按键,功能强大且实用 1.power键 台式电脑正常的开机通过主机开关开启,通过软件关闭电脑。其实键盘上的power键也是可以关机的。默认设置的power键其实就是Wi…

    2023年2月10日
    320
  • 微软 Win11 全新搜索界面上手体验,搜索准确性仍是问题

    IT之家4月27日消息,Windows11搜索新界面在2022年4月的累积更新中向用户推出,带有一个名为“搜索亮点”的功能,旨在突出显示新鲜内容或必应的热门话题。根据WindowsLatest的上手体验,全新的Windows11搜索界面拥有了更多功能,可以查看插图、发现新闻等,搜索界面正在演变为更像一个开始菜单。例如,用户可以在搜索页面找到应用,而无需在任务栏或开始菜单中搜索应用。不过,Windo…

    2022年4月27日
    1140
  • ppt背景图形怎么删除(小白都在学的6个PPT制作技巧)

    在日常的学习和工作中,我们都会遇到需要制作PPT演示文档的情况,而大多数人对于PPT的制作并不熟练,无法流畅、快速地完成PPT的制作。今天,我就来教大家几个PPT的制作技巧,帮助大家快速搞定演示幻灯片! ①统一字体格式 PPT制作自然少不了文本的插入,很多时候我们都会先插入文本,再进行文本格式的设置。但大量的文本想要一键实现字体格式的更改时,又该怎么操作比较…

    2023年8月23日
    60
  • 奥迪q5缺点有哪些(奥迪Q5的优点和缺点总结)

    介绍 奥迪印度的阵容在过去几年发生了变化。一度,这家总部位于因戈尔施塔特的汽车制造商只在该国销售 A8 L、Q8和RS Q8旗舰产品,仅此而已。加快步伐后,新奥迪迎来了如何!奥迪现在有四种电动产品,除了一些热销和重型 RS 打孔器以及大多数传统 Q 系列之外,还有几款运动型轿车。 推出的最新成员是更新后的Q5,我们已经推动了它——这是第一次驾驶审查的链接。现…

    2022年12月6日
    390
  • 苹果iPhone 13卖爆了:销售额占市场70%,小屏销量惨

    4月22日消息,据外媒9to5Mac报道,消费者数据研究机构CIRP最新的报告显示,iPhone13系列成为近年来最畅销的一代iPhone产品,第一季度的销售额占比高达71%,超过去年iPhone12系列的61%。看来,iPhone13系列是真的香啊。CIRP创始人JoshLowitz表示,iPhone13系列占据了我们在许多季度中看到的最大份额,本季度销售额占比接近四分之三。其中,iPhone1…

    2022年4月26日
    950

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信