张宏江博士:AI的本质与机遇是什么?投资决策靠的是什么?
源码资本在2017年码会上宣布,前金山CEO张宏江博士加盟源码资本任投资合伙人。张宏江博士在2017年码会上分享了重磅观点“AI的本质与机遇”。
张宏江博士曾为前微软亚太研发集团首席技术官、微软亚洲工程院院长、金山软件CEO,是世界多媒体研究领域一流的科学家,是计算机视频检索研究领域的“开山鼻祖”,获得过IEEE(美国电气和电子工程协会)和ACM(美国计算机协会)两大计算机专业协会颁发的重大奖项,是第一位也是迄今为止唯一同时获此殊荣的华人科学家。
张宏江博士在2017年码会的演讲全文:
今天,我们从AlphaGo讲起。我们的议题包括这一波AI潮流的原因是什么,机器学习的驱动燃料——大数据的发展,深度学习的基本原理,AI技术的发展给我们的日常生活,给我们的创意以及工作带来什么样的影响。最后是投资AI领域有什么样的机会以及陷阱,尤其是陷阱我会多讲。
从AlphaGo说起AI潮流:
算法+计算力+大数据
典型的深度学习算法就是深层的神经网络;
AlphaGo在一场比赛中消耗的能量是人的300倍;
数据爆炸在过去十年改变了我们的生活。
这一波人工智能的热潮其实是从去年AlphaGo与围棋大师李石世对决开始的;虽然我从来不会下围棋,但我下了赌注赌AlphaGo会赢。
为什么我会下这个赌注?我们读过关于AlphaGo的文章,其实它是一个典型的深度学习的系统,它用了深度的神经网络,还用了深度学习里面的强化学习,半监督学习,还用了蒙特卡洛搜索的方法。
整体来说是经典的技术和新的机器学习算法结合在一块,从而能够提高算法的性能,使它的学习能力更强。通过增加深度学习网络的隐层神经元数目从而建立起很好的学习能力,吸收知识的能力。这是算法上。
其实在这个背后还有非常重要的两条,这是过去几十年计算机发展带来的结果。
第一条,互联网过去20年的发展带来了大数据,而且是高质量的大数据。以AlphaGo为例,在它跟李世石对局之前已经跟人类六到九段的棋手对决过一万六千多次,这个中间他获得了超过3000万的布局点,这个对于它的能力提高非常重要。它跟自己下棋的过程中又获得了3000多万个布局点,同时形成它的决策网络。这是我今天讲的重点,就是高质量大数据这一块。
第二条,高性能的计算资源。如果我们看一下最终AlphaGo拿出来跟李世石对局系统用了1920个CPUs,超过280个GPUs。这是什么意思?我们知道一个衡量围棋大师的标准是一到九段,而更细的平级是用ELO这个数。
用了1920个CPU,280个GPU以后AlphaGo的能力,ELO数,从一开始两千多到了三千多,我们看李世石的数字是3500个,其实已经相当接近了。正是因为有了高质量的大数据,有了高性能的计算资源,有了新的学习方法,使得AlphaGo能够轻松地战胜了围棋大师。而且我们说到一点是,当李世石艰苦赢了第四局之后,这个时候AlphaGo当天晚上又自己跟自己下了一百万次。
为什么这次AI的浪潮跟前两次不太一样?今天我们谈的AI其实谈的是大数据小的新的算法。计算资源这些年发展下来,随着摩尔定律的指引,计算性能增加是快速的成指数的增加,同时计算的成本也是随着指数往下走的,计算资源越来越强,价格越来越便宜,从而我们可以廉价地利用大量计算资源。
过去十年的另外一个根本性的变化,就是如果你自己不想买计算设备,你可以用云计算。我们看云那一块,大数据的处理能力在云计算的平台上已经以标准云服务的方式提供给大家,大家可以很方便低成本地使用。这是另外一个在计算方面的进步,根本改变了在机器学习只是在大公司来做的状态,今天小公司可以用云计算来做了。
回头来讲数据,这是我特别喜欢的题目。在AlphaGo之前,我就一直跟大家讲大数据,当然心里面是想推广金山云。但是大数据确实在过去十年内改变我们的工作、改变了我们的生活,改变了我们的思考。
IDC有过一个报告指出,在2013年的人类产生数据是4.4个ZB,到了2020年的话这个数字将会增加到44个ZB,增加10倍,年增长率是40%。今天每4小时沃尔马用户产生数据超过2.5PB,每天Twitter产生推文有5亿条,今天今日头条的用户请求超过60亿次,每天头条处理数据量超过6.3PB,这是每天人们产生的数据。假如说这些数据又有很好的跟踪和标注,这些数据可以驱动人工智能,驱动人工智能的算法。
大数据:机器学习的驱动燃料
人脸数据库的进步大大提高了计算精度;
Jim Grey的科研四范式:从观察、实验到计算模型,到数据推动的模型;
大数据正在成为企业AI的标配。
讲一个人脸识别的例子。
今天大家觉得人脸识别已经过关了,一系列的公司在人脸识别上做的比人的识别率还要高。这个功能在手机上也已经做的非常好。之前一个人拍了很多照片,开始找这些照片的时候就发现比较麻烦了,但现在你想找某一个人,可能需要记住什么时候照的照片。但更方便的是记住了和哪些人照的照片,通过识别人脸能使得找照片变得非常容易。这种功能是我们20多年前的梦想,今天在手机上就可以做成了。
这是我手机上的一个屏幕,我自己的照片,我太太的照片,小孩的照片都在这儿。以前我工作的老板雷军照片也在上面。我一点,所有雷军照片全都出来了。我想看某一个具体的照片,这是雷军和戴尔电脑创始人Michael Dell的合影,还有和Dell团队的其他人的合影。我们看到手机把这些人名字自动标出来了,这个人是谁,那个人是谁,以后他所有的照片进来就全部能够识别了。这个在今天的品牌手机上都提供了这种功能。
我20年前在惠普实验室申请过一个美国专利。这个专利的内容恰恰就是我刚才所说的那个整个流程:拍了新的照片以后把它的数据库照片进行比较,从而识别出这个人是谁。在20年前我们很清楚移动设备计算能力有限,我们觉得这个处理的能力应该是分布式的计算,今天我们叫做云。20年过去,现在恰恰把20年前的事情变成现实,这个中间可以说是算法的进步,也可以说是计算资源的进步。
我实际上想跟大家说是人脸数据库的进步。
在20年前做人脸的时候,我们手里面拿到几百个标准的照片,今天我们拿到上亿张的照片。最早90年代的时候你只有几百个人,几百张照片的数据库,90年代末2000年的时候到了上千张、上万张照片,从而可以看到识别率的提高。到了工业时代,也就是5、6年前谷歌、Facebook分别用深度学习的方法做人脸识别,做训练的数据量比以前增加了非常多,使识别精度增加。
当用户的数据大量增长的时候,同一个算法的识别的精度也在快速的成长。而且当我用的计算量,CPU用得多的时候。性能也有快速的提高。所以这再次证明了刚才的观点,数据本身可能比算法还要重要。或者说没有这么多数据的时候根本不可能想象深度的神经网络。
再难的事情到了中国人手里面就有改善,世界上没有任何一个地方像中国有如此多的摄像头,如此多的头像和身份证的照片,就形成了中国的优势。今天不是两亿张照片,是几十亿张的照片,上亿被标注的人。只有有了大量数据之后你才可以用深度神经网络,才可以把这些内容、这些信息提取出来。
今天人脸识别的这些公司已经远远超过了人眼识别率,而且在世界上走在前列。当你在一张照片跟数据库进行比较这个人是不是你的时候,这种精度已经到了万率级的误差。基本上用摄像头以及算法,在中国最好什么坏事都不要做,哪怕在你的汽车里面,在加油站的时候拍了一张你的手放在不该放的地方,很快就会被传播出来,识别精度如此之准确的。
一年多以前微软亚洲研究院的孙剑带领着团队用了152层的神经网络作出了超过人类的图象识别精度的算法。再次想跟大家验证的是,当我们模型复杂度刚刚开始增加,从8层到152层的时候,我们看到计算量增加,看到持续的训练数据的增加。在2012年8层神经网络的时候,相应的神经元超过65万个,连接超过6亿。152层网络的时候神经元到了2200万,因为有新的算法,但参数调整更加准确,因为它的连接可以看到有113亿,我们大脑里面神经元的突触链接应该是一百万亿的。
人工智能的进展在很大意义上是从原来的传统建模、制定规则到今天依赖于数据机器学习的根本转变。这种转变恰恰是因为我们今天有了数据,覆盖度越来越好,精度越来越高,从而我们对模型的依赖比较低了,或者是说再复杂的模型都有足够数据训练。
过去的传统AI的算法或者是神经网络之所以不能够达到今天的精度,很大程度上是因为我们没有非常好的数据,从而依赖于某种模型,依赖于某种算法。在今天,我们已经在很大程度上覆盖整个样板空间的时候,我们数据如此之大,从而使得我们原来非常困难的问题,今天解决的非常好。
不同的算法的性能会随着数据量变化产生的变化,当数据量增加的时候它的精度也在迅速提高。但是你可能会问一个问题,是不是现在我们有足够多的数据,从而我们人工智能就能够覆盖所有的场景?去年发生第一起特斯拉伤人的事件,说明即使特斯拉这样每天有几十万辆车在路上跑,但是数据依然不够,依然在有些情况下出现死人的事故。
如果做数据库的人不知道Jim Grey,那基本上不应该跟别人说是做数据库的。Jim Grey他在十多年前就提出了人类在做科研的四个不同的范式。过去最早的纯粹基于观察和实验,百年前的理论模型,几十年前开始的计算模型,到今天数据推动的模型。过去十年大数据进展非常快,大数据已经开始在企业里面大规模的进行运用了。
美国一个咨询公司调查了300家3000人以上的公司,基本上60%的IT公司都在使用大数据了,只是说使用层次不一样。最早期是统计发生了什么,后来分析发生的事情,到今天预测怎么样发生。未来,大数据将洞察什么样的决策是好的商业决策,再进一步的认知真正落实到行动上,也就是自我学习的能力了。
英特尔这样老牌的公司今天在疯狂并购做AI或者创作数据的公司,比如说两个月以前以天价并购了一家以色列公司Mobileye。原因很简单,英特尔认为汽车其实是人类生活中能产生大量数据的设备,这些数据能够帮助数据使用者给人画像、判断一些商业应用。而这一切产生的过程、处理的过程由英特尔控制,这意味着它控制了另外一个新的平台,这是为什么英特尔在这方面投入这么大的资本。
讲完了计算和大数据。再回到一开始的所说的算法的进展。
深度学习的基本原理
大数据驱动的深度学习方式,是机器自主学习;
深度学习第三次浪潮的特征:大数据+强计算+新算法。
AI做了60年,终于迎来了第三次浪潮,这次浪潮看起来比前面两次浪潮来得更猛烈,而且解决的问题比以前更多。很重要的是,我们用的深度学习的方式与传统的专家系统方式有很大的不一样。专家系统的方式是人总结规则,然后把规则交给机器,机器来开始利用这个规则面对使用场景。深度学习方式,大数据来驱动的是机器自己来学习的。好处是机器本身具有学习能力,所以可以较容易地从一个应用扩展到另外一个应用。
过去的十年,恰恰是深度学习迅速发展的十年。2006年Hinton在Nature发表文章,标志了深度学习这个词诞生。2010年随着大数据的爆发,深度学习热潮开始兴起。2012年Hinton这个团队用CNN模型以超过第二名10个百分点的成绩夺得当年竞赛冠军。到了2016年的AlphaGo,人们对深度学习的能力没有怀疑了,深度学习将会改变人类,这是一个新的时代的到来。
深度学习,到底是什么样的东西?神经网络这件事其实在第二次浪潮(80-90年代)就已经开始了,大家已经用过了,80年代-90年代初,神经网络泛滥的一塌糊涂。那个时候数据量不够,就是输入层、输入层、隐含层。另外一个根本改变是今天的设备、速率如此之强大。
为什么深度学习方法不一样了?首先是一开始的原理就是神经网络,类似大脑的思考原理。人类大脑大概有1000亿个神经元,在这些神经元之间有超过一百万亿的连接。神经元的数字还有连接的数字,是人智力很重要的标志。一个具体的神经元就是有一个核加上一个突触链,我们根据这种原理做模拟神经元。并且将它跟别的神经元的连接。经过一个非线性的函数,从而转成一个输出。输出的信号就是你所需要的结果。当神经元多了的时候,或者层数多的时候显然需要的训练数据就要更多。
为什么大数据实际上是深度学习驱动力?以前模拟系统来做的神经元,用物理模拟机器来做这个复杂度,不可能做到一亿的神经元,不可能做到一百万亿的连接。但是今天我们用计算机能够做到。深度学习是什么意思?很简单,深度学习就是层数比较多的神经网络。每一次训练你输出一系列的数据,当实际输出和目标函数有一定的差距,这个差距反馈回去再进行训练,这是整个循环的过程。
AI的发展与影响
AI的应用与未来:辅助人,代替人,超越人;
机器将造成未来社会出现90%的闲人,但机器难以替代资本家、艺术家和手艺人;
机器在感知上超越了人类,但在认知上还要5-10年。
讲完深度学习,我们可以想像当神经网络增加到152层的时候它的复杂性是什么样的增长。这种增长使得今天的AI,今天的机器学习不光是能够辅助人,而且很大程度上会代替人,未来还会在很大程度上超过我们。也许这是我们今天不愿意接受的。
未来AI会超过我们。到底怎么样超过?其实我们想象一下人工智能今天确实能够做很多人类能够做的事情。原因是为什么?人类可以像AlphaGo一样一晚上下一百万盘棋吗?能够像特斯特收上百辆的车同时收集数据并进行同时学习吗?这做不到。同样今天人类不可能对遍布于全国各个火车站,各个机场的数据同时进行处理,也就是说规模你也比不上。
人工智能会代替人、超越人是时间问题。不光是这样,机器学习在一些场景做的比人还好,因为人通过观察、通过思考判断出来的东西,人工智能通过学习很大程度上比你做得快。AlphaGo已经完全展示出了,人们在围棋这一点上是已经被人工智能打败了。
投资决策、政策、规划、战争沙盘推演这些很大程度都是靠经验的。今天从AlphaGo上看到的,人工智能在这些场景里都会超过人类,这是因为机器本身的自我学习的能力已经非常强大。像开车、滑雪、画画、拉提琴这些不可能通过看手册就能学会的事情,人工智能也已经超过了人类。其实我们自以为很了不起的东西,人工智能看的比我们要透彻。
前一段AlphaGo隐姓埋名跟人类下棋,世界排名第一名的柯洁下输了后感慨地说人类三千年的围棋文化只是接触了围棋的皮毛。我们以前下围棋,人类的思考实际上只是看到一个本地的最优解,不可能翻山越岭去看,但是AlphaGo可以看到山外还有山。是因为它的数据处理能力比我们强,所以它学到了这一点。人类以后再也不可能赢AlphaGo了。这就是残酷的现实。
举一个微软研究院的例子。在这个例子里,机器看到Stop Sign标志,会描述出这是在一个城市边上有这样一个标志,有红色,立柱,与交通相关等等标签。这个系统希望能看图讲故事,不是看图识字,是识图讲故事。
这里有另外一个例子:这幅照片是一位妇女在厨房准备食物。第一个描述是一个妇女在厨房准备食物。第二个描述写的是,一个妇女在厨房水台边上准备一份午餐或者早餐。第一个是机器学的,在这一点上机器已经超过了人。你可以说这个人不会讲故事,但是至少机器能够讲出比他还好的故事。当然了,这还是属于探索的阶段。
据说在AI的浪潮下最安全是考古学家。可是这个社会上考古学家也不需要太多,工资也不会太高。男怕入错行,女怕嫁错郎。随着这些的变化,未来哪些工作会被AI取代,社会将是什么样的?
全球化是在全球范围内寻找最廉价完成某一项制造的过程,于是全球化导致了两级分化,导致了跨国企业效率不断提高,也导致了包括美国在内发达国家蓝领工人的失业。AI是否会加剧这个趋势?
未来可能会有两种人,一种叫神人,一种叫闲人。问题是90%以上的是闲人,这怎么办?其实去年瑞士的国家有一个议员提出了,不管工作不工作每个人先发三千法郎,工作再拿另外的钱。瑞士人还是比较冷静,全民公投没有通过。未来可能只有三种人能够对抗AI,资本家是没有问题的,未来仍需要资本运作。另外就是艺术家和手艺人,这类技能机器暂时不能学过来的。当然大部分人很难做到这三种人。
人工智能的局限在哪儿?强AI(GAI)依然道路漫长。机器在感知上已经超过了人,但是认知可能还有5-10年甚至更长的路要走。
深度学习的方式,有没有问题?其实有一个很大的问题,事实上是人们给自己创造出来的一个问题。人工智能或者机器智能是机器通过观察体验来学习,机器本身可以对自己进行编程,程序员不再需要写命令解决问题,而程序会根据示例数据和期望输出生成自己的算法。
今天在很多领域已经往这些目标行进,第一个案例,比如Nvidia无人驾驶车,不是靠程序员指令走的,完全靠观察人的行为,观察人们开车的行为来确定自己驾车方法。第二个案例,在纽约一家医院开发了一套系统,叫做Deep Patient,医院只给了它70万个病例,然后这个系统从70万的病例中学习,通过数据发现规律,总结出了非常强的疾病预测能力,尤其患精神分裂症的预测能力远远超过了大夫。第三个案例,美国军方大量投入机器学习,为车辆和飞行器导航确定攻击目标,在大量数据中间挖掘出恐怖分子的一些信息,都已经远远超出了人们一开始的预期。深度学习已经具备了这样的能力,但是深度学习依然没有能够解释自己的行为。还是黑匣子。
人类历史上从来没有创造过这样一个机器,这个机器的行为和判断连人类都不能完全理解。今天我们创造了深度学习的机器不能判断和解释自己的行为,这就是今天我们感觉到不舒服的。人们反而问自己,我们自己作出了很多判断我们自己能够说清楚为什么做的吗?可是人类可以容忍自己的这种情况,但是不能容忍机器的这种情况。美国国防部就将机器学习的不可解释性定性为“关键的绊脚石”。
当然未来一定是说,人们需要跟机器不断合作。我们看动物到人的进化,其实智力进化的本质特征是进化到一个系统,这个系统连创造者都无法解释。今天我不敢保证上帝理解我们今天做的这么多的事情。为了这个担心,研究人员已经开始在进行一些分析,来试图理解或者跟踪这种决策的过程。
终级目标,机器和人到底有什么区别?
它比你来得快,比你大,某些能力比你还强。它和人类区别在哪儿?
求生本能,对于死亡的恐惧,这是机器没有的,这是定义出人和机器一个根本性的区别。人和动物的演化速度,一系列的求生本能,被打了会跑,避免疼痛,会食色,会有归属感。人类做坏事也是因为对死亡的恐惧,对欲望的驱动。机器本身目前为止因为它不惧怕死亡,所以也没有感情,没有感情是不是就不能说有智能呢?这是一个宗教问题,不是一个科学问题。
讲完了机器学习我们到此打住,我时间到了,很快讲一下AI投资的判断。
5
AI投资的机会与陷阱
在对AI投资的判断中,产业链包含:基础,技术,应用;
基础被巨头控制,技术层面能否出来一些公司依然存疑;
应用层要寻找能够大量产生数据的产业。
过去经验也告诉大家,每一波科技浪潮中会有一些平台性的公司。我们谈AI投资,到底投什么?就像我们谈PC的投资,谈互联网的投资我们是谈生态链。
在对AI投资的判断中,产业链包含基础、技术,应用。基础这个层面已经被巨头控制了,基础层有两大块:基本计算能力和数据。基本计算能力无论是谷歌还是微软,包括中国百度都已经把它作为SaaS服务提供出来了。技术这一块,没有数据能否成为一个平台?。在SaaS这一块,不是通用的SaaS,也许在SaaS应用这一块能够出来一些公司?这也是一个非常大的问号。
应用层中,AI其实是AI+这个场景,它是一种生产力提高的工具,会让所有以前的应用变得更加有效,当然你要找比较容易突破的。显然这个钱多和数据多的行业是最早发挥功效的地方。所以我们要找这个产业是不是大量产生数据,是否有这个数据能够不断拓展,不断创造价值,从而使得我们能够在这一里面把原有的生态进行改变。
如果说上一波是互联网,这一波是AI。大家要注意AI跟互联网的区别。最简单的可以说,AI发展到一年多以后我们就发现实际上是智能+。AI技术驱动,更加从垂直开始。因为技术本身发展的太快了,而互联网是商业模式创新,是全新的应用,赢家通吃在AI那一块未必行得通。
根据这个观察可以看一下今天AI投资的情景,今天AI显然是有很多泡沫,最大的泡沫我觉得是在估值公司。你去你找一家公司谈,每一家公司都说我自己是AI公司。真正看这家公司是不是AI公司,更重要的是它要有数据。能够不断有数据,它能够不断抢占数据的高低,这是我们的核心。
今日头条这家公司,之所以能够站稳,在过去五年之间突然出现,有它一个根本的原因,那就是信息的获取这个大的需求。今日头条在人工智能开始使用的时候迅速占领高地,它第一个用搜索的方法做了新闻推荐,从而它本身这个系统就是一个很大的学习网络,使得今天能够不断的演化,推荐的能力不断增强,从而在这个基础上对核心的能力进行突破。我们完全可以预测未来的今日头条就是一个超级的智能系统,同样我们看到了它的数据量是如此之大,它已经远远超过了一开始的文字到今天走向图象,走向论坛,走向直播,它其实所具备是不断增加的数据。
最后,AI的投资。如果你记住我刚刚所说的话就是三个投资点,第一是“智能+”,所有公司都应该具备的一种能力,而这个能力是它核心竞争力。第二,AI产业,包括自主开发、咨询服务、人工智能即服务AI-aas。第三,要有数据和人才。
人才、数据是核心,投算法本身就是投人,我前面谈到深度学习的训练需要人对于这个算法的理解并且掌握的训练的技巧,懂算法还要懂应用的人才是非常有价值的。另外,数据实际上是AI公司最终的护城河。
最后一点,给大家一个信息,就是AI这个领域里面中国人才是非常多的。高盛的一个AI报告指出,在过去的五年里面发表的跟神经网络和机器学习相关的文章里面,中国人作者的数量已经超过了美国,而且还持续增长。在引用的文章里面中国作者的数量也超过了美国,而且还在持续增长。所以至少我们在这个是里面中国人不少,数量多了之后以后自然就有强人。在人才这一块中国不差。