杭州2017年10月14日电 /美通社/ -- 10月11日,在2017杭州云栖大会上,浪潮集团互联网行业定制化产品部总经理熊鑫发表了《承载计算力,加速新生活》的主题演讲。他谈到:我们对数据的认识经历了从结构化数据的显性价值到非结构化数据的隐性价值再到非结构化数据的内在逻辑三个阶段;分层存储拥有巨大需求,帮助客户节省成本;当摩尔定律失效,一核打天下的时代已经结束了,我们需要面对不同的应用场景去使用不同的计算分析;单数据流,多指令流的时候适合 FPGA,比如线上推理;单指令流,多数据流的时候适合 GPU,比如线下训练。
以下为熊鑫的演讲实录:
现在到处都在谈论人工智能,实际上我们看到现在所谓的人工智能其实就是深度学习,就是把一个机器通过大量的数据反复的训练让它逼近一个相对准确的值。为什么2007年以后,这一波的人工智能的高潮会影响这么大?我们认为有三点:第一,移动互联网时代带来了大量的数据。第二,计算力的提升。第三,算法的进步。
我们把数据拿出来单独说。我们现在看到大量的数据,我们利用的只是很小的一部分,还有大量的价值我们没有挖掘出来,我们对于数据的认识分成三个阶段:
第一个最浅的阶段叫做结构化数据的显性价值,这对应了我们的数据库,也就是结构化的数据库。比如张三,男,27岁,这时候我们只是用这些数据本身的表面含义,把它记住,做查询、删除,创造一些方便生产生活的价值。
第二个阶段叫大数据,非结构化数据的隐性价值,我们可以把大量的数据进行分析,从而得出一些潜在的规律。比如说我的一些行为轨迹,我的爱好,我的工作地点,我经常出差的地方,那么这些数据可能寓意了我工作的性质。这就是带来的非结构化数据背后的隐性价值,比如说广告的推荐,这是对应了技术就是大数据分析。
第三个阶段,那么我认为是人工智能,就是非结构化数据的内在逻辑。什么叫内在逻辑?比如我有一千张的图片,我们通过深度学习可以从一千张的图片里面提取出来这一类图片的特征是什么?比如一千张图片都是花,都是兰花,那么兰花上的特征是什么?有好几百个特征值,我把它提炼出来,你再来一个兰花的图片,我就能根据这个特征值去识别这个兰花。
这是我们对于数据的理解,总结一句话叫数据价值被不断挖掘,而且对计算力的要求是不断被提高的。所以我们想要从数据中获取价值,我们的计算力就需要不断的去突破。
说到数据就不得不提存储。我这里列了三个,我们现在浪潮的存储服务器的产品线分为三个,从2U12到4U36到4U100,它是对应的每TB的存储容量对应的计算的核心,这个比例是不断的变大,就这个区别。那么这种计算和存储的不同的配置就对应了不同的数据价值,或者是不同的数据温度,或者使用频率。比如我热的数据我就用2U12,冷的数据4U36,我更冷的数据4U100,那么这种叫数据分层。
我们浪潮这几年,包括我这几年不断的在跟客户强调数据分层会节省 TCO,很显然,我有一些冷的数据,比如备份数据,我就用大存储,那每TB成本从几百美金到几十美金,差了很多,十倍以上的差价,每TB的存储的成本会差很多。
所以我们看到现在在中国,我们看到了一个趋势,就是数据因为云计算,因为云计算的存在,也因为大客户越来越大,导致我们数据的集中性越来越高,就集中度越来越高,我们叫数据寡头,因为他掌控了大量的数据,它的数据越来越大,比如说 BAT 还有其他的一些客户。那么这个数据越来越集中就导致现在我们看到的大客户,像 BAT 这种大客户的需求,它的数据分层就非常的明显。因为他们发现,如果都用2U12盘位服务器存的话,我已经担负不起这个存储的成本了,因为很多数据不是说我存个一年两年,是永久保存的。而且确实有些数据可能一年调一次,但这次还是必须调,所以可能就用更好的存储方式去存。这就是数据分层,我相信随着我们数据量不断的去攀升,这种分层一定会在更多的客户那儿去存,这是节省社会成本。
那么说完数据再说计算,刚刚提到了,数据量的加大,我们对数据价值的不断挖掘,需要我们对计算力的不断突破。那么对于计算力这个词来讲,我们长久以来或者很多年以来,我们一直依靠的是摩尔定律,我们依靠的是制程技术的不断的提高和突破,从90nm,一直到现在的10nm,这种制程工艺的突破,给我们带来的好处是什么?可以用相同的成本去获取更多的计算力。
随着数据量越来越大,互联网的落地场景越来越多,人们对于互联网的要求也越来越高,业务在不断的发展,技术遇到瓶颈怎么办?我们认为它会往多核心的方式走,一核打天下的时代已经结束了,我们需要面对不同的应用场景去使用不同的计算分析。那么今天不要讲太多,就只讲 FPGA。FPGA 和 GPU 什么关系?什么场景下用 GPU?什么场景下用 FPGA?其实我们先抛开上层的业务,我们把业务分成两种,一种叫 SIMD,一种叫 MISD,SIMD 就是单指令流,多数据流的;反过来就是单数据流,多指令流的。那么单数据流,多指令流的时候适合 FPGA,比如说深度学习的线上的 inference 的推理。我们早上签到,安检那个人脸识别,它就是非常典型的一个多指令流,单数据流,我们每一个人去往那儿一看,这就是一个指令,但是我们的数据很少,就一张图片。可能就几百K,数据量很小,但是我们很多人,马总说六万人,我们六万个指令,每个指令只有一张图片,这就是多指令流,单数据流。这种情况就非常适合 FPGA 这种。
还有另外一种就是单指令流,多数据流,我只要一次指令输入,但是数据量非常大,它对应的典型的业务场景就是深度学习的线下训练,这就比较适合用 GPU。我要训练一万张图片,一万张图片可能有很大,TB 级的数据,但是我只输入一次命令,帮我算,帮我训练,点一下就好了,我就不用管了,可能等几天,它才能算出来,这就典型的 MISD,典型的单指令流,多数据流。
下面就是对于刚才提到的深度学习,我简单的介绍一下,对于深度学习来说,现在我们看到的很多客户的需求是非常多样化,我们知道对于人工智能来讲,有图片的识别,图片的分类,包括语音的识别,语音的合成,包括自然语言处理。这些任务对于训练的量要求是不一样的,比如说我们语音的识别,可能你神经网络十几层,大不了几十层,这么一个规模,最多也不过几十层。但是对于CNN这种图象识别,可能很多就好几百层,甚至一千层,那么他们对于这种计算量和模型的大小,框架的不同,对于基础设施或者对于我们深度学习的服务器设备的要求是不一样的。
那么我们希望能提供一种设备,这种设备可以你在不同的场景下,都用它,都用同一个设备满足不同的场景,我们希望有这样一个设备,的它可以实现 CPU 和资源的灵活配比,互联的统一架构以及集群资源的分配,我有一百台 GPU 服务器,我随时可以划出20台来干这个事儿,另外30台干这个事儿,另外30台干这个事儿,这几个任务完全了,再重新打造,再重新分,这样资源利用率最大。所以我们就做了这么一个东西,叫 GX4。
它是一个 GPU 资源池化的一个概念,因为这也应该是国内唯一一款GPU池化的服务器。它可以通过和机头之间的互联来灵活的调整 CPU 和 GPU 之间的配比,比如说我一台2U的标准服务器,我可以挂一个 box,可以挂两个,可以挂三个,可以挂四个,这样就可以四个卡、八个卡、十二个卡、十六个卡,不同的单机配置。我们希望通过这种设备来降低客户的 TCO,你买同样一个设备,你可以反复的在不同的场景下使用,而不必受制于某一个特殊场景。
这就是可能的一些拓扑,比如说单机四卡、单机八卡、单机十六卡,现在是模块化集群,什么叫模块化集群?就是我每一个,比较典型的就是八卡的配置,八卡的配置我都挂在一个交换机上,那么这两个八卡之间的 GPU 是可以通过 RDMA 去实现 GPU 与 GPU 之间的 P2P 的,不通过 CPU 走,直接进入到 GPU,这样可以降低集群之间的互联的代价。我们未来认为应该是一种池化集群,什么叫池化集群?我所有的设备,包括服务器,X86 的服务器,包括 GPUBox 就挂在同一个 IP 交换机上,或者高速交换机上,我可以通过软件去灵活的定义我的虚拟服务器,我用一个 CPU 对应八卡,用两个 CPU 对应二十卡,随意,你可以灵活的调整来适应你不同的业务场景。
除了GPU 或者除了人工智能以外,浪潮在9月份也发布了英特尔最新一代的基于 skylake 全新平台的服务器,我们希望通过不断的去做技术的创新,通过对技术的理解和对业务的理解来为客户提供最合适的基础设施,也希望通过这种方式来给我们的生活带来更多的支撑和便捷。