从开源BigDL和Analytics Zoo,看懂英特尔的AI底气

中新网北京6月22日电 (王庆凯
霍晨萌)由O’Reilly与英特尔共同举办的人工智能国际大会18日至21日在北京举行。本届大会汇聚了来自谷歌、Facebook、微软、阿里巴巴等知名企业以及斯坦福、牛津大学等高校的专家学者。

澳门新葡新京 1

“我们正处在一个数据变革的时代,人类历史上90%的数据都是在过去几年产生的,其中50%的数据更是在最近两年内生成的。”英特尔架构图形与软件集团副总裁、数据分析技术总监马子雅在大会上表示,但目前为止,只有2%的数据被真正分析过来帮助人类的生产生活,其中最重要的原因是大数据、AI(人工智能)等新兴技术落地难。

出处 |
AI前线说起英特尔,为人们所津津乐道的是其突出的“硬”表现,实际上,英特尔的“软”实力在全球也是排名前列。要让硬件充分发挥出性能潜力,必然需要进行软件上的优化,这方面的工作可谓关键且极具挑战。近日,InfoQ
记者有幸采访了英特尔公司架构图形与软件集团副总裁和数据分析技术总监马子雅,她所带领的
IAGS/SSP
部门负责的正是针对英特尔硬件的软件优化工作,致力于为合作伙伴和用户提供大数据分析和
AI 的最优体验。

澳门新葡新京官方网站,从机器人到智慧城市,如今人工智能所面临的最严重挑战之一,就是如何紧跟所有的最新进展和最佳方法,将AI技术快速应用于实践领域。

在采访中,马子雅为我们解读了英特尔软硬件结合的全栈式人工智能解决方案,并重点分享了过去两年英特尔对外开源的重要项目
BigDL 和 Analytics Zoo 的最新变化和进展。马子雅表示,Spark
在英特尔的硬件上能够得到最好的优化,而 BigDL 和 Analytics Zoo
自开源以来得到了广泛关注,采用情况好于预期。加速人工智能落地,必须“软硬兼施”

马子雅以AI技术落地物流行业韵达快递为例。由于人力、燃油等成本较高,韵达快递一度利润率不高,需要不断提升生产效率,优化运输线路和存储才能保证利润。英特尔公司与韵达合作构建了一套完整的人工智能解决方案,能准确预测韵达在未来几天以及几周的快递量,这样的解决方案预计能为韵达节省千万美元的运营成本。

近年来,互联网数据飞速增长,据英特尔统计:目前全球有超过一半的数据是在过去两年内产生的,而这其中只有不到
2%
是真正经过分析并产生价值的。英特尔近日在全球多地召开的发布会上推出了一系列以数据为中心的产品组合,包括第二代至强可扩展处理器、傲腾数据中心内存和存储解决方案、Agilex
FPGA、以太网 800
适配器。正是为了应对数据激增的变化,英特尔为数据传输、存储、计算和处理提供了一套完整的解决方案。而在这套解决方案里,硬件并非全部。

澳门新葡新京,戴尔中国台湾分公司总经理FrankWu在大会上亦表示,“智能+”时代就是大数据时代,但是大数据产生数据并不是目的,最重要的观点是把数据变成价值。“数据是燃料,最重要是把燃料变成价值,通过分析的方法变成各行业应用,产生各种有价值的生产力,新的生产模式,这就是我们说的AI方式。”

马子雅早前曾在采访中表示,英特尔致力于为客户提供最好的服务,而非单纯的硬件或软件。对于这一点,马子雅再次强调,英特尔是一家人工智能技术解决方案供应商,致力于为客户提供完整的全栈式人工智能解决方案。

但人工智能的应用并不是简单地执行算法。以智慧生产为例,制造商可以在生产线上利用深度学习,尤其是图像识别,将产品的质量检测自动化。如自动检测产品表面缺陷、零部件的缺失、标签的错位。已有很多实践证明,相比人工检测、智慧检测可以大幅提高生产效率,并降低成本。

在芯片层面,英特尔提供广泛的技术方案,包括通用型芯片到专用型芯片等,涵盖由边缘到数据中心的广泛领域。CPU、GPU、加速器、FPGA、内存
/ 存储、互连以及安全硬件等都在英特尔的业务范畴之内。

这在医学领域发挥的作用更明显。研究表明,培养一个放射科医生需8年时间,每年要工作250天看各种片子,培训期间共要看20万张医学影像。而人工智能落地应用,包括MRA、核磁共振和X光片都可以交给机器来看,效率高且准确率也逐渐在提高。“AI将重塑人类社会。”FrankWu说。(完)
责任编辑:刘迅

除此之外,英特尔还提供经过全面优化的软件,用以加速并简化 AI
技术的开发与部署,具体涵盖库、框架以及工具与解决方案等层面。

澳门新葡新京 2

在解决方案层面,英特尔能够开发、应用并共享完整的 AI
解决方案,从而加快客户从数据到洞察结论的推进过程。此外,英特尔还通过
ai.intel.com
网站发布案例研究成果、参考解决方案以及参考架构,以便客户能够在界定探索范围以及自行构建类似的
AI 解决方案时作为指导。

在平台层面,英特尔提供多种一站式、全堆栈且用户友好的系统方案,可由客户快速部署并加以使用。例如,英特尔
Deep Learning 云 / 系统(原名为 Nervana Platform with Nervana Cloud 以及
Nervana
appliance)就是一套“一站式”系统,旨在缩短深度学习客户的开发周期。

在工具层面,英特尔提供大量生产力工具,用以加速数据科学家与开发人员的 AI
开发进程。包括:英特尔深度学习 Studio、英特尔深度学习开发套件、英特尔
OpenVINO 工具包、英特尔 Movidius 软件开发套件等。

在框架层面,英特尔立足硬件对最流行的各类开源框架进行优化,同时推动其加速发展。客户能够根据自身情况任意选择最符合需求的单一或多种框架。

在库层面,英特尔持续对各类库 / 基元(例如英特尔 MKL/MKL-DNN、clDNN、DAAL
以及英特尔 Python 发行版等)进行优化。另外还推出了 nGraph
编译器,旨在使各类框架能够在任意目标硬件之上实现最佳性能。

马子雅目前所在的 IAGS/SSP
部门,其主要职责就是为在英特尔平台上运行各类大数据分析与 AI
解决方案的客户提供最佳体验,让硬件性能更优。其中一项核心任务就是与整个生态系统合作,立足英特尔的硬件对大数据分析
/AI 堆栈进行优化,从而提供更出色的性能、安全性与可扩展性。

以业界广泛使用的大数据框架 Apache Spark 为例,英特尔一直是 Spark
开源社区的活跃贡献者。在围绕 Spark
的大数据分析技术,比如实时流式分析、高级图分析、机器学习等方面,英特尔高级首席工程师、大数据技术全球
CTO
戴金权所领导的团队始终处在业界领先地位。他们为很多大型互联网公司提供了大数据分析的技术支持。比如
2012 年,戴金权团队帮助优酷使用 Spark
做分布式的大数据分析,使得其图分析的效率提高了 13
倍以上。他们还帮助腾讯在 Spark
上构建大规模稀疏机器学习模型,将模型规模的量级提高了十倍以上,模型的训练速度提高了四倍以上。

为了让更多的大数据用户、数据工程师、数据科学家、数据分析师能够更好地在已有大数据平台上使用人工智能技术,2016
年底,英特尔开源了基于 Spark 的分布式深度学习框架 BigDL,此后不久又在
Spark、TensorFlow、Keras 和 BigDL 之上构建了大数据分析 +AI 平台
Analytics Zoo。通过这两个开源项目,英特尔正在推动先进的 AI
技术能更好地让广大用户使用。开源框架和平台:BigDL 与 Analytics Zoo

初衷:填补大数据分析与 AI 结合的空白点

近年来,许多公司都开始尝试在他们的分析流程中添加 AI
功能,但真正应用到生产环境却进展缓慢。实际上,深度学习模型的训练和推理只是整个流程的一部分,要构建和应用深度学习模型,还需要数据导入、数据清洗、特征提取、对整个集群资源的管理和各个应用之间的资源共享等,这些工作事实上占据了机器学习或者深度学习这样一个工业级生产应用开发大部分的时间和资源。而这样一套基础设施部署之后,再推倒重来是不现实的。

Apache Spark 与 Apache Hadoop
等大数据平台如今已成为业内数据存储处理和分析的事实标准,英特尔的客户中有大量
Spark、Hadoop
用户,很多企业都已经在生产环境建立了一定规模的大数据集群。虽然市面上已经有主流的深度学习框架,但英特尔在这里看到了将大数据分析与人工智能结合起来的一个空白点,这也是两年前英特尔推出
BigDL 的初衷。

澳门新葡新京 3

BigDL 是一套基于 Spark
分析流水线、以有机方式构建而成的分布式深度学习框架,可以直接在现有的
Hadoop 和 Spark 集群上运行,不需要对集群做任何修改。BigDL
能够实现主流深度学习框架 TensorFlow、Caffe 以及 Torch 等同样的功能,作为
Spark 标准组件也能够和 Spark
大数据生态系统里面的不同组件非常好地整合在一起。用户可以借助 BigDL 将
Spark/Hadoop
作为统一的分析平台,从数据摄取、清洁与预处理,到数据管理、机器学习、深度学习以及部署与可视化,一站式完成所有工作。

后续在与诸多客户合作部署 BigDL
的过程中,仍有一部分客户反映希望能继续使用自己更熟悉的其它深度学习框架,例如
TensorFlow,并希望使用 TensorFlow 进行训练。因此,英特尔又在 BigDL
开源半年后推出了 Analytics
Zoo,以帮助客户省去在大数据管道上手工“拼接”众多独立组件(如
TensorFlow、Apache Spark、Apache HDFS 等)的繁琐操作。

Analytics Zoo 作为一个更高级别的数据分析 +AI 平台,能够帮助用户利用
Spark
的各种流水线、内置模型、特征操作等,构建基于大数据的深度学习端到端应用。某种意义上它是
Spark 和 BigDL 的扩充,可以将 Spark、TensorFlow、Keras 和 BigDL
无缝合并到一个集成管道中,方便地扩展到企业已有的大型 Apache Hadoop/Spark
集群,进行分布式训练或推理。

澳门新葡新京 4

Analytics Zoo 最大的优势是能够在现有基于 Spark
与英特尔至强服务器的基础设施之上无缝运行各类主流深度学习框架和模型(包括
TensorFlow、Keras、caffe 以及 BigDL
等),客户可以选择使用适合自身需求的深度学习框架做模型训练,无需购买或者设置不同的硬件基础设施。

Analytics Zoo
还囊括有大量经过预训练的深度学习模型(例如图像分析模型、文本处理模型、文本匹配模型、异常检测模型以及用于序列预测的序列到序列模型等);其拥有高级
API,能够简化应用程序开发流程;它还能够以非常简单的方式建立端到端分析
/AI 流水线并实现生产化,整个流水线能够在 Spark/Hadoop
集群之上实现扩展,从而进行分布式训练与推理,降低训练用基础设施的独立成本,同时节约训练基础设施与分析基础设施之间的集成开发成本。

马子雅还提到,目前 Spark 在英特尔的服务器硬件上优化是最好的,这也是
BigDL 和 Analytics Zoo 最大的优势之一。

持续改进:降低开发门槛,提高训练与推理性能

自开源以来,BigDL 项目一直在持续改进,目前已经发布到 0.8.0 版本。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图