来自 技术创新 2019-10-17 21:28 的文章
当前位置: 澳门太阳赌城 > 技术创新 > 正文

从开源BigDL和Analytics 澳门太阳赌城Zoo,看懂英特

2018年1月,亚马逊在西雅图的无人超市对外营业,吸引北美媒体和市民众多眼球。不过他们不知道,2017年10月,中国的在线零售巨头京东的无人商店和无人超市已经对外开放了。更有趣的是,在京东的无人商店和无人超市里,当你选好自己要买的东西之后,只需“刷脸”就能完成支付过程,钱包什么的,完全不用拿出来啦。

中国企业在 AI 部署上胆子更大

京东的技术团队接下图像分析这个任务后,一开始,他们曾尝试使用图形处理单元(GPU)创建特征匹配应用,然而并不顺利,因为在扩展性上遇到很多问题,必须手工管理众多设备和系统,手工处理负载均衡和容错;而且在数据处理过程中还出现很多延迟,不足以支持生产环境需求。

为了提高训练与推理性能,BigDL 集成了 MKL-DNN 作为 CNN 模型的替代执行引擎。MKL-DNN 能够提供更强大的训练 / 推理性能,而且内存占用量也有所降低。在某些 CNN 模型中,MKL-DNN 使吞吐量提高了 2 倍。

责任编辑:

Analytics Zoo 最大的优势是能够在现有基于 Spark 与英特尔至强服务器的基础设施之上无缝运行各类主流深度学习框架和模型(包括 TensorFlow、Keras、caffe 以及 BigDL 等),客户可以选择使用适合自身需求的深度学习框架做模型训练,无需购买或者设置不同的硬件基础设施。

家门口刷脸购物不是梦

马子雅表示,未来英特尔将重点关注以下三大新兴趋势:

在购物的整个过程中,结算环节是重点,更是难点。顾客选择的商品,品类多种多样,包装彼此不同,如何保证在尽量短的时间之内确定商品的具体品类和价格?除了扫描条码之外,还有其他方法吗?

采访嘉宾介绍

京东大数据平台部负责人,京东副总裁翁志介绍,“顾客的方便,来自于京东长期以来在AI和大数据方向的技术积累,集成各种传感器的智能货架、智能结算台、智能价签、智能摄像头等多种智能技术,贡献良多。”

马子雅目前所在的 IAGS/SSP 部门,其主要职责就是为在英特尔平台上运行各类大数据分析与 AI 解决方案的客户提供最佳体验,让硬件性能更优。其中一项核心任务就是与整个生态系统合作,立足英特尔的硬件对大数据分析 /AI 堆栈进行优化,从而提供更出色的性能、安全性与可扩展性。

原标题:想体验无人商店?去京东他们家直接刷脸!

以业界广泛使用的大数据框架 Apache Spark 为例,英特尔一直是 Spark 开源社区的活跃贡献者。在围绕 Spark 的大数据分析技术,比如实时流式分析、高级图分析、机器学习等方面,英特尔高级首席工程师、大数据技术全球 CTO 戴金权所领导的团队始终处在业界领先地位。他们为很多大型互联网公司提供了大数据分析的技术支持。比如 2012 年,戴金权团队帮助优酷使用 Spark 做分布式的大数据分析,使得其图分析的效率提高了 13 倍以上。他们还帮助腾讯在 Spark 上构建大规模稀疏机器学习模型,将模型规模的量级提高了十倍以上,模型的训练速度提高了四倍以上。

京东公司成立二十年,在线商城已经运行了十四年。这么多年下来,京东积累了一个庞大的在售产品目录,产品图像多达数亿张。它们都保存在分布式大数据存储库 Apache HBase中,用Hadoop框架加以处理。为了满足客户在各种场景下的不同需求,京东希望可以匹配、提取不同产品图像中的特征。比如,客户逛街时发现一款自己喜欢的咖啡杯,只要拍下来,京东就可以根据照片为客户找到满足他要求的咖啡杯。对于京东自己来说,还可以利用图像识别和匹配功能,与其他网站上的产品进行匹配,京东就可以调整自己的定价策略,强化自己的竞争力。此外,京东还对外提供公共云服务,类似功能还可以提供给公共云的客户,帮助他们开发符合自己需求的全新图像分析应用云平台。现在,在京东对外开放的技术能力中,“图片质量检测”和“以图搜图”功能已经可以对外提供给其他开发团队使用了。

马子雅认为,目前越来越多的人工智能不再停留在实验室或研发阶段,在金融、在线零售、无人驾驶、医疗、供应链优化、智能家居、智能制造等多个领域的实际业务场景中,AI 都已经有典型的落地案例。现在,人工智能领域已经从最初的火爆慢慢过渡到冷静期,企业更关注的是人工智能是否能够为实际业务场景带来价值。这是一个非常好的趋势。

京东在基于英特尔至强处理器 E5-2650 v4 的服务器上运行 BigDL,完成深度学习提取图片特征过程。Big DL同时支持横向扩展,只要添加新的标准英特尔至强处理器服务器,就能够实现高效横向扩展,延展到数百乃至数千台服务器。京东使用了带有 1200 个逻辑内核的高度并行架构,大幅加快了从数据库中读取图像数据的流程,整体性能提高了 3.83 倍。性能的提升,也要归功于英特尔在核心算法层面的优化。BigDL 使用英特尔数学核心函数库MKL 和并行计算技术,充分发挥了至强处理器的性能。

BigDL 是一套基于 Spark 分析流水线、以有机方式构建而成的分布式深度学习框架,可以直接在现有的 Hadoop 和 Spark 集群上运行,不需要对集群做任何修改。BigDL 能够实现主流深度学习框架 TensorFlow、Caffe 以及 Torch 等同样的功能,作为 Spark 标准组件也能够和 Spark 大数据生态系统里面的不同组件非常好地整合在一起。用户可以借助 BigDL 将 Spark/Hadoop 作为统一的分析平台,从数据摄取、清洁与预处理,到数据管理、机器学习、深度学习以及部署与可视化,一站式完成所有工作。

在您的既有IT基础上,按需构建人工智能更高效。人工智能,从至强开始。点击搭乘至强特快专列,即刻开启您的人工智能之旅吧。返回搜狐,查看更多

在采访中,马子雅为我们解读了英特尔软硬件结合的全栈式人工智能解决方案,并重点分享了过去两年英特尔对外开源的重要项目 BigDL 和 Analytics Zoo 的最新变化和进展。马子雅表示,Spark 在英特尔的硬件上能够得到最好的优化,而 BigDL 和 Analytics Zoo 自开源以来得到了广泛关注,采用情况好于预期。加速人工智能落地,必须“软硬兼施”

澳门太阳赌城 1

为了增强功能,研发团队为 BigDL 实现了 200 层神经网络。除了深度学习构建模块之外,还在其中添加了对深度学习模型的支持能力(比如可以将 TensorFlow、Keras、Caffe 模型加载到 Spark 与 BigDL 当中进行分布式推理)。BigDL 也增加了对 OpenCV的支持,用于图像转换与扩充;支持 Spark 2.3 和 2.4;支持 DataFrames;支持 Spark-on-Kubernetes;以及支持 Python 3.6 等。

后来,京东决定基于现有的服务器和通用处理器架构开展工作,而且取得了显著成效。他们的图像数据存储服务器基于英特尔至强处理器 E5 家族,技术团队使用 BigDL 深度学习库来部署 Caffe 模型,性能提升了3.83倍,这让京东将来可以更快捷地提供基于图片的全新服务。

近年来,许多公司都开始尝试在他们的分析流程中添加 AI 功能,但真正应用到生产环境却进展缓慢。实际上,深度学习模型的训练和推理只是整个流程的一部分,要构建和应用深度学习模型,还需要数据导入、数据清洗、特征提取、对整个集群资源的管理和各个应用之间的资源共享等,这些工作事实上占据了机器学习或者深度学习这样一个工业级生产应用开发大部分的时间和资源。而这样一套基础设施部署之后,再推倒重来是不现实的。

当然有,京东选择了更神奇的方法:选好商品后,你可以把它们挨个放在智能结算台上,其中有集成摄像头,借助京东这些年积累的实拍数据,利用图像识别技术完成结算,当你走出结算通道后,人脸识别、智能摄像头等技术就会自动完成付款啦。

此外,马子雅表示,Analytics Zoo 也会在将来集成并启用 AutoML功能,以进一步推动人工智能民主化,使更多的企业和个人从中受益。

在大数据分析领域,Apache Spark项目已经成为事实上的标准。该项目起始于加州大学伯克利分校,几个创始人后来成立了Databricks公司,成立五年来,专门提供大数据分析服务。在分布式机器学习领域,他们也选择了 BigDL 项目,与本身的原生Spark技术集成,提升Spark在模型训练,预测和调优方面的表现。

而在美国,大多数企业客户更愿意在“非常成熟”时才部署 AI 解决方案,且相关产品最好是由 ISV、OEM 或者 CSP 负责提供并支持。另外,国内人工智能解决方案的规模,尤其是投入生产的规模,相对来说比美国的很多用户要更大一些。

澳门太阳赌城 2

英特尔在美国与中国都拥有众多客户与合作伙伴,马子雅与我们分享了中美企业在寻求 AI 解决方案上存在的一些差异。

借助 BigDL 框架,京东还在自己已有的通用硬件上使用 Caffe、Torch 和 TensorFlow 等框架中的预训练模型,这让他们以更快的速度测试和推出新服务,同时无需投入专用硬件。也就是说,不需要购买、运行独立的 GPU 集群。京东可以重复使用现有的硬件资源,从而降低了总体拥有成本。结合Apache Hadoop 和 Spark 框架来处理资源管理工作,未来能够更轻松地开发新应用,同时保持高效性能。

马子雅早前曾在采访中表示,英特尔致力于为客户提供最好的服务,而非单纯的硬件或软件。对于这一点,马子雅再次强调,英特尔是一家人工智能技术解决方案供应商,致力于为客户提供完整的全栈式人工智能解决方案。

分析图像,提取特征,还得靠通用架构

另一方面,对于 AI 技术方案的部署,中国的生产与部署十分广泛。例如,在中国,我们能够想到的几乎所有行业都在尝试部署 AI 方案。中国的企业无论规模大小,都在积极尝试利用 AI 技术改善其业务成果。

毫无疑问,京东是中国零售领域的领军企业,技术上,京东同样具有前瞻性思维,前文提到的京东的无人商店和无人超市刷脸完成购物,就是一个很好的证明。

澳门太阳赌城 3

澳门太阳赌城 4

第二大痛点与 AI/ML 的生产落地有关。尽管当前市场对于 AI 技术抱有很大兴趣,但实施水平仍然相当低下。因此,需要考虑如何帮助客户真正有效地将路径查找或概念验证 AI 项目投入生产环境,从而根据需求构建起完整的 AI/ 分析流水线——包括高质量数据源整理、数据预处理与清洁、适当特征数据的选择与构建、适当模型的选择、模型超参数的优化、机器学习模型的后期处理、可视化以及部署等。这类解决方案要求数据工程师、数据科学家以及 IT 工程师共同参与并高效协作。

《福布斯》专门撰文报道:京东希望使用当今最先进的技术创新开发新的解决方案,创建面向未来的零售运营体系;京东正在推动人工智能、大数据和机器人技术的发展,为第四次工业革命建立零售业的基础设施。到那一天,你在家门口的便利店和超市里面就能直接刷脸买东西啦。

Apache Spark 与 Apache Hadoop 等大数据平台如今已成为业内数据存储处理和分析的事实标准,英特尔的客户中有大量 Spark、Hadoop 用户,很多企业都已经在生产环境建立了一定规模的大数据集群。虽然市面上已经有主流的深度学习框架,但英特尔在这里看到了将大数据分析与人工智能结合起来的一个空白点,这也是两年前英特尔推出 BigDL 的初衷。

落地:实际采用情况超出预期

第三大痛点在于 AI 技能组合的供需之间存在巨大的鸿沟。由于这种差距的客观存在,任何一家企业或者个人都无法轻松地使用 AI 技术。在过去几年,有越来越多的学术课程与行业研讨活动正在试图缩小这种差距。但截至目前,我们可能还需要一段时间才能迎来真正能够立刻投入生产的技能成熟的员工队伍。谈谈人工智能行业和未来趋势

第二,分析与 AI 技术正在融入大数据平台。为了实现生产应用,AI 方案需要配备端到端分析流水线,其中 80% 的资源被用于数据摄取、清洁与预处理、管理以及可视化等等;只有 20% 专注于训练与推理。英特尔将利用自身在大数据与分析领域的领导地位,提供统一的生产级平台,将数据科学生态系统引入大数据平台。同时不断改进特定数据科学项目的单节点性能,例如 pandas、scikit-learn、DAAL 以及 Spark SQL 等,提高大数据平台上 Python 项目的横向扩展效率,并将关键计算密集型算法转交由加速器负责处理。

Analytics Zoo 还囊括有大量经过预训练的深度学习模型(例如图像分析模型、文本处理模型、文本匹配模型、异常检测模型以及用于序列预测的序列到序列模型等);其拥有高级 API,能够简化应用程序开发流程;它还能够以非常简单的方式建立端到端分析 /AI 流水线并实现生产化,整个流水线能够在 Spark/Hadoop 集群之上实现扩展,从而进行分布式训练与推理,降低训练用基础设施的独立成本,同时节约训练基础设施与分析基础设施之间的集成开发成本。

Analytics Zoo 如今也已经演进到了 0.4.0 版本,为了优化 Analytics Zoo 在英特尔服务器上的性能表现,开发团队添加了 OpenVINO 支持能力,以加快深度学习模型的推理速度;并增加了对 OPtane DC 持久内存的支持,以改善训练性能。

首先,AI 技术将继续在企业与云环境中快速增长。在云上,CSP 领域的 AI 创新速度非常快,ISV 则正在努力追赶。以最新趋势来看,HPC与 AI 技术正在融合。未来五年之内,HPC AI 营收将由 23 亿美元增长至 47 亿美元。由于数据分析人员开始使用规模较大的数据集,相他们可能会通过分析提出越来越困难的问题,其中的工作负载将越来越多地表现为高性能计算问题。 另一方面,传统 HPC 研究人员也希望借助大数据与 AI 技术加快自己的研究。为了满足这一需求,英特尔正致力于在 HPC 之上实现 AI 与大数据分析功能,同时充分利用已有的 HPC 基础设施(包括高性能存储、结构与计算等)。

第一大痛点就是如何将数据与 ML/DL 算法结合在一起。长期以来,业界一直存在一个争论,即要想获得更强大的 ML/DL 解决方案,我们是否应该更重视数据或者算法层面的改进。考虑到大家已经拥有合理的算法,那么下一步的核心自然在于数据。ImagNet 是其中的典型例子,近年来图像分析的重大突破,正是由 ImageNet 这类大规模公开数据集推动的。英特尔推出 BigDL 和 Analytics Zoo,也是为了更好地解决数据与机器学习 / 深度学习算法整合的问题。

目前,来自零售业、金融服务行业、医疗保健业、制造业及电信业等领域的企业客户都已经开始在英特尔至强服务器上实施 Analytics Zoo 与基于 BigDL 的分析 /AI 流水线。例如,英特尔协助美的基于 Analytics Zoo 构建了一套端到端的产品缺陷检测方案,准确率优于人工检查方法,并避免了检查工作给生产线带来侵入性影响。Analytics Zoo 将 Spark、TensorFlow 以及 BigDL 程序整合至同一流水线当中,整个流水线能够在 Spark 集群之上以透明方式实现扩展,从而进行分布式训练与推理。最终使美的的图像预处理时长缩短至原先的四分之一(由 200 毫秒降低至 50 毫秒),并将延迟影响降低至原本的十六分之一(由 2000 毫秒缩短至 124 毫秒)。深度学习三大痛点,英特尔的解决之道

在库层面,英特尔持续对各类库 / 基元(例如英特尔 MKL/MKL-DNN、clDNN、DAAL 以及英特尔 Python 发行版等)进行优化。另外还推出了 nGraph 编译器,旨在使各类框架能够在任意目标硬件之上实现最佳性能。

本文由澳门太阳赌城发布于技术创新,转载请注明出处:从开源BigDL和Analytics 澳门太阳赌城Zoo,看懂英特

关键词: