机器学习应用深度剖析

引言

机器学习如今已经成为一种众所周知的主流创新技术,它作为人工智能的核心技术,是使计算机具有智能的根本途径。一项研究发现,人们目前使用的设备中有77%正在使用机器学习技术。通过亚马逊Alexa、Netflix等智能设备,我们可以看到机器学习与数据治理、工业制造、自动驾驶、医疗健康、智能家居等行业产生更为紧密的融合,并开始实现大规模的商业应用。

本文以2020年亚马逊re:Invent大会为背景,详细总结机器学习算法概念及算法应用、机器学习在各行业的深入应用、科技巨头亚马逊在机器学习领域取得的巨大成就、大胆预测机器学习未来发展趋势及潜力。

机器学习相关知识概要
1.1
机器学习概念

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

1.2
机器学习分类

1.2.1 综合分类

综合考虑各种学习方法出现的历史渊源、知识表示、推理策略、结果评估的相似性、研究人员交流的相对集中性以及应用领域等诸因素。将机器学习方法区分为六类。

图片

综合分类的6种类型

1.2.2 基于学习策略的分类

学习策略是指学习过程中系统所采用的推理策略。一个学习系统总是由学习和环境两部分组成。由环境(如书本或教师)提供信息,学习部分则实现信息转换,用能够理解的形式记忆下来,并从中获取有用的信息。学习策略的分类标准就是根据学生实现信息转换所需的推理多少和难易程度来分类的,依从简单到复杂,从少到多的次序分为以下六种基本类型:

图片

学习策略的6种类型

1.2.3 基于所获取知识的表现形式分类

学习系统获取的知识可能有:行为规则、物理对象的描述、问题求解策略、各种分类及其它用于任务实现的知识类型。对于学习中获取的知识,主要有以下一些表示形式:

图片

所获取知识的表现形式分类

1.3
机器学习算法

有两种方法可以将所有的机器学习算法进行分类。分别是学习风格和通过形式或功能相似两种。通常,这两种方法都能概括全部的算法。

(1)通过学习风格分组的机器学习算法

算法可以通过不同的方式对问题进行建模,但是,无论我们想要什么结果都需要数据。此外,算法在机器学习和人工智能中很流行。

监督学习

图片

基本上,在监督机器学习中,输入数据被称为训练数据,并且具有已知的标签或结果,例如垃圾邮件/非垃圾邮件或股票价格。在此,通过训练过程中准备模型。此外,还需要做出预测。并且在这些预测错误时予以纠正。训练过程一直持续到模型达到所需水平。

无监督学习

图片

在无监督机器学习中,输入数据未标记且没有已知结果。我们必须通过推导输入数据中存在的结构来准备模型。这可能是提取一般规则,但是我们可以通过数学过程来减少冗余。

半监督学习

图片

输入数据是标记和未标记示例的混合。存在期望的预测问题,但该模型必须学习组织数据以及进行预测的结构。

(2)由功能的相似性分组的算法

ML算法通常根据其功能的相似性进行分组。例如,基于树的方法以及神经网络的方法。但是,仍有算法可以轻松适应多个类别。如学习矢量量化,这是一个神经网络方法和基于实例的方法。

回归算法

图片

回归算法涉及对变量之间的关系进行建模,我们在使用模型进行的预测中产生的错误度量来改进。

基于实例的算法

图片

该类算法是解决实例训练数据的决策问题。这些方法构建了示例数据的数据库,它需要将新数据与数据库进行比较。为了比较,我们使用相似性度量来找到最佳匹配并进行预测。出于这个原因,基于实例的方法也称为赢者通吃方法和基于记忆的学习,重点放在存储实例的表示上。

正则化算法

图片

正则化算法很流行且功能强大。

决策树算法

图片

决策树方法用于构建决策模型,这是基于数据属性的实际值。决策在树结构中进行分叉,直到对给定记录做出预测决定。

贝叶斯算法

图片

这些方法适用于贝叶斯定理的问题,如分类和回归。

聚类算法

图片

几乎所有的聚类算法都涉及使用数据中的固有结构,这需要将数据最佳地组织成最大共性的组。

关联规则学习算法

图片

关联规则学习方法提取规则,它可以完美的解释数据中变量之间的关系。这些规则可以在大型多维数据集中被发现是非常重要的。

人工神经网络算法

图片

这些算法模型大多受到生物神经网络结构的启发。它们可以是一类模式匹配,可以被用于回归和分类问题。它拥有一个巨大的子领域,因为它拥有数百种算法和变体。

深度学习算法

图片

深度学习算法是人工神经网络的更新。他们更关心构建更大更复杂的神经网络。

降维算法

图片

与聚类方法一样,维数减少也是为了寻求数据的固有结构。通常,可视化维度数据是非常有用的。

机器学习应用领域
2.1
数据治理领域

算法、算力、数据是当今人工智能应用的三大要素,人工智能的发展给数据治理带来了新的机遇和挑战。一方面,数据科学研究的兴起为数据治理提供了新的研究范式,使得数据治理的视角、过程和方法都发生了显著变化;另一方面,随着组织业务的增长,海量、多源异构数据给数据管理、存储和应用提出了新的要求。

数据治理是建立数据平台或输出数据解决方案的基础,更是目前人工智能发挥作用的重要支柱。例如,最近研究很火的知识图谱,它的本质其实也是一种数据治理方式,只是它是一种带有语义的数据治理,按照数据-信息-知识的逻辑,就如近两年提出的元数据的管理构建。下面这个PPT展示的是如何利用机器学习的方法来做数据管理,尤其是元数据管理。

图片

机器学习与数据管理

2.2
工业制造领域

机器学习就是一种能够赋予机器学习的能力,让机器利用数据或以往的经验,训练出模型,再根据模型进行预测,以此优化计算机程序的性能标准。那么,机器学习在制造型企业的应用主要体现在三方面:

(1)预测性维护:智能监控,防止设备故障

(2)持续监测确保产品质量

(3)内部物流:AGV自动规划物流路线

图片

机器学习在制造型企业的应用

2.3
汽车领域

现阶段,许多无人驾驶汽车还处在测试阶段,在公共道路上实现完全自动驾驶的想法还处在起步阶段。当自动驾驶汽车在公路上行驶时,必须能够实时响应周围的情况。这意味着通过传感器获取的所有信息必须在汽车中完成处理,而不是提交服务器或云端来进行分析,否则即使是非常短的时间造成不可挽回的损失。

因此,机器学习将是汽车数字基础设施的核心,使它能够从观察到的环境条件中进行学习。对于这些数据,一个特别有趣的应用是映射——汽车需要能够自动响应现实世界的周围环境,以更新地图。因此,每辆车都必须生成自己的导航网络。

近几年,自动驾驶已成为传统车企与科技公司争夺的热点领域,亚马逊、特斯拉、微软等科技巨头更是通过技术优势提前布局自动驾驶。

2.4
医疗健康

人工智能在健康领域的潜能是很多人最为期待的,例如,随着世界范围内出现的老龄化现象,老年人的护理是很多家庭面临的难题,他们通常需要借助外部的帮助。AI则可以为许多家庭做到这一点,包括使用热传感器这样的设备来监测老人在家中是否跌倒等等。

不只是面向用户的AI,在很多医院,AI也已经被用来协助医生进行诊断。让计算机学习大量的影像和诊断数据,提取重要信息,最后给出建议,辅助医生进行决策,可以大大提高诊断效率,与此同时可有效减少漏诊、误诊的现象。

2.5
智能家居

智能家电和智能安防系统是很多公司正在努力的方向,让家中的设备完全脱离人工控制自行运作虽然是比较长远的目标,但是眼下AI已经在这个领域获得了不少的成果。

例如,过去几年中科技公司眼中的宠儿—智能音箱。亚马逊,苹果,百度,等科技公司都推出了自己的智能音箱,用户可以通过语音交互来控制它或者家中其他智能设备。

机器学习创新

亚马逊作为国际科技巨头公司,2015年就在云计算领域推出了机器学习,通过机器学习技术,应用软件可以分析海量数据,建立模型,并获得更加精确的趋势预测结果。亚马逊云服务(AWS)在今年的re:Invent大会上发布了五项全新的机器学习服务、推出Amazon SageMaker 9项新功能,充分体现出AWS在人工智能领域取得的巨大成就。

3.1
AWS推出5项机器学习服务

AWS在re:Invent大会上宣布五项全新的机器学习服务,共同帮助工业和制造业客户在其生产过程中嵌入智能能力,以提高运营效率,改善质量控制、信息安全和工作场所安全。

图片

5项机器学习服务

(1)Amazon Monitron

Amazon Monitron提供由传感器、网关和机器学习服务组成的端到端机器监控系统,以检测异常并预测何时需要维护工业设备。可以帮助客户免去从头开始构建先进的、由机器学习驱动的预测性维护系统的高成本需求和复杂性,使他们能够专注于其核心制造、供应链和运营功能。还可根据振动或温度的异常波动来检测机器是否正常运行,并在可能出现故障时通知客户检查机器以确定是否需要预测性维护。这一端到端的系统提供了用于捕获振动和温度数据的IoT传感器、用于将数据聚合和传输到AWS的网关、以及用于检测异常设备模式并在数分钟内提供结果的机器学习云服务,而无需客户具备任何机器学习或云经验。借助Amazon Monitron,机器维护人员无需任何开发工作或专业培训就可以在数小时内开始跟踪机器的运行状况。

(2)Amazon Lookout for Equipment

Amazon Lookout for Equipment为拥有设备传感器的客户提供了使用AWS机器学习模型来检测异常设备行为并进行预测性维护的能力。首先,客户将其传感器数据上传到Amazon Simple Storage Service (S3),并将S3位置提供给Amazon Lookout for Equipment。也可以从AWS IoT SiteWise提取数据,并与OSIsoft等其他流行的机器操作系统无缝协作。Amazon Lookout for Equipment分析数据,评估正常或健康的模式,再利用从所有训练数据中得到的洞察来构建为客户环境定制的模型。然后,Amazon Lookout for Equipment可以使用机器学习模型来分析传入的传感器数据并识别机器故障的预警信号。这也就使得客户可以进行预测性维护,从而通过防止工业系统生产线崩溃来节省成本并提高生产率。

(3)AWS Panorama Appliance

AWS Panorama Appliance帮助已在工业设施中装配摄像机的客户使用计算机视觉来改善质量控制和工作场所安全。提供了一种新的硬件设备,使组织可以将计算机视觉添加到客户可能已经部署在本地的摄像机中。客户首先将AWS Panorama Appliance连接到他们的网络,然后这一设备会自动识别摄像头数据流并开始与现有的工业摄像头进行交互。AWS Panorama Appliance可集成于那些用于构建自定义机器学习模型或获取视频以进行更精细分析的AWS机器学习服务和IoT服务中。AWS Panorama Appliance将AWS机器学习能力扩展到边缘,以帮助客户在没有网络连接的情况下在本地进行预测。每个AWS Panorama Appliance都可在多个摄像头数据流上并行运行计算机视觉模型,从而使诸如质量控制、零件识别和工作场所安全的用例成为可能。AWS Panorama Appliance还可与适用于零售、制造、建筑和其他行业的AWS和第三方经过预先培训的计算机视觉模型一起使用。

(4)AWS Panorama

AWS Panorama软件开发套件(SDK)允许工业相机制造商在新相机中嵌入计算机视觉功能。使用AWS Panorama SDK构建的摄像头可在多种用例中运行计算机视觉模型,例如检测快速移动的传送带上的损坏部件或定位那些脱离指定工作区域的器械等。这些相机可以使用英伟达和安霸旗下用于计算机视觉的芯片。通过使用AWS Panorama SDK,制造商可以开发自带计算机视觉模型的相机,从而可以处理更高分辨率的高质量视频以发现问题。他们还可以在低成本设备上构建更复杂的模型,这些设备可以通过以太网供电并可以放置在站点周围。客户可在Amazon SageMaker中训练模型,并一键将其部署到使用AWS Panorama SDK构建的摄像机上。客户还可以将Lambda功能添加到使用AWS Panorama SDK构建的摄像头中,以通过文本或电子邮件提醒潜在问题。AWS还提供用于PPE检测和保持人员距离等任务的预构建模型,并且可以在几分钟内部署这些模型,而无需进行任何机器学习工作或特殊优化。

(5)Amazon Lookout for Vision

Amazon Lookout for Vision为客户提供了一种高精度、低成本的异常检测解决方案,可以通过机器学习技术每小时处理数千张图像以发现缺陷和异常。客户将摄像头图像批量或实时发送到Amazon Lookout for Vision以识别异常,例如机器部件的裂纹、面板上的凹痕、不规则形状或产品上的颜色错误等。然后,Amazon Lookout for Vision报告与基线不同的图像,以便客户采取适当的措施。Amazon Lookout for Vision有强大的技术能力可以处理因工作环境变化而引起的相机角度、方位和照明方面的差异。客户可以通过至少提供30张“良好”状态的图像建立基线,准确、一致地评估机械零件或制成品。Amazon Lookout for Vision也可以在Amazon Panorama设备上运行。

3.2
AWS推出Amazon SageMaker 9项新功能

AWS还为其业界领先的机器学习服务Amazon SageMaker推出九项新的功能,包括更易用的数据预处理、专用的特征存储、自动化工作流、更多的训练数据可见性以减少数据倾斜和更好的预测解释、大型模型的分布式训练速度可最多提升两倍,以及监控边缘设备上的模型。使开发人员更容易自动化、规模化的构建端到端的机器学习工作流。具体功能如下图

图片

Amazon SageMaker 9项新功能

机器学习趋势分析及未来展望
4.1
超自动化的机器学习

新型冠状病毒疫情推动了超自动化这一概念的采用,该概念也被称为“数字过程自动化”或“智能过程自动化”。它组织几乎所有可以实现自动化的东西(例如遗留业务流程)都实现自动化。

机器学习和人工智能是超自动化的关键部分和重要推动力(以及诸如流程自动化工具之类的各种创新)。为了提高效率,超级自动化活动不能依赖于静态打包的软件。自动化的业务流程必须能够适应不断变化的条件并应对突发情况。

4.2
业务预测与分析

近年来,时间序列分析已经成为主流,并成为今年的热门模式。通过采用这种策略,行业专家可以在一段时间内收集和筛选数据,然后对这些数据进行检查并用于做出明智的决策。利用不同的数据集进行训练时,机器学习可以给出准确性高达95%的猜想。

在未来,可以预期组织应该融合递归神经网络来进行更加准确的预测。例如,可以融合机器学习解决方案以发现隐藏的模式和准确的预测。保险公司发现潜在的欺诈就是一个很好的例证。这可能对他们带来成本高昂的代价。

4.3
异常检测

异常检测(anomaly detection),也叫异常分析 (outlier analysis),异常检测就是从茫茫数据中找到那些“长得不一样”的数据。在未来,异常检测有非常广泛的应用场景,例如:

  • 金融业:从海量数据中找到“欺诈案例”,如信用卡反诈骗,识别虛假信贷;

  • 网络安全:从流量数据中找到“侵入者”,识别新的网络入侵模式;

  • 在线零售:从交易数据中发现“恶意买家”,比如恶意刷评等;

  • 生物基因:从生物数据中检测“病变”或“突变。

4.4
机器学习与物联网

物联网是一个快速发展的细分市场。机器学习的利用与物联网逐渐交织在一起。例如,现在正在利用机器学习、人工智能、深度学习来使物联网设备和服务更智能、更安全。在任何情况下,由于机器学习和人工智能需要大量的数据才能有效地工作,这两者的优势是双向的,这正是物联网传感器和设备网络所提供的。

例如,在工业环境中,制造工厂的物联网网络都可以收集运营和性能信息,然后由人工智能系统进行分析,以提高生产系统的性能、支持效率并预测机器何时需要维护。

4.5
强化学习

强化学习(RL)在未来几年内可以被组织普遍采用。它是对深度学习的独特利用,组织可以利用自己的经验来提高捕获数据的有效性。在强化学习中,人工智能编程是在各种条件下设置的,这些条件描述了软件将执行何种活动。针对不同的动作和结果,采用软件进行自学习,以达到理想的最终目标。

强化学习的一个理想例证是聊天机器人,它可以处理简单的用户查询,例如问候、订单预订、咨询电话。机器学习开发公司可以利用强化学习(RL)通过添加顺序条件使聊天机器人更加巧妙,例如区分潜在客户并将呼叫转移到相关的服务代理。强化学习(RL)的其他一些应用包括商业战略规划的机器人技术、机器人运动控制、工业自动化以及飞机控制。

4.6
更快的计算能力

人工智能分析师开始了解人工神经网络的功能以及采用它们的最佳实践。这表明在未来,算法的突破将继续出现在务实的发展和新的问题解决系统。随着第三方云计算服务提供商鼓励在云平台中部署机器学习算法,云计算机器学习解决方案也正在迅速崛起。人工智能可以解决一系列问题,这些问题需要寻找洞察力并做出决策。然而,如果组织没有处理机器建议的能力,则很难接受这个建议。通过特定的路线,可以预见在此期间的持续增长,以提高有关人工智能算法的透明度和可解释性。

结束语

机器学习无疑是当前数据分析领域的热点内容,机器学习已经不断地在各行各业深入应用,国家层面已经提出将数据作为重要的生产要素。因此,数据能力是考量企业发展的重要因素,那么机器学习的应用在企业数字化转型过程中有着至关重要的作用。

本文来自数据工匠俱乐部,如有不妥请联系删除,仅供交流学习。

联系我们

QQ 1969801705

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息