预测建模,数据分析和企业分析工具

从定义到现代应用,了解有关预测建模的所有知识。

定义:什么是预测建模?

预测建模是利用数据模型,使用数据和统计数据来预测结果的过程。这些模型可用来预测从体育比赛结果到电视收视率,再到技术进步和公司盈利的任何情况。

预测建模也常称作:

这些同义词通常可以互换使用。不过预测性分析通常指的是预测建模的商业应用,而预测建模的使用更广泛,或者说更常用于学术方面。在这些术语中,预测建模的使用频率更高,下面的 Google 趋势图表说明了这一点。机器学习也不同于预测建模,其定义为利用统计技术,以使电脑可以构建预测模型。在实际应用中,机器学习和预测建模这两个术语通常可以互换使用。然而,机器学习是人工智能的一个分支,它指的是机器所展现的智能。

在本文中,我们主要使用“预测建模”这个术语,但“预测建模”、“预测性分析”和“机器学习”这几个术语是可以互换使用的。

从 2004 年起,对机器学习的搜索比预测性分析更加流行,而机器学习的搜索流行度在近几年一直稳步增加。

概况

预测建模非常有用,因为它可以准确地分析任何问题,并使用户能够创建预测。为了保持竞争优势,必须深入了解对关键假设带来挑战的未来事件和结果。

分析专业人员通常将以下来源的数据提供给预测模型:

分析领导者必须使预测建模的计划与组织的战略目标保持一致。例如,计算机芯片制造商可能会设定战略上的优先目标:到 2025 年生产出业内晶体管数量最多的芯片。分析专业人员可以构建一个预测模型,只要向模型输入产品、地理位置、销售和其他相关的趋势数据,就能预测成为领导者所需的单个芯片的晶体管数量。其他来源可能包括晶体管最密集的芯片、对计算能力的商业需求,以及芯片制造商和硬件制造商之间的战略合作伙伴关系方面的数据。一旦计划开始实施,分析专业人员就可以进行追溯性分析,以评估预测模型的准确性和计划的成功机率。

分析人员必须对数据进行组织,以和模型保持一致,以便计算机可以为假设检验创建预测和输出。商业智能 (BI) 工具以仪表盘、可视化效果和报告的形式提供见解。为了确保持续改进,需制定一个流程。在将预测模型纳入业务实践中时需要考虑的重要事项包括:

预测建模和数据分析

在四种类型的数据分析中,预测建模与预测性分析这一类别最密切相关。数据分析的四种类型如下:

描述性分析

描述性分析对数据进行描述。例如,一家软件即服务 (SaaS) 公司在第 2 季度和第 1 季度分别销售了 2,000 个和 1,000 个许可证。描述性分析可以回答第 1 季度和第 2 季度销售了多少许可证的问题。

诊断性分析

诊断性分析是描述性分析背后的原因。仍以前面的例子来说明,诊断性分析是对数据的进一步分析。数据分析师可以深入了解每个季度的软件许可证销售情况,并确定各个地区的销售和营销工作,以便与销售增长情况相对照。他们还可以判断销售的增长是高业绩销售人员带来的,还是对某个行业的兴趣增加的结果。

预测性分析

预测性分析利用机器学习和数据挖掘等方法来预测接下来可能发生的事情。它永远无法预测未来,但可以通过分析现有数据确定可能的结果。一旦数据分析师有了足够的数据来预测结果,就可以构建预测模型。预测性分析与数据挖掘不同,因为后者注重发现变量之间隐含的关系,而前者则运用模型来确定可能的结果。SaaS 公司可以根据每个地区的营销支出对历史销售数据建模,从而根据营销支出创建关于未来收入的预测模型。

指示性分析

指示性分析是最后一步,可根据预测结果提出建议。只要有了预测模型,它就能根据历史数据、外部数据源和机器学习算法推荐应采取的行动。

应用

HR 分析

预测建模在 HR 分析领域有许多用途,包括从招聘到员工留任。HR 专业人员可以利用预测建模,在人力资源规划、绩效管理及其他许多方面做出重要决策,从而实现战略性 HR 领导。

预测建模可以帮助 HR 专业人员预测各种关键问题。以下是预测建模的一些常见的 HR 分析用途:

雇主通常利用预测指数 (PI) 来评估潜在候选人和现有员工的人际关系因素,如支配性、外向性、耐心、行为举止、决策和热情。它利用不定时的自我评估,并应用预测建模来找到最合适的候选人,或找到公司内部具有领导才能的人。

如果一个预测模型很准确,我们就称其具有预测有效性。例如,如果就业前考试能够正确预测未来的工作表现,就具有预测有效性。

预测建模是保持人力资源竞争优势的关键方式之一。保持相对于竞争对手的信息优势可以使 HR 领导者一直聘用最优秀的候选人,提前发现劳动力需求,提拔合适的员工,留住高绩效员工,正确调整激励措施等等。

客户流失预防

无论对于企业对企业 (B2B) 还是企业对消费者 (B2C) 组织,客户流失预防都是常见的业务分析用例。无论对于任何企业,让现有客户满意都是最重要的。如果可靠的客户突然停止购买企业的产品,公司必须更加努力,通过寻找新客户或向其他现有客户销售更多产品来弥补这部分收入。此外,由于客户获取成本往往相对较高,这意味着新客户比以前或现有的客户更难找到,这就使客户流失成为更加紧要的问题。幸运的是,企业可以利用预测建模来防止客户流失。有了足够的数据,企业可以建立模型来识别客户流失的最佳预测因子,例如客户服务沟通、人口统计数据或细分市场预测因子等特定客户行为。有了这些信息,企业就可以通过确保某些客户群的优质体验、修复任何有问题的产品功能,或对表现出不满意迹象的客户给予特殊对待来防止客户流失。只要公司有足够的数据(CRM 或其他数据)来创建强大而有效的模型,这个用例就可以应用于各种行业和产品细分市场。通过为企业提供减少客户流失的途径,预测性分析可以显著增加盈利。

医疗诊断

医疗诊断是医疗保健行业中预测建模的最佳示例之一,并且该行业已经因此而经历了重大变革。由于每年有着数百万条数据记录,医疗领域可用的数据量足以创建极其精确的模型。在医学领域有许多用于预测建模的用例,但预测性诊断已经对该领域产生了重大影响,并且继续不断取得具有新闻价值的突破。其中的一个例子是 Q-Poc,这是由英国医疗设备公司 QuantumMDx 生产的一种诊断工具,该工具利用预测建模,可在不到 20 分钟的时间内产生诊断结果。这种设备一旦广泛采用,可以彻底改变专业人员在全球范围内提供医疗服务的方式,并可解决诸如诊断不准确、等候时间等痛点。预测建模在医疗保健领域的另一个用途是罕见疾病诊断。例如,在 2016 年,IBM 宣布与德国马尔堡大学医院的未确诊和罕见疾病中心 (Undiagnosed and Rare Diseases Centre) 建立合作伙伴关系。在该中心,多方求医的患者(有的已经咨询过多达 40 位医生)到专门研究罕见疾病的医疗专业人员处就医。除了 IBM 以外,Google 也和几家英国医院合作开展了类似项目。改善罕见疾病和一般医疗的诊断未来每年可以帮助数百万人。

尽管利用预测建模和算法进行诊断的一些系统和设备现在已能胜过医疗专业人员,但医生似乎不太可能被电脑取代。不过改进后的预测性诊断建模必将改变医生的工作方式。自然语言技术可以通过减少数据输入和处理,以及后续预测所需的时间来减轻医疗专业人员的负担。因此,医生的工作可能会因此而不再包括诊断。

预测性维护

在销售和市场营销应用之外,许多预测建模的用例围绕着降低成本的举措,而在许多行业中,这些举措是竞争优势的关键来源。在制造、汽车、特种化学品、包装消费品、石油和天然气,以及公用事业等行业中,由于行业的高度竞争性,成本削减措施处于优先地位。这些行业往往也是资本密集型的,这意味着成品生产所需的大部分资金都投入在设备和工厂成本方面。预测建模可以提供节约这些关键资源的维护成本的方法。经过设备使用、内部视频数据和温度数据等相关数据训练的预测模型可用于确定机器何时需要维护。这些行业的公司可以因此避免发生设备故障和更大的维修问题,从而节省数百万美元的成本。这些公司可以利用预测模型主动进行维护。

客户终身价值

在销售和营销方面,有着各种有关预测建模的潜在用例。其中一个用例是分析和预测客户的总终身价值。能够准确预测客户的终身价值对任何企业都非常重要。想象一下,如果能够预测未来五年或十年内哪些客户将在您的商店中消费最多,那该多好。这些客户不就是特别优惠、慷慨的忠诚计划或特殊待遇的最好对象吗?幸运的是,对于企业而言,预测建模可以在客户终身价值问题上提供大量的见解。只要有足够的相关数据,预测模型可以为客户的终身价值得出准确的预测。

金融与银行

在预测模型和机器学习基础上的异常检测被金融组织用于检测欺诈性交易。这些组织可以在金额、时间和地理位置等因素的基础上分析以往的支出模式,以确定正常支出行为的基线。如果存在异常,则通知组织,并且可以在对消费者的帐户进行进一步交易之前向其发出警告,以对购买进行验证。

物流优化

预测建模的另一个可降低成本的应用是物流优化。对于需要密集的物流支持的行业(如投递),预测建模可以减轻物流规划的负担,进行成本节约调整,并为员工提供实时反馈。例如,预测模型可以优化运输车辆的行驶路线。这样可以缩短总的行驶距离,提高燃油效率并缩短投递时间,从而改善客户满意度。在其中一个案例中,一家以欧洲市场为中心的货运公司得以通过预测建模,将其燃料成本降低了 15%。传感器收集有关车辆性能和驾驶员行为的数据,由该模型自动指导驾驶员的最佳驾驶行为,包括如何调整车速,以优化燃油消耗。预测建模在物流上的应用可以对这类行业中的燃料成本和维护产生重大影响。

决策支持系统 (DSS)

决策支持系统是数字信息系统,旨在通过数据的组织、编纂和呈现来帮助决策者解决问题。这些系统用途广泛,包括从财务仪表盘到带数据叠加的地理空间地图。预测建模用于高级决策支持系统,为决策者提供一系列可能的结果,以及基于历史数据发生这些结果的可能性。DSS 在与可视化分析功能结合后,可加快决策过程,因为人们往往更容易通过视觉呈现而不是网格格式来了解复杂的关联。

预测模型有哪些类型?

预测模型在广义上可以分为两大阵营:参数化和非参数化。虽然这些术语看似技术行话,但本质上的区别在于,参数化模型对创建模型时使用的群体特征做出了更多和更具体的假设。具体而言,以下是一些不同类型的预测模型:

这些类型中的每一种都有特定的用途,并回答特定的问题或使用某种类型的数据集。尽管不同类型的模型之间存在方法和数学上的差异,但每种模型的总体目标是相似的:都是要根据过去结果的数据来预测未来或未知的结果。

预测建模有哪些益处?

预测建模的核心是显著降低企业预测业务成果、环境因素、竞争情报和市场条件所需的成本。以下是使用预测建模创造价值的一些方法:

预测建模最大的挑战是什么?

预测模型和技术可以带来巨大的好处,但这并不意味着这些好处是自然而然就能实现的。事实上,预测建模在实践中带来了许多挑战。这些挑战包括:

预测建模的未来

毫无疑问,预测建模的未来与人工智能密切相关。随着计算能力的不断提高,数据收集呈指数级增长,新技术和新方法应运而生,电脑在创建模型方面将承受主要负担。全球性管理咨询公司 McKinsey and Co. 最近研究了未来的趋势,其中的一些趋势详述如下。

技术进步

部分由于计算能力和数据量的最新进展,预测建模技术提高了有新闻价值的常规突破的影响。预测算法在许多领域变得非常复杂,特别是计算机视觉、复杂的游戏和自然语言方面。

工作变化

由于电脑变得更加智能,预测建模专业人员的工作也和其他职业一样,将会为了适应新出现的预测技术而改变。从事预测建模工作的人不太可能过时,但他们的角色将以一种对新的预测技术特征和功能起补充作用的方式转变,并且他们需要获得新的技能,以胜任这些新角色。

风险缓解

预测技术的进步在商业和科学价值创造方面极具前景,但这些进步也需要缓解风险。其中一些风险集中在数据隐私和安全性方面。随着数据量的指数级增长,保护数据免受黑客攻击和缓解其他隐私问题的重要性也在增加。此外,研究人员指出了将蓄意和无意识的社会偏见设计至预测模型和算法的风险,这一问题对政策制定者和大型科技公司来说非常重要。

预测建模的局限

预测建模虽然有许多很有价值的益处,但肯定有其局限性。除非满足某些条件,否则预测建模可能无法提供其全部的潜在价值。事实上,如果不满足这些条件,预测模型与遗留方法或传统智慧相比,可能无法提供任何价值。重要的是要考虑这些局限性,以便从预测建模举措中实现最大的价值。McKinsey and Co. 最近对用例、价值创造和局限性进行了分析,根据这些分析,其中的一些挑战如下:

数据标记

特别是在机器学习中,由于是计算机来构建预测模型,必须对数据进行标记和适当分类。这个过程可能不精确,充满错误,并且通常任务繁重。然而,它是构建模型的必要组成部分,并且,如果不能完成适当的分类和标记,则产生的任何预测模型将会出现性能不佳和与分类不当相关的问题。

获得巨量训练数据集

为了使统计方法在预测结果方面始终获得成功,需要满足一个基本原则:足够的样本量。如果预测建模专业人员没有足够的数据来构建模型,则所生成的模型将受到其所使用的数据中的噪声的不当影响。当然,相对较小的数据集往往表现出更多的变化,换句话说,更多的噪声。目前,达到足够高的模型性能所需的记录数量从数千到数百万不等。除了大小以外,所使用的数据还必须能代表目标人群。如果样本量足够大,则数据应包含各种记录(包括唯一或异常情况),以优化模型。

可解释性问题

随着更复杂和更深奥的模型和方法的出现,如何解开模型,确定为何做出某个决策或预测往往是一个巨大的挑战。随着模型纳入更多的数据记录或更多的变量,可以解释预测的因素变得模糊,这在某些领域是一个重大的局限。在需要可解释性的行业或用例中,例如有着重大法律或监管后果的环境,记录流程和决策的需要可能会妨碍复杂模型的使用。这种限制可能会推动对新方法的需求,这些新方法既要能够处理巨大的数据量和复杂性,又要能够在决策过程中保持透明。

学习的泛化

泛化是指模型从一个用例推广到另一个用例的能力。与人类不同,模型往往会受到泛化,也称外部有效性的困扰。通常,如果为特定情况构建了模型,就不应该将其用于不同的情况。尽管转移学习(一种试图解决这个问题的方法)这样的方法正在开发中,但泛化仍然是预测建模的一个重要局限。

数据和算法偏差

虽然更多涉及道德或哲学问题,而不是技术问题,但有些人认为创建预测模型的研究人员和专业人员在选择使用哪些数据和排除哪些数据时必须小心。由于历史偏差可以嵌入数据的最底层,因此在尝试解决这些偏差时必须非常小心,否则它们的影响可能会通过预测模型一直延续到未来。

预测建模工具

Apache Hadoop

以黄色大象标识在技术行业为人熟知的 Apache Hadoop(通常简称 Hadoop)是一个开源软件工具集合,旨在帮助计算机网络协同处理涉及大量数据的任务。Hadoop 主要用作存储和处理工具。处理工具是一个 MapReduce 编程模型。Hadoop 还指 Apache Hadoop 生态系统中的许多其他软件包。这些软件包包括:

Hadoop 在预测建模领域变得非常有用和重要,对于需要大数据存储的模型或问题尤为如此。具有 Hadoop 生态系统技能或专业知识的预测建模专业人员,尤其是在 MapReduce 和 Apache Hive 等软件包领域,可以因这些技能而获得高工资。

R

R 语言是一种用于统计计算和图形的开源编程语言。分析师需要一定的技术技能才能有效地使用此工具。它包括线性回归、非线性建模和时间序列测试等功能。用例包括:

Python

Python 是一种用于一般编程的高级编程语言。虽然 R 语言是专为统计数据而构建的,但在数据挖掘、成像和数据流功能方面,Python 已经胜过了 R 语言。它比 R 语言的功能更全面,常用于其他程序。Python 通常比 R 语言更好学,且最适合用于任务自动化。

Microstrategy

MicroStrategy 是一个企业分析和移动平台,包括 R、Python 和 Google Analytics 的集成。它有 60 多个数据源连接器,因此分析师可以通过混合不同的数据来获得见解。这些数据可以输出到数据可视化效果中,而仪表盘报告则可以快速获得见解,并且可以在整个组织中轻松共享。MicroStrategy 还包括高级分析功能(包括预测性分析),有 300 多个本地分析函数,以及开源和第三方统计程序。其中的一些例子包括:

预测建模:诚聘英才

由于数据的爆炸、技术的进步和其具有的经过验证的增值能力,预测建模将是未来多年高速增长的领域。实际上,IBM 在 2017 年预测,到 2020 年,对数据科学和分析专业人员的需求将增长 15%。

虽然许多公司知道他们需要对其业务采用预测建模,但目前缺乏具有适当综合技能的候选人才。因此,企业为合格的申请人提供了很高的工资,以引诱他们离开竞争对手或从其他工作转行。虽然合格候选人才的数量正在增加,但对这些专业人员的需求正在以显著的速度增长。

预测建模的工作职位

一些常见的工作职位包括:

预测建模:需要哪些技能?

预测建模专业人员的收入是多少?

薪酬取决于候选人才的背景和公司的需求,但数据科学技能意味着更高的薪水。某些技能的薪水更高,它们是:MapReduce、Apache Hive 和 Apache Hadoop。

Data Scientist Starting Salary

常见问题

什么是预测性分析?
预测性分析有哪些例子?
什么是计分模型?
iPhone 是如何利用预测建模的?
什么是预测模型?
为什么预测性分析很重要?