什么是数据挖掘?它原理,好处,技术和示例

更新时间:2023-06-23

什么是数据挖掘?

数据挖掘是搜索和分析大量原始数据以识别模式并提取有用信息的过程。
数据挖掘
公司使用数据挖掘软件来了解有关其客户的更多信息。它可以帮助他们制定更有效的营销策略,增加销售额并降低成本。数据挖掘依赖于有效的数据收集、仓库和计算机处理。

关键要点

  • 数据挖掘是分析大量信息以识别趋势和模式的过程。
  • 公司可以使用数据挖掘进行从了解客户感兴趣或想要购买的内容到欺诈检测和垃圾邮件过滤。
  • 数据挖掘程序根据用户请求或提供的信息来分解数据中的模式和连接。
  • 社交媒体公司使用数据挖掘技术将其用户商品化以产生利润。
  • 这种数据挖掘的使用最近受到批评,因为用户通常不知道他们的个人信息发生数据挖掘,特别是当它被用来影响偏好时。

数据挖掘的工作原理

数据挖掘涉及探索和分析大块信息,以收集有意义的模式和趋势。它用于信用风险管理、欺诈检测和垃圾邮件过滤。它也是一种市场研究工具,有助于揭示特定人群的情绪或意见。数据挖掘过程分为四个步骤:
  • 数据收集并加载到现场或云服务上的数据仓库中。
  • 业务分析师、管理团队和信息技术专业人员访问数据并确定他们希望如何组织数据。
  • 自定义应用软件对数据进行排序和组织。
  • 最终用户以易于共享的格式(如图形或表格)呈现数据。

数据仓库和挖掘软件

数据挖掘程序根据用户请求分析数据中的关系和模式。它将信息组织成类。
例如,一家餐厅可能希望使用数据挖掘来确定它应该提供哪些特色菜以及在什么日期提供。数据可以根据客户访问的时间和他们订购的内容组织成类。在其他情况下,数据挖掘者根据逻辑关系找到信息集群,或者查看关联和顺序模式,以得出有关消费者行为趋势的结论。
仓储是数据挖掘的一个重要方面。仓储是将组织的数据集中到一个数据库或程序中。它允许组织剥离数据段,供特定用户根据其需求进行分析和使用。云数据仓库解决方案使用云提供商的空间和功能来存储数据。这使较小的公司能够利用数字解决方案进行存储、安全和分析。

数据挖掘技术

数据挖掘使用算法和各种其他技术将大量数据转换为有用的输出。最流行的数据挖掘技术类型包括:
  • 关联规则(也称为市场篮分析)搜索变量之间的关系。这种关系本身在数据集中创造了额外的价值,因为它努力链接数据片段。例如,关联规则将搜索公司的销售历史记录,以查看最常一起购买的产品;有了这些信息,商店就可以计划、推广和预测。
  • 分类使用预定义的类分配给对象。这些类描述项目的特征或表示数据点与每个项目的共同点。这种数据挖掘技术允许在类似的功能或产品线中更整齐地对基础数据进行分类和汇总。
  • 聚类类似于分类。但是,聚类分析可识别对象之间的相似性,然后根据这些项目与其他项目的不同之处对这些项目进行分组。虽然分类可能导致“洗发水”、“护发素”、“肥皂”和“牙膏”等组,但聚类可以识别“头发护理”和“牙齿健康”等组。
  • 决策树用于根据一组标准或决策列表对结果进行分类或预测。决策树用于请求输入一系列级联问题,这些问题根据给出的响应对数据集进行排序。决策树有时被描述为树状视觉对象,允许在深入钻取数据时提供特定的方向和用户输入。
  • K-最近邻 (KNN) 是一种根据数据与其他数据的接近程度对数据进行分类的算法。KNN 的基础植根于这样的假设,即彼此接近的数据点比其他数据位更相似。这种非参数的监督技术用于根据单个数据点预测组的特征。
  • 神经网络通过使用节点来处理数据。这些节点由输入、权重和输出组成。数据通过监督学习进行映射,类似于人脑相互连接的方式。可以对该模型进行编程,以给出阈值以确定模型的准确性。
  • 预测分析致力于利用历史信息来构建图形或数学模型来预测未来的结果。与回归分析重叠,该技术旨在根据当前手头的数据支持未来的未知数字。

数据挖掘过程

为了最有效,数据分析师通常会在数据挖掘过程中遵循一定的任务流。如果没有这种结构,分析师可能会在分析过程中遇到问题,如果他们早点做好准备,这个问题本来很容易避免。数据挖掘过程通常分为以下步骤。

第 1 步:了解业务

在接触、提取、清理或分析任何数据之前,了解基础实体和手头的项目非常重要。该公司试图通过挖掘数据来实现的目标是什么?他们目前的业务状况如何?SWOT 分析的结果是什么?在查看任何数据之前,挖掘过程首先要了解该过程结束时的成功定义。

步骤 2:了解数据

明确定义业务问题后,就该开始考虑数据了。这包括可用的来源、如何保护和存储它们、如何收集信息以及最终结果或分析可能是什么样子。此步骤还包括确定数据、存储、安全性和收集的限制,并评估这些约束将如何影响数据挖掘过程。

步骤 3:准备数据

收集、上传、提取或计算数据。然后对其进行清理、标准化、清除异常值、评估错误并检查合理性。在数据挖掘的这个阶段,还可以检查数据的大小,因为过大的信息集合可能会不必要地减慢计算和分析速度。

步骤 4:构建模型

有了我们干净的数据集,是时候处理数字了。数据科学家使用上述数据挖掘类型来搜索关系、趋势、关联或顺序模式。数据也可以输入预测模型,以评估以前的信息位如何转化为未来的结果。

步骤 5:评估结果

数据挖掘的以数据为中心的方面通过评估一个或多个数据模型的结果来结束。分析的结果可能会被汇总、解释并呈现给到目前为止基本上被排除在数据挖掘过程之外的决策者。在此步骤中,组织可以选择根据结果做出决策。

步骤 6:实施更改和监视

数据挖掘过程结束时,管理层根据分析结果采取措施。公司可能会认为信息不够有力或调查结果不相关,或者公司可能会根据调查结果进行战略调整。在任何一种情况下,管理层都会审查业务的最终影响,并通过识别新的业务问题或机会来重新创建未来的数据挖掘循环。 不同的数据挖掘处理模型将具有不同的步骤,尽管一般过程通常非常相似。例如,知识发现数据库模型有九个步骤,CRISP-DM模型有六个步骤,SEMMA过程模型有五个步骤。1

数据挖掘的应用

在当今的信息时代,几乎任何部门、行业、部门或公司都可以利用数据挖掘。

销售

数据挖掘鼓励更智能、更高效地利用资本来推动收入增长。考虑在您最喜欢的当地咖啡店进行销售点登记。对于每笔销售,该咖啡馆都会收集购买时间和销售的产品。利用这些信息,商店可以战略性地制作其产品线。

营销

一旦上面的咖啡馆知道了它的理想阵容,就该实施这些变化了。但是,为了使营销工作更有效,商店可以使用数据挖掘来了解客户在哪里看到广告、定位哪些人口统计数据、在哪里放置数字广告以及哪些营销策略最能引起客户的共鸣。这包括使营销活动、促销优惠、交叉销售优惠和计划与数据挖掘的结果保持一致。

制造业

对于生产自己产品的公司来说,数据挖掘在分析每种原材料的成本、最有效的材料使用、制造过程中花费的时间以及哪些瓶颈对流程产生负面影响方面起着不可或缺的作用。数据挖掘有助于确保货物流动不间断。

欺诈检测

数据挖掘的核心是查找将数据点链接在一起的模式、趋势和相关性。因此,公司可以使用数据挖掘来识别不应该存在的异常值或相关性。例如,一家公司可能会分析其现金流并找到未知账户的重复交易。如果这是出乎意料的,公司可能希望调查资金是否管理不善。

人力资源

人力资源部门通常有广泛的数据可供处理,包括有关保留、晋升、工资范围、公司福利、这些福利的使用和员工满意度调查的数据。数据挖掘可以将这些数据关联起来,以更好地了解员工离职的原因以及吸引新员工的原因。

顾客服务

客户满意度可能由于各种原因而引起(或破坏)。想象一下,一家运送货物的公司。客户可能对运输时间、运输质量或通信不满意。同一客户可能会对电话等待时间过长或电子邮件响应缓慢感到沮丧。数据挖掘收集有关客户交互的运营信息,并总结调查结果,以查明弱点并突出公司做得对的地方。

数据挖掘的好处

数据挖掘确保公司收集和分析可靠的数据。它通常是一个更僵化、结构化的过程,它正式识别问题,收集与问题相关的数据,并努力制定解决方案。因此,数据挖掘有助于企业变得更有利可图、更高效或运营更强大。

数据挖掘在不同应用程序中看起来可能大不相同,但整个过程几乎可以用于任何新的或旧的应用程序。基本上可以收集和分析任何类型的数据,并且几乎所有依赖于可定性证据的业务问题都可以使用数据挖掘来解决。

数据挖掘的最终目标是获取原始信息,并确定数据之间是否存在内聚或相关性。数据挖掘的这种好处使公司能够利用他们手头的信息创造价值,否则这些信息不会过于明显。虽然数据模型可能很复杂,但它们也可以产生引人入胜的结果,发现隐藏的趋势,并提出独特的策略。

数据挖掘的局限性

数据挖掘的这种复杂性是其最大的缺点之一。数据分析通常需要技术技能和某些软件工具。较小的公司可能会发现这是一个难以克服的进入障碍。
数据挖掘并不总是能保证结果。公司可能会进行统计分析,根据强有力的数据得出结论,实施变革,而不会获得任何好处。通过不准确的结果、市场变化、模型错误或不适当的数据填充,数据挖掘只能指导决策,而不能确保结果。
数据挖掘还有一个成本组成部分。数据工具可能需要昂贵的订阅,并且某些数据位的获取成本可能很高。安全和隐私问题可以得到平息,尽管额外的IT基础设施也可能很昂贵。使用大型数据集时,数据挖掘也可能是最有效的;但是,必须存储这些数据集,并且需要大量的计算能力来分析。即使是大公司或政府机构也面临着数据挖掘的挑战。考虑一下FDA关于数据挖掘的白皮书,其中概述了不良信息,重复数据,少报或多报的挑战。

数据挖掘和社交媒体

数据挖掘最有利可图的应用之一是由社交媒体公司进行的。Facebook,TikTok,Instagram和Twitter等平台根据用户的在线活动收集有关用户的大量数据。这些数据可用于推断他们的偏好。广告主可以将他们的消息定位到最有可能做出积极回应的用户。
社交媒体上的数据挖掘已成为一个争论的焦点,一些调查报告和曝光表明挖掘用户数据的侵入性有多大。问题的核心是,用户可能同意网站的条款和条件,而不了解他们的个人信息是如何被收集的或他们的信息被出售给谁的。

数据挖掘示例

数据挖掘可以用于好事,也可以非法使用。这是两者的示例。

易趣和电子商务

eBay每天从卖家和买家那里收集无数的信息。该公司使用数据挖掘来归因产品之间的关系,评估所需的价格范围,分析先前的购买模式并形成产品类别。
eBay概述了推荐流程:
  1. 聚合原始项目元数据和用户历史数据。
  2. Scrips 在经过训练的模型上运行,以生成和预测项目和用户。
  3. 执行 KNN 搜索。
  4. 结果将写入数据库。
  5. 实时建议获取用户 ID,调用数据库结果,并将其显示给用户。

Facebook-Cambridge Analytica丑闻

数据挖掘的另一个警示例子是Facebook-Cambridge Analytica数据丑闻。在2010年代,英国咨询公司Cambridge Analytica Ltd.收集了数百万Facebook用户的个人数据。这些信息后来被分析用于2016年特德克鲁兹和唐纳德·特朗普的总统竞选活动。人们怀疑剑桥分析公司干扰了英国脱欧公投等其他值得注意的事件。4
鉴于这种不适当的数据挖掘和滥用用户数据,Facebook同意支付100亿美元,以误导投资者使用消费者数据。美国证券交易委员会声称Facebook在2015年发现了滥用行为,但两年多来没有纠正其披露。

常见问题

数据挖掘有哪些类型?

数据挖掘有两种主要类型:预测数据挖掘和描述性数据挖掘。预测数据挖掘提取可能有助于确定结果的数据。说明数据挖掘通知用户给定的结果。

数据挖掘是如何完成的?

数据挖掘依赖于大数据和高级计算过程,包括机器学习和其他形式的人工智能(AI)。目标是找到可以从大型和非结构化数据集进行推理或预测的模式。

数据挖掘的另一个术语是什么?

数据挖掘也使用较少使用的术语“数据中的知识发现”或KDD。

数据挖掘在哪里使用?

数据挖掘应用程序旨在承担任何依赖大数据的努力。金融部门的公司寻找市场的模式。政府试图识别潜在的安全威胁。公司,尤其是在线和社交媒体公司,使用数据挖掘来创建针对特定用户群的有利可图的广告和营销活动。

总结

现代企业有能力收集有关其客户、产品、生产线、员工和店面的信息。这些随机的信息可能无法说明一个故事,但使用数据挖掘技术、应用程序和工具有助于将信息拼凑在一起。
 
数据挖掘过程的最终目标是编译数据、分析结果并基于数据挖掘结果执行操作策略。

下一篇

开源SIP服务器你了解多少

通信系统集成

开源SIP服务器你了解多少

SIP服务器是促进基于互联网的电话的重要工具。它将您公司的IPPBX连接到互联网电话服务提供商(ITSP)。SIP开源服务器允许您以低成本创建自己的服务器,这与许多商业替代方案不同。 ...

相关内容

什么是SPI?

什么是SPI?

SPI是串行外设接口( Serial Peripheral nterface )......

通信百科

2023-11-25

什么是骨传导耳机?

什么是骨传导耳机?

骨传导耳机(有时称为“骨耳机”)是通过用户头骨中的骨骼而不是耳道传输声波的耳机。......

通信百科

2023-11-25

大数据工程师

大数据工程师

大数据工程师是信息技术 (IT) 专业人员,负责设计、构建、测试和维护处理大型数......

通信百科

2023-11-24