• 原创美文
  • 经典文章
  • 情感美文
  • 伤感文章
  • 散文
  • 美文随笔
  • 感人文章
  • 人生哲理
  • 学生美文
  • 民族文化
  • 说说大全
  • 网名大全
  • 范文大全
  • 当前位置: 佩佩美文网 > 学生美文 > 正文

    数据挖掘自行车

    时间:2021-04-22 07:30:04来源:佩佩美文网 本文已影响 佩佩美文网手机站

    v1.0 可编辑可修改

    自行车购买预测

    随着社会的发展 , 越来越多的人趋于购买私家车, 但又由于油价越来越贵 , 交通越来越拥

    挤。更多的人倾向于购买既省钱又环保的自行车。 本报告针对给出的案例, 运用 EXCEL中的

    数据挖掘工具分析影响人们购买自行车的各个因素:如有没有私家车,有没有家庭,收入,

    所受的教育等。

    一. 预测的目的

    同过对自行车购买的预测, 可以有效的解决自行车生产商对于其市场的定位, 适合的人

    群,以及客户的购买能力有一个很好地把握。 可以帮助其更好的出售产品, 如同“啤酒与尿

    布”一样,可以提高企业的收益率。其次,通过预测,可以改善企业的产业结构,使其更加

    符合市场的需求。

     提高企业的竞争力。 对于从企业——顾客这整条价值链的提升有很大的帮

    助。

    二.问题的分解

    对于案例中的数据中影响人们购买自行车的各个因素单个进行分析,找出最大的影响因素。

    对于各个因素建立一个数据模型,预测实例购买自行车的可能性。

    对所建立的模型进行测试。

    用所建立的模型进行预测。

    三.关键技术及工具

    聚类分析

    决策树模型

    EXCEL的数据挖掘工具 神经网络模型

    准确性图表

    分类矩阵

    Microsoft SQL 2008 , Microsoft EXCEL2007 ,SQL2005 数据挖掘外接程序

    四.数据挖掘与预测

    随着信息技术的高速发展, 人们积累的数据量急剧增长, 如何从海量的数据中提取有用

    1

    v1.0 可编辑可修改

    的知识成为当务之急。 数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。 其

    主要任务是关联分析、分类、预测时序模式和偏差分析等。

    数据初步处理 :将数据分为两个部分一为 分析数据(定型数据与测试数据) ,二为 预测数据

    神经网络模型

    由于所要分析的各个因素存在大量的非线性的关系, 对于案例中最后的预测数据我们可能从

    中找到合适的线性关系来得出结构,而运用神经网络模型可以解决这类非线性的关系。

    它的构筑理念是受到生物 (人或其他动物) 神经网络功能的运作启发而产生的。 人工神经网

    络通常是通过一个基于数学统计学类型的学习方法( Learning Method )得以优化,所以人

    工神经网络也是数学统计学方法的一种实际应用。神经网络可以有 MP模型和 ANN模型。其

    中 ANN模型又分为前馈型网络和反馈型网络。

    首先我们利用数据挖掘工具中的建模工具——分类。将已经统计好的数据运用随机抽样

    的方法分为定型数据和测试数据。 定性数据用来建立数据模型, 测试数据用来测试模型的准

    确性。(定型数据 492 条,测试数据 212 条)

    (1)定型数据

    定型数据是指用来建立模型的数据,这些数据是从原始数据中随机抽选出来的。

    我们运用建模工具——神经网络,利用定型数据以 Purchased Bike 为预测值,其他为输入

    值得到我们所需要的模型。

    2

    v1.0 可编辑可修改

    可以看出决策变量 Purchased Bike 有两个属性值,其给预测带来了很大的方便,上图

    我们可以看出其的概率分布是从高到低的, 这种效果有助于我们找出其中的关键因素, 摒弃

    其中对预测结果影响小的因素。 其次神经网络模型也具体给出了在定型数据中具体的买或不

    买自行车的具体数字方面我们统计。

    (2)测试数据。

    测试数据是指用来测试模型可行度与可信度的数据,这些数据是从原始数据中随机抽选

    出来的。

    我们利用已经得到的定型数据的模型,用测试数据运用两种工具进行准确性校验。

    准确性图表如下图:

    3

    v1.0 可编辑可修改

    可以看出红色的线代表定型数据,蓝色的线代表随机的推测。该图表的 X 轴表示用于比较

    预测的测试数据集的百分比。给图表的 Y 轴表示预测为指定状态的值的百分比。

    有此图可以看出此数据模型提升 %。

    分类矩阵如下如图:

    可以看出原定型数据的模型准确率 %,错误率 %,可以看出所建立的模型的准确度超过

    4

    v1.0 可编辑可修改

    50%。同时上图也具体给出了买车,与不买车的正确的概率。

    由于以上的定型数据和测试数据都是从统计的数据中随机抽取的, 所以其所建立的模型的客

    观性及准确性无法有较大的保证。因此我又对以上的步骤重复几次。

    (3)对未知数据的预测。

    根据以上得出的比较准确的定型数据的模型, 我们可以利用关联分析模型或决策树模

    型中得到的主要因素作为输入值, 通过添加多个因素对未知数据进行预测。 这样预测的结果

    比较准确,可信度高。

    (4)单个因素对于是否够买自行车的影响

    运用神经网络得出的模型通过改变因素如 Cars 可以看出随着拥有的私家车的数量的

    提高, 人们越来越不趋于购买自行车。 其次, 看以看出一个家庭拥有的孩子数越多越不会购

    买自行车,收入越高也越趋于不买自行车如下图:左边为 Cars 为 1,右边为 Cars 为 4

    对于 Income 来说,与我们平常的认识不同,收入越高人们越趋向于购买自行车。

    对于 Children 来说,一个家庭拥有的孩子越多,越不趋于购买自行车。

    而在现实生活中往往不是单个因素起决定性作用的, 往往是多个因素的组合, 这就加大

    了预测的难度,运用神经网络的模型也可以实现多个因素的预测。

    总结: 对于神经网络模型来说, 适用于决策变量的取值只有两个或三个的对象, 对于更多的

    取值利用神经网络模型不可得到。 其次, 神经网络适用于数据量大的模型的应用, 对于小数

    据量来说,其的准确性会大大降低。

    决策树模型

    5

    v1.0 可编辑可修改

    决策树是一种常用于预测模型的算法, 它通过将大量数据有目的分类, 从中找到一些有

    价值的, 潜在的信息。

     它的主要优点是描述简单, 分类速度快, 特别适合大规模的数据处理。

    最有影响和最早的决策树方法是由 quinlan 提出的著名的基于信息熵的 id3 算法。

    从数据中生成分类器的一个特别有效的方法是生成一个决策树( Decision Tree )。决策

    树表示方法是应用最广泛的逻辑方法之一, 它从一组无次序、 无规则的事例中推理出决策树

    表示形式的分类规则。 决策树分类方法采用自顶向下的递归方式, 在决策树的内部结点进行

    属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

    决策树法的决策过程就是利用了概率论的原理, 并且利用一种树形图作为分析工具。 其基本

    原理是用决策点代表决策问题, 用方案分枝代表可供选择的方案, 用概率分枝代表方案可能

    出现的各种结果, 经过对各种方案在各种结果条件下损益值的计算比较, 为决策者提供决策

    依据。

    管理用的决策树与数据挖掘用的决策树有很大的不同, 数据挖掘用的决策树基于从杂乱

    无章的数据中提取分类在建立联系从而得出结果, 而管理用的决策树是一个具体的案例进行

    方案的选择。

    首先选择高级选项中的决策树模型 , 以 Purchased Bike 为预测值以其他为输入值得到模型

    通过对案例中的数据进行决策树分析,看以看出如下所示:

    购不购买自行车与 Age 和有没有 Children 存在着依赖关系,其中 Age 表现出的是强依赖,

    Children 弱依赖。而对于决策树来说

    6

    v1.0 可编辑可修改

    年龄在 32~39 岁之间的人群各个倾向与购买自行车。

    年龄小于 32 岁或大于 39 岁的人群来说,孩子小于 5 个的更倾向于购买自行车。

    对于决策树而言, 我进行了从原始数据与分类分析进行了比较, 其所给出的依赖关系与决策

    树得出的结论有所不同,依赖关系中少了 Children 而多了地区。:

    我又通过提取其他模型的关键因素发现地区不是关键的因素, 因此决策树所得到的模型结果

    是比较准确地。

    结论:通过对决策树的分析的得出我们通常认为的收入的高低影响着人们的购买自行车的欲

    望这个结论是没有依据的, 对于销售自行车的公司来说, 应该着重针对 32~39 岁的这些客户

    群体发展。

    3. 聚类分析

    聚类分析 (cluster analysis) 是一组将研究对象分为相对同质的群组 (clusters) 的统

    计分析技术。 聚类分析也叫分类分析 (classification analysis) 或数值分类 (numerical

    taxonomy) 。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分

    析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。

    聚类源于很多领域, 包括数学, 计算机科学, 统计学, 生物学和经济学。 在不同的应用领域,

    很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,

    以及把数据源分类到不同的簇中。

    7

    v1.0 可编辑可修改

    聚类分析能够从样本数据出发, 自动进行分类。

     聚类分析所使用方法的不同, 常常会得

    到不同的结论。

    如图下为 Purchased Bike 其中的一类

    25 <=Age <=37 ,Children=0 ,Occupation=Manual ,

    Home Owner=No ,10000 <=Income <=56255 ,Education=Partial High School ,

    Cars=1 ,Marital Status=Single ,Education=High School ,Education=Partial College ,

    Commute Distance=2-5 Miles ,Commute Distance=1-2 Miles ,Purchased Bike=No ,

    Region=Europe ,Cars=2 ,Occupation=Skilled Manual ,Region=North America ,

    Commute Distance=5-10 Miles

    下图为各个分类关系之间的依赖关系

    我们可以通过调整明暗程度来区分类与类之间的具体的关系。 如对于分类 2 而言,其余

    分类 6,分类 3,分类 5 都有关联但其与分类 3 的联系最为紧密。

    结论: 由于聚类分析其模型比较复杂, 从直观上较其他模型而言不好直接观察, 而且对于其

    具体的分类, 没有剔除那些对于预测结果影响度低的因素, 有可能这些因素是由于偶然原因

    引起的, 因此此模型的准确度没有关联分析的准确性高。 但其和决策树想比, 由于其内容的

    丰富,可对于具体的详细的数据进行预测。

    关联分析

    关联分析是数据挖掘领域常用的一类算法, 主要用于发现隐藏在大型数据集中有意义的

    联系。举一个大家最耳熟能详的例子, 就是尿布和啤酒, 表示成关联规则的形式就是 {尿壶}

    —— > {啤酒}。这就是使用关联分析方法所得到的结果,而关联分析所得到的结果,我们可以用关联规则 或者 频繁项集的形式表示。

    8

    v1.0 可编辑可修改

    关联分析是指如果两个或多个事物之间存在一定的关联 , 那么其中一个事物就能通过其

    他事物进行预测 . 它的目的是为了挖掘隐藏在数据间的相互关系。在数据挖掘的基本任务中

    关 联 (association) 和 顺 序 序 贯 模 型 (sequencing) 关 联 分 析 是 指 搜 索 事 务 数 据 库

    (transactional databases) 中的所有细节或事务 , 从中寻找重复出现概率很高的模式或规

    则。其属于灰色理论中的一种分析方法。

    通过使用 EXCEL数据挖掘工具中的关联分析工具, 通过调整阈值和支持度来提高算法的准确

    性,再以 purchased bike 为预测值,以其他为输入值得到关联分析模型。 如下图为 purchased

    bike 为 NO的关联。

    由于模型所提供的关联太多,我们只提取依赖度高的,得到 car=2 ,children=3 ,age>=65,

    age=57~65 之间的人群更趋向于不买自行车。结果如下图:

    9

    v1.0 可编辑可修改

    同理对于 purchased bike=yes 的关联分析如下图:

    Region , cars=1 , income=34585-73842 , cars=0, 的人群更趋于购买自行车。

    我们可以看出关联模型建立比较简单, 可以很快的提取出关键的因素, 可以提供很快的

    市场定位与预测,以便企业占领市场。

    其次我们可以通过提高关联分析算法效率来提高准确度, 而提高关联分析算法效率最简

    单的办法则是提高支持度和置信度的阈值。 支持度和置信度的意义在于, 支持度是一个重要

    的度量,如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义。因此,支持度

    通常用来删除那些无意义的规则。 而置信度则是通过规则进行推理具有可靠性。 我们可以通

    过改变在建立关联模型时第一个步骤中的改变阈值,来提高算法效率。

    规则分析 : 我们可以将其转换为规则分析可以直观的看出其具体概率可信度。

    10

    v1.0 可编辑可修改

    如图所示为购买自行车的规则示意图我们可以看出其概率分布是从高到低分布的有助于我

    们找出其中的关键,二而在重要性中给出了其依赖强度的概率,也可以作为一个参考模型,

    对于其提取的规则而言我们可以以其为参考对未知数据进行预测从而得到具体的结果。

    贝叶斯分析,线性回归分析

    由于案例是多种非线性关系的结合, 无法使用贝叶斯分析模型, 线性回归模型进行分析。

    运行结果为错误的。

    五. 总结

    通过以上五个模型的分析,我们可以得出如下结论 :

    对于整体的预测而言,神经网络由于添加的变量多而预测的结果较其他的准确。但其使用于存在大量的数据的情况下,对于较少的数据而言其结果不准确。然而,对于决策变量的属性为连续的且无穷个时,运用神经网络的模型就不能分析,因此决策变量的属性

    只能为离散的且数量确定 ( 2 个或 3 个)。如:案例我们所分析的 YES 或 NO 只有两个取

    值。另一方面, 神经网络方法的缺点是 " 黑箱 " 性,人们难以理解网络的学习和决策过程。

    数据挖掘完整的步骤如下:

    理解数据和数据的来源。

    ② 获取相关知识与技术。

    ③ 整合与检查数据。

    11

    v1.0 可编辑可修改

    ④ 去除错误或不一致的数据。

    ⑤ 建立模型和假设。

    ⑥ 实际数据挖掘工作。

    ⑦ 测试和验证挖掘结果。

    ⑧ 解释和应用。

    由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认

    为整套数据挖掘的过程中,有 80%的时间和精力是花费在数据预处理阶段,其中包括数

    据的净化、数据格式转换、变量整合,以及数据表的链接 。

    对于决策树分析模型和关联分析模型而言,其都用到了分类的思想,找出其影响

    Purchased Bike 的因素并确定其关联度,依赖度。通过调整其关联,依赖的强度找出

    影响 Purchased Bike 的关键因素,这两种方法适用于从多个杂乱无章的影响因素中提

    取关键性的因素,其次,运用关联分析得到的模型比运用决策树得到的模型更为精确,

    就如购不购买自行车为例,决策树模型提取出的因素只有两个,而关联分析中的得到的

    模型分为两个部分:一为不买自行车,提取出 4 个因素;二为买自行车,提取出 5 个因

    素。

    数据挖掘与传统的数据分析 ( 如查询、报表、联机应用分析 ) 的本质区别是数据挖掘是在

    没有明确假设的前提下去挖掘信息、 发现知识 . 数据挖掘所得到的信息应具有先前未知 ,

    有效和实用三个特征。

    对于聚类分析模型来说, 与以上两个模型有所不同, 其不是因素间的分类从而进行提取,

    而是各种因素的组合从而得到我们想要的结果。

     其相较其他三个模型来说, 不容易理解。预测的结果我认为也没有其他的模型好。

    通过对购不购买自行车的预测,充分熟悉这几种数据挖掘工具,了解了这几个模型的优缺点,在以后的工作学习中会对我有很大的帮助。

    12

    • 数据挖掘自行车 相关文章: