• 原创美文
  • 经典文章
  • 情感美文
  • 伤感文章
  • 散文
  • 美文随笔
  • 感人文章
  • 人生哲理
  • 学生美文
  • 民族文化
  • 说说大全
  • 网名大全
  • 范文大全
  • 当前位置: 佩佩美文网 > 散文 > 正文

    数据挖掘报告书-20210420072230

    时间:2021-04-22 07:30:19来源:佩佩美文网 本文已影响 佩佩美文网手机站

    v1.0 可编辑可修改

    数据挖掘报告书

    题 目: 关联规则算法在电影爱好中的应用

    院 系: 经济管理学院

    专 业: 信息管理与信息系统

    班 级: 07304 班

    小组成员: 王梦宇 李肖楠 黄林橙 沈岁 张舒

    2010年6月

    1

    v1.0 可编辑可修改

    〇、 SQL Server 2005

    Microsoft SQL Server 2005 是微软公司在 2005 年 12 月推出的

    一个全面的数据库平台, 使用集成的商业智能工具, 提供了企业级的

    数据管理。使用 Business Intelligence Development Studio 在

    Analysis Services 项目中定义数据源、数据源视图、维度和多维数

    据集,并可以利用其现有的数据挖掘算法方便简单的对数据进行分

    析。

     SQL Server 2005 包括算法主要有:决策树,关联规则,神经网

    络,时序,聚类分析等。

    微软公司的数据库产品 SQLServer 2005 中包含了数据挖掘特性 ,

    可以直接从数据库或者数据仓库中进行数据挖掘操作, 实现数据挖掘

    与数据库以及应用程序的紧密耦合,从而大大提高数据挖掘效率。

    Microsoft 关联规则算法属于 priori 关联规则算法家族,该算

    法适用于挖掘频繁项集的非常流行和有效的算法。 在关联算法中有两

    个步骤:第一个步骤是挖掘频繁项集; 第二步是基于频繁项集来生成

    关联规则。

    关联规则算法对算法参数的设置非常敏感。以下是用于

    Microsoft 关联规则算法的一系列参数:

    1.Minimum_Support: 定义了项要成为频繁项集所必须满足的最

    小支持度。

    2.Maximum_Support:定义了频繁项集的最大支持度阈值。

    3.Minimum_Probability :定义了一个关联规则的最小概率。

    4.Minimum_Importance:重要性小于它的规则会被过滤掉。

    2

    v1.0 可编辑可修改

    5.Maximum_Itemset_Size:指定项集大小的最大值。

    6.Minimum_Itemset_Size :指定项集大小的最小值。

    7.Maximum_Itemset_Count:定义项集数目的最大值。

    一、引言

    当今社会是网络的社会, 人们通过上网能做很多事情, 比如学习、看新闻、交友等等。当然我们觉得有很多人会和我们一样,无聊的时候上网看看电影电视剧。

     因此说随着网络的发展, 电影事业的也得到了发展。现在电影的种类也越来越丰富, 不过不是所有电影都符合大家的口味,有的人喜欢惊悚的,有的人喜欢搞笑的等等。这些我们认为都和人们各自的兴趣爱好有一定的关系, 同时我们也觉得也能通过

    人们喜欢看什么样的电影反应出那个人的兴趣爱好。 所以我们小组想

    通过数据挖掘的关联规则算法对电影( movies)和爱好( hobbies )的关系进行挖掘,并希望通过这次的研究挖掘,对 SQL Server 2005 和数据挖掘能有进一步的了解。

    二、应用背景情况

    数据来源:数据库 MovieClick

    挖掘算法:关联规则算法

    3

    v1.0 可编辑可修改

    三、数据挖掘算法的实施

    1、添加数据库:打开 SQL Server Management Studio ,建立

    连接,然后右击数据库,点击“附加” ,然后添加数据库

    MovieClick ,确定后数据库就添加成功。

    4

    v1.0 可编辑可修改

    2、创建新项目:打开 business intelligence development studio ,

    选择“文件”→“新建”命令, 新建一个 Analysis Services

    项目。在“名称”文本框中将新项目命名为 Adventure Works ,

    点击“确定”按钮。

    5

    v1.0 可编辑可修改

    3、创建数据源及视图:在解决方案管理器中,右击“数据源” ,从弹

    出的快捷菜单中选择“新建数据源”命令。系统将打开数据源向

    导。单击“新建”按钮,向数据库添加连接。系统将打开“连接

    管理器”对话框,在提供程序下拉列表中选择“本机 OLE DB\SQL Native Client ” 选 项, 在 服 务 器 名下 拉 列 表 中 选择 承 载 MovieClick 在“选择或者输入一个数据库名”下拉列表中选择

    MovieClick 选项,再点击确定。

    6

    v1.0 可编辑可修改

    7

    v1.0 可编辑可修改

    在创建视图时,在解决方案管理器中,右击“数据源视图” ,从弹出

    的快捷菜单中选择 “新建数据源视图”,系统将打开数据源视图向导。

    在“选择数据源”页的“关系数据源”下,默认选中在上一步中创建

    的 MovieClick 数据源。单击“下一步” ,在“选择表和视图”页上选择表 movies 和 hobbies ,然后单击右箭头键,单击“下一步” 。

    8

    v1.0 可编辑可修改

    在“完成向导”页上,默认情况下,系统将数据源视图命名为

    MovieClick 。单击完成。系统将打开数据源视图设计器,显示该数据

    源视图。在数据源视图设计器的数据源视图窗格中, 选择 Hobbies 中

    的 CustomerID 列。将该列托到 Movies 表中,并将其放到 CustomerID

    列上。

    9

    v1.0 可编辑可修改

    4、创建关联挖掘结构:在解决方案管理器中,右击“挖掘结构” 从

    弹出的快捷菜单中选择“新建挖掘结构”命令。在“选择定义方

    法”页上,确保已选中的“从现有关系数据库或数据仓库”选项,

    在单击“下一步”按钮。

    10

    v1.0 可编辑可修改

    在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术”列表框

    中选中“ Microsoft 关联规则”选项,再单击“下一步”按钮。

    11

    v1.0 可编辑可修改

    单击“下一步”按钮,在“指定表类型”页上选择情况如下表

    单击“下一步”按钮,在“指定定型数据”页上依次勾上 CustomerID

    的“键” movie 的“输入”,以及 hobby 的全部复选框。

    12

    v1.0 可编辑可修改

    5、查看挖掘结果:处理完成后,选择“数据模型查看器” ,查看挖掘

    结果。

    13

    v1.0 可编辑可修改

    14

    v1.0 可编辑可修改

    在点击挖掘模型查看器时,在处理的时候出现了问题

    发现错误为在开始“创建数据源”时,对模拟信息选项的错误改正如

    下:

    15

    v1.0 可编辑可修改

    然后再进行处理,结果处理成功。

    16

    v1.0 可编辑可修改

    处理结果将在“挖掘结果和分析”中展现。

    四、挖掘结果和分析

    挖掘结果:

    17

    v1.0 可编辑可修改

    18

    v1.0 可编辑可修改

    19

    v1.0 可编辑可修改

    分析:从“规则查看器”中看出,如果喜欢看电影《 A Man for all

    Seasons》(1966 年的英国电影《四季之人》 ),那么这个人的

    兴趣爱好可能会是书和图书馆。

     从依赖关系网络中更能看出电

    影和爱好的一些联系, 比如上图中电影 《American Pie 》(1999

    —2009 年的美国系列电影《美国派》),和它关联的为

    Computer、Travel 、Movie&Television 。可以看出看什么电影

    和兴趣爱好是有一定的关联关系的。

    20

    v1.0 可编辑可修改

    五、我们的心得

    此次的小组研究,我们在对课本上知识点充分复习的基础上,

    对各种算法有了一定的了解。但大家还是觉得对关联规则算法认识

    得多一点,所有就以关联规则算法为研究算法,并对我们已有的数

    据库中 MovieClick 中的数据进行研究。在小组作业的过程中也遇到

    了一点曲折,最终也在小组成员的集思广益下得以解决。在研究的

    过程中,我们小组成员发现数据挖掘能挖掘出一些表面上看不出来

    的联系,也认识到自己对数据库的了解还远远不够,在今后的学习

    生活中还得进一步学习。

    21

    • 数据挖掘报告书-20210420072230 相关文章: