整理数据挖掘Apriori算法论文

精品文档《数据挖掘》课程作业题目基于关联规则Apriori算法的事务数据挖掘班级学号姓名日期2010.06.13目录一、引言2二、正文21.背景22.算法思想23.数据集3精品文档精品文档4.源代码35.算法流程166.运行结果……………………………………………………………………16三、结论17四、参考文献18一、引言随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。由此,数据挖掘技术应运而生。数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。从这个角度数据挖掘也可以描述为:按企业制定的业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。其中关联规则的算法的研究在数据挖掘算法的研究中占有相当重要的地位,关联规则算法的核心是Apriori算法,但随着对关联规则研究的深入,它的缺点也暴露出来了。本文将对数据挖掘的一种经典算法Apriori算法对于事务项目数据的挖掘应用。二、正文1、背景自1994年由Agrawal等人提出的关联规则挖掘Apriori的算法从其产生到现在,对关联规则挖掘方面的研究有着很大的影响。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质用于压缩搜索空间。为了提高频繁项目集逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间:(l)若X是频繁项集,则x的所有子集都是频繁项集。精品文档精品文档(2)若x是非频繁项集,则X的所有超集都是非频繁项集。2、算法思想算法:Apriori算法,使用逐层迭代找出频繁项集。输入:事务数据库D;最小支持度阈值min_sup。输出:D中的频繁项集L。1)L1=find_frequent_1_itemsets(D);2)fo...

1、培基文库文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。

2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。

3. 培基文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。

4. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

5、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击文档标题下面举报,也可以联系客服投诉QQ:188878628

Q、文档下载后会有水印吗?

A、文档预览未下载之前背景显示网站的名字“培基文库”,下载之后不带有任何关于培基文库名称、网址等网站本身信息水印。

Q、我下载的文件找不到了?

A、Windows电脑快捷键“Ctrl+j”,苹果(Mac)电脑按(“⌘+j”),(几乎适用所有的浏览器)

哈哈哈我下
实名认证
内容提供者

欢迎大家光临,各种实用文档供大家筛选

确认删除?
批量上传
意见反馈
上传者群
  • 上传QQ群点击这里加入QQ群
在线客服
  • 客服QQ点击这里给我发消息
回到顶部