数据挖掘实用机器学习技术摘录

数据挖掘:从数据中寻找模式机器学习:从大量的数据中自动或半自动地寻找模式的过程,而且这个模式必须是游泳的。3输出:知识表达决策表决策树:通常从决策树上读取出的规则的复杂度远远超出所需,所以常常需要对决策树的规则进行剪枝。决策树不易表示出隐含在一个规则集里的不通过规则间的逻辑或关系,所以讲一个普通的规则集合转换成据册数并不是十分直截了当的。分类规则(if…thenclass=…)关联规则(A=>B,支持度和置信度)包含例外的规则(default..exceptif…then…/if…then…else…)包含关系的规则数值预测树(线性回归、回归树、模型树)基于实例的表达规则与决策树:规则可以是对称的,而树必须首先选择一个属性进行分裂,这会导致树比一个等效的规则集大很多。在多类情况下,决策树分裂将考虑所有类别的情况,试图使分裂的纯度最大化,而规则建立法一次只集中处理一个类别,并不考虑其他类别上发生的情况。4基本方法4.1推断基本规则(1R)使用单个属性作为决策的依据,选择其中工作性能最好的那个属性。4.2统计建模(贝叶斯方法)朴素贝叶斯有独立属性的假设,这是它成为朴素的原因。1)简单的方法通常能很好地工作2)朴素贝叶斯处理属性的时候,认为属性是完全独立的,所以一些冗余属性会破坏及其学习过程。属性之间的依赖性不可避免地会降低朴素贝叶斯识别数据中究竟会发生什么的能力。然而,这种情况可以通过在决策过程中,进行属性子集选择来避免。3)对于数值型数据,正太分布假设是朴素贝叶斯的另一个限制。也可以采用其他分布形式,或者核密度估计(不把属性值的分布假设成人和特定形式的分布),或者首先将数据离散化。拓展:用于文档分类的贝叶斯模型、LDA4.3分治法:创建决策树分治法:每次只考虑一个单独的属性建立规则,然后在每个分治上递归地重复这个过程,建立决策树。几个概念:信息量=熵增益量=根节点信息量-属性节点信息量分裂信息量=节点分裂成子节点的信息量增益率=增益量/分裂信息量一些情况下,增益率修正法补偿过度,会造成倾向于选择某个属性的原因,仅仅是因为这个属性的内在信息值比其他属性要小很多。一个标准的弥补方法是选择能够得到最大增益率的属性,且那个属性的信息增益至少要等于所有属性信息增益的平均值。分治法也成为自上而下的决策树归纳法4.4覆盖算法:建立规则覆盖算法和分治算法都牵涉到要寻找某个属性进行分裂的过程,但是两者寻找最佳属性的标准是不同的。分治...

1、培基文库文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。

2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。

3. 培基文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。

4. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

5、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击文档标题下面举报,也可以联系客服投诉QQ:188878628

Q、文档下载后会有水印吗?

A、文档预览未下载之前背景显示网站的名字“培基文库”,下载之后不带有任何关于培基文库名称、网址等网站本身信息水印。

Q、我下载的文件找不到了?

A、Windows电脑快捷键“Ctrl+j”,苹果(Mac)电脑按(“⌘+j”),(几乎适用所有的浏览器)

哈哈哈我下
实名认证
内容提供者

欢迎大家光临,各种实用文档供大家筛选

确认删除?
批量上传
意见反馈
上传者群
  • 上传QQ群点击这里加入QQ群
在线客服
  • 客服QQ点击这里给我发消息
回到顶部