新葡萄京娱乐app下载 > 资讯资讯 > 企业公告企业公告

全自动氮吹仪即树的生长过程是不断

发表时间:2016/11/17 9:02:41 阅读次数:

CHAID、CART、Quest和 C5.0。 建立决策树的过程,全自动氮吹仪即树的生长过程是不断的把数据进行分组的过程,每次分组对应一 个问题,也对应着一个节点。每次分组都要 求所分 得的 组之间 的“差异”最大。各 种决 策树 10.1 数据挖掘及其应用 349 算法之间的主要区别就是对这个“差异”衡量方式的区别。这样的分组过程也可称为数据的 “纯化”。比如图10.1所示的例子,就包含两个类别———低风险和高风险。如果经过一次分 组后,就 使每个 组中 的数据 都属 于同 一个类 别,则这 样高 效的分 组方 法显然 就是 大家 所追 求的。 当然实际中应用的决策树可能不会像如 图10.1所 示那 样简单。 如果利 用历 史数 据建 立了一个包含几百个属性、输出的类有十几种的决策树,这样的一棵树对人来说可能太复杂 了,但无 论它有 多复 杂,每一 条从根 节点 到叶子 节点 的路 径所描 述的 含义仍 然是 可以 理解 的。决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。然而这种明确性 也可能会给人带来误导。比如,决策树中的每个 决策 节点 都是非 常明 确毫不 含糊 的表 达了 一种数据分组 策 略,但 在 实 际 生 活 中 这 种 明 确 可 能 会 带 来 一 些 麻 烦,凭 什 么 说 年 收 入 


为 ¥40001 的人就具有较小的信用风险,而年收入为¥40000的人就具有较大的信用风险呢? 在数据挖掘中应用决策树的优点是需要的计 算资 源较少,而 且可 以很容 易地 处理 包含 很多预测变量的情况。在建立决策树时,为了使得到的决策树所蕴含的规则具有普遍意义, 必须避免对决策树的过度训练,同时还要减少训练的时间。 决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了 很多数据预处理工作。甚至有些决策树算法是专 门为 处理非 数值 型数 据而设 计,因此 当采 用此种方法建立决策树同时又要处理数值型数据 时,反而 要做把 数值 型数据 映射 到非 数值 型数据的预处理。 3. 回归分析 回归分析是通过具有已知值的变量来预测 其他 变量的 值。在 最简单 的情 况下,回 归采 用的是像线性回归这样的标准统计技术,这 种技术 就是 最小 二乘法。 但在大 多数 现实 世界 中的问题是不能用简单 的线 性 回归 所能 预测 的。如 商品 的销 售 量、股票 价格、产 品 合格 率


 等,很难 找到简 单有 效的方 法来 预测,因 为要描 述这 些事 件的变 化所 需的变 量往 往以 上百 计,且这些变量本身又都是非线性的。为此人们 又发 明了 许多新 的手 段来试 图解 决这 个问 题,如逻辑回归、多项数回归、对数回归、泊松回归等。 4. 遗传算法 遗传算法简称 GA(GeneticAlgorithm),在本 质上是一种不依 赖具体问题的直 接搜索方 法。是一种基于进化理论,并采用自然选择、遗传交叉(或结合)及遗传变异等设计方法的优 化技术。 遗传算法把问题的解表示成“染色体”,在算法 中也 即是 以二进 制编 码的串。 在执 行遗 传算法之前,给出一群“染色体”,也即是假设解。然后,把这些假设解置于问题的“环境”中, 并按适者生存的原则,从中选择出较适应环 境的“染色 体”进行 复制,再 通过交 叉、变异 过程 350 第十章 数据挖掘与Agent技术 产生更适应环境的新一代“染色体”群。这样,一代一代地进化,最后就会收敛

更多新葡萄京娱乐app下载相关常识要点请关注大家微信!

-5低温恒温槽-立式
多用途恒温超声提取机
手提式总有机碳分析仪
XML 地图| Sitemap 地图