首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
论数据挖掘方法及应用 随着信息技术和数据库技术的普遍应用,人类获取数据的能力不断增强,数据库的数量和规模在迅速增加。数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是识别数据库中以前不知道
论数据挖掘方法及应用 随着信息技术和数据库技术的普遍应用,人类获取数据的能力不断增强,数据库的数量和规模在迅速增加。数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是识别数据库中以前不知道
admin
2020-04-30
58
问题
论数据挖掘方法及应用
随着信息技术和数据库技术的普遍应用,人类获取数据的能力不断增强,数据库的数量和规模在迅速增加。数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是识别数据库中以前不知道的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。数据挖掘是数据库知识发现过程的一个步骤,其目标就是要智能化和自动化地把数据转换为有用的信息和知识。
请围绕“数据挖掘方法及应用”论题,依次从以下三个方面进行论述。
详细阐述三种常用的数据挖掘方法。
选项
答案
详细阐述三种常用的数据挖掘方法。 1.关联规则挖掘。关联规则挖掘的典型问题是:给定一个销售交易的数据库,要求发现数据项之间的重要关联性,即在一个交易中出现某些数据项蕴含着其他一些数据项也可能会在同一交易中出现。例如许多顾客在购买尿布的同时也购买啤酒的结论就是通过关联规则分析所得到的结果。关联规则分析是一个从现象到本质的揣测推理过程。也就是说,通过关联分析所得到的结果,仅仅是一种可能的因果关系,它能够协助业务专家对事物的本质进行分析,深化对事物关系的认识,但需要业务专家加以确认,并予以合理的解释,才能够成为对决策进行指导的规律。 2.特征描述。数据库中通常存放大量的细节数据,然而,用户常常希望能够得到对于所关心的一类数据的简洁概貌描述。特征描述是对月标类数据的一般特征或特性进行汇总,并以直观易理解的方式显示给用户。通常,用户首先通过数据库查询来对目标类数据进行查询,例如为研究上一年在某超市消费超过1000美元以上的顾客特征,可以通过执行一个SOL查询收集关于这些产品的数据。特征描述通常采用的方法是进行数据概化,将庞大的任务相关的数据集从较低的概念层抽象到较高的概念层。例如,对于上述消费超过1000美元以上的顾客,特征描述的结果可能是顾客的一般轮廓,如年龄在40至50岁之间、已婚、有工作等。 3.分类分析。分类分析是找出数据集中各组对象的共同特征,并建立分类模型,从而能够将数据集中的其他对象分到不同的组中分类也称作制导的学习,为了建立分类模型,需要有一个用做训练集的示例数据库E,其中的每个元组都有一个给定的类标识。分类过程是首先分析训练集中的数据,根据每个类中数据的特征为每个类生成分类模型,然后用得到的分类模型对未知类别的数据进行分类。表示分类模型的一种常用方法是决策树。 4.聚类分析。若干个相似的数据对象组合在一起称作一个聚簇。聚类分析是将数据集分割为若干个有意义的聚簇的过程。聚类分析也称作无制导的学习,因为聚类分析与分类分析不同,它不依赖于没有事先确定的类,也没有已具有类标识的训练集。好的聚类分析算法应该使得所得到的聚簇内的相似性很高,而不同的聚簇间的相似性很低。
解析
转载请注明原文地址:https://jikaoti.com/ti/Wu67FFFM
本试题收录于:
系统分析师下午论文考试题库软考高级分类
0
系统分析师下午论文考试
软考高级
相关试题推荐
输入一个整数和一棵二元树。从树的根结点开始往下访问一直到叶结点所经过的所有结点形成一条路径。打印出和与输入整数相等的所有路径。例如输入整数22和如下二元树10
在c#中using和new这两个关键字有什么意义,请写出你所知道的意义?
C#中的接口和类有什么异同。
一个整型数组里除了两个数字之外,其他的数字都出现了两次。请写程序找出这两个只出现一次的数字。要求时间复杂度是O(n),空间复杂度是O(1)。
设置拨号连接属性使得拨号网络连接出现故障时候自动重拨间隔2分钟。
在搜狐网页中选择一个新闻网页,然后把网页信息复制到word文档中。
利用MSN给bob@sina.com发送电子邮件内容“8号晚上到我家一起吃饭”。
设置拨号连接使得不在右下角的任务栏的通知区域中显示连接。
设置CuteFTP在启动时加载站点管理器,在连接不通的情况下重连接的次数不超过8次。
在PPoint中,超级链接只有在()中起作用。A.幻灯片视图B.幻灯片放映C.幻灯片浏览视图D.大纲视图
随机试题
肝硬化腹水形成的决定性因素是
王某因盗窃被判处拘役后被取保候审,则他不应:
下列关于基金信息披露的说法错误的是()。
目前,我国银行存款业务中,用复利计算利息的是()。
下列票据不属于铁路运输合同或者合同的组成部分的是()。
Whendesigningspeakingtasks,wemustfollowtheprinciplesexcept______.
计算机硬件系统的基本组成部分包括()。
某考生在一项测验中得分60,经换算百分等级为70,这表明在所有考生中,得分低于该考生的人数占总人数的()
[*]
“需要时,授权实体可以访问和使用的特性”指的是信息安全的(19)。
最新回复
(
0
)