可供拥有数据库的组织或公
聚类根据相似的特征将一组事物(例如,数据库中呈现的对象、事件等)划分为多个片段。 与“分类”相反,“聚类”中的类标签是未知的。 当所选算法检查数据集并根据其特征识别共同点时,即创建聚类。 一旦获得“合理”的聚类,它们就可以用于分类和解释新数据。 聚类的目标是创建组,其中每个组中的组成员具有最大相似性,而其他组中的组成员具有最小相似性。 最广泛使用的聚类技术是“k-means”(来自统计学)和“自组织映射”(来自机器学习),它们是 Kohonen (1982) 开发的独特的神经网络架构。2021 年 9 月 30 日
热门文章
数据挖掘是识别各种类型数据的活动。 从数据库中存储的大量数据中,识别数据,寻找可能 C级行政人员电子邮件列表 的模式或其他被认为有可能产生司使用的东西的东西。 数据挖掘本身有多种方法可以使用,即KDD、CRISP-DM、SEMMA等。 每个流程都有不同的方法来搜索组织数据库中的重要信息。 在本文中,我们将讨论数据库过程中的 KDD 或知识发现。
数据库过程中的知识发现(KDD)是一种可用于进行数据挖掘的方法。 法耶德等人。 (1996) 将 KDD 定义为使用数据挖掘方法搜索有价值的信息、数据模式的过程,其中涉及识别数据模式的算法。 Dunham(2003)从各个步骤总结了KDD过程,即:数据选择、数据预处理、数据转换、数据挖掘以及最后的解释和评估。 下面是对KDD过程的详细图解和解释:
图1.1
http://zh-cn.buyinghouseb.com/wp-content/uploads/2023/09/21-09-23.png
数据清理,处理数据然后选择被认为可用的数据的过程。
数据集成,将重复的数据合并为一个的过程。
选择,选择或选择被认为与分析相关的数据的过程。
数据转换,将选定数据转换为挖掘过程的过程。
数据挖掘,使用各种技术提取潜在模式以产生有用数据的过程。
模式演化,根据给定的度量来识别模式的过程。
知识呈现是KDD过程的最后一个过程,将处理后的数据可视化,以便用户更容易理解,并希望能够根据分析采取行动。
这是 KDD 数据挖掘过程的概述和解释。 数据挖掘只是数据挖掘中可以使用的多种方法之一。
页:
[1]