相关热词搜索:
以大规模数据库为基础的数据挖掘系统构建3100字
以大规模数据库为基础的数据挖掘系统构建3100字 2.2模块设置 根据以上对本系统框架结构的诠释,特别设置了如下模块以实现该数据挖掘 系统的相关功能。挖掘模块用来对数据库中不同数据实现挖掘操作功能,不同的挖掘模块相互 独立,但统一受数据库的管理模块控制,其数据来源由存储控制模块产生,通过 挖掘将相应数据写入到挖掘库中,为其它模块提供数据依据。
预处理模块以数据源定义、格式化、过滤等为主要功能,使整个系统更具有 实用性和操作性,其中以数据映射、类型映射和列映射为主要子模块。数据映射 是将源表数据映射成为ID形式[4],再生成相应的对照表,使形式不同的数据通 过映射形成统一的、具有挖掘性的模块形式。类型映射是对源数据进行类型的转 换,这种转换具有强制性,使不同类型的数据库数据形成统一,便于挖掘。列映 射从源数据中提取需要的列,便于减少数据量、加速运算速度。
存储控制模块是对整个数据库中的各数据进行统一的操作,而外部文件则需 要先行导入后再进行存储控制。底层接口采用ODBC技术,并应用缓冲和内存索引 功能来加速系统的运算能力。
挖掘管理模块是整个数据挖掘系统的核心模块,对于用户在数据库中挖掘到 的各类信息结果,均利用挖掘库进行存放。挖掘库直接设立在系统数据库当中, 便于管理和调用。挖掘库管理包括数据准备、数据挖掘和数据存放过程中的各类 操作,这些操作信息在挖掘库中的存放具有顺序性,有利于操作的便捷。但是, 数据挖掘操作在整个挖掘过程中具有非独立性,需要以另一个数据挖掘操作结果 为源头,并生成新的挖掘结果,而这一新结果很可能又成为另一个挖掘过程的数 据源头。
2.3界面设置 该系统的主界面类似于Explorer的界面风格,具有人性化、可操作性、美观 等特点。利用不同的图形技术来对不同挖掘结果进行表述。系统应用表格来表示泛化及清洗结果,利用 基于大规模数据库构建数据挖掘系统的目的在信息化迅速发展的今天对数 据库功能实现更深度的发掘,促进决策者从巨大的数据量中迅速、准确的找到所 需的数据资源,并基于此来实现有效决策。本研究就笔者工作经验提出了数据挖 掘系统的构建方法,期望与同行业者分享和相互学习。
摘 要:
数据库;
数据挖掘;
系统构建;
大规模 数据库技术的建立使大量的电子信息得以储存和抽取,但在浩瀚如烟的数字 式化信息资源库中,如何更快、更好的将需要的有效信息提炼和挖掘出来,逐渐 成为大规模数据库系统的重要课题研究之一[1]。数据挖掘技术是一种在数据库 中提取具有未知性、隐含性、潜在性的有用信息的特殊方法和过程,包含了关联 规则、分类、聚类、泛化、预测等多个方面,而获取信息的准确性、挖掘操作的 伸缩性、数据分析工具的实用性等成为近些年的研究热点。本研究就笔者工作经 验提出了数据挖掘系统的构建方法,期望与同行业者分享和相互学习。
1.数据挖掘系统的功能 1.1数据的泛化与清洗功能 该数据挖掘系统可使已有数据泛化至更高的层次,利用GDBR的泛化集成算法 将时间和空间的复杂度进行条件关联,并采用N-Gram技术高效、准确的对系统中 具有相似性的重复记录进行检测和梳理[2],对较常见的拼写错误进行规范的删 除、插入、替换、交换等智能操作,达到清洗效果。由于常规的消除基本算法在 检测的精度方面存在一定的缺陷,本系统对该消除基本算法进行了一定的改进, 合理应用原理减噪,结合正、逆双向的重复矩阵,加大了对拼写错误的检出率和 修改准确率。
1.2数据的挖掘功能 该系统对数据的挖掘是在相关的关联、时序等规则下,对数据进行有效分类、 聚类,达到期望的数据挖掘系统应用目的。
数据中具有频繁性的项集进行寻找和整合,实现Apriori算法,再通过频繁的项集形成关联规则。其方法是:假设频繁项集记为l,l中的所有非空子集记为 a,若support(l)/support(a)的值超过min conf,那么规则a=>(l-a)直接 输出;
若l的非空子集不满足以上条件,即无法输出相应规则,则不以a来形成关 联规则。时序规则类似于关联规则,但其更倾向于对系统内项集在时间上的关联 性,该系统应用AprioriAll算法来实现时序规则[3]。
关联规则从广义上而言包含了强规则、随机规则和例外规则。例外规则呈现 了小部分数据所服从的规则,其虽然数量不多,但具有高可信度,是对可预测信 息以外的、不被我们现阶段所知的信息产生的规则。例外关联规则可满足最小可 信度的系统设置,本系统还可由此生成CAR、ECAR和删除SCAR。
对于已经有明确定义和分类的数据信息,可对其产生具有描述性的数据类别, 也可对未知类别的数据产生相应的分类标准,即分类器。在本系统中,应用了区 间分类器,可达到更高的准确率和分类精度,并减少决策树分类器可能产生的过 深树状延伸。
聚类算法则是将一些密度较高的簇进行合并,采用CURE算法,以多个代表点 标记不同的簇,从而形成一定的簇分布框架,再对特殊形状进行有效识别,扩大 数据处理量和增强处理能力。层次聚类法是该系统主要应用的聚类方法,在方法 启用前,数据挖掘系统会自动将所有信息对象进行数据空间分布的划分,使其形 成多个数据单元,并根据单元特性计算簇的分布。另一种比较具有特色的聚类方 法是密度聚类法,通过改进Dbscan算法,以代表性邻居对象的扩展种子点选取加 快算法速度、以较小分区聚类来实现数据分区、以取样数据聚类来实现整个数据 库的聚类,实现更加有效的系统聚类运算。
2.数据挖掘系统的构建方法 2.1整体框架结构 树状结构来对决策树进行呈现,用二维和三维点来对聚类结果进行显示, 用文本显示各类规则与模式。
3.结语 目前基于大规模数据库构建数据挖掘系统的研究较多,目的在信息化迅速发展的今天对数据库功能实现更深度的发掘,促进决策者从巨大的数据量中迅速、 准确的找到所需的数据资源,并基于此来实现有效决策。在本文的相关介绍中, 笔者仅对某数据挖掘系统的构建方法进行了简单介绍,由于目前相关的数据集成 系统越来越多的被发布和认可,建议有效应用如Quest、DBMiner等的优点,并进 一步行系统改进,结合企业的特点和需求进行数据挖掘系统的构建,从而达到更 好的经济和应用效益。
[1] 查志琴,高波. 基于Web搜索的数据挖掘系统的研究与实现[J]. 常州院 学报,2011,24(1):36-38. [2] 张毅. 面向大规模数据库的数据挖掘系统的设计[J]. 科技传播,2010, 4(4):123-124. [3] 田子德. 数据挖掘系统的选择[J]. 商情,2011,34(4):35-36. [4] 罗艳,黄明初,陆旭安,等. 一个数字档案馆中的数据挖掘系统工作流 程[J]. 广西科学院学报,2010,26(4):520-522.