数据挖掘:提高统计决策支持水平的有效工具
出处:安阳市统计局 发布日期:2008年10月21日 09:11
一、前言
统计服务是统计工作的重要内容,统计新形象的确立,关键是统计服务工作能否到位。统计分析又是统计服务的重要内容,统计部门撰写统计分析报告就是为了满足党政领导和社会各界的需要,特别是充分运用所掌握的数据进行数字归纳、分析、整理、科学严谨的分析后,为决策者提供优质的决策依据。目前,在搞好统计优质服务方面,各级统计部门做了大量工作,撰写了大量分析报告,但存在着简单的数字汇总与罗列,影响着统计分析质量和统计服务水平的全面发挥,与形势的发展、科学决策的需要还有很大的差距,而政府工作中对统计部门的数据分析和推断的要求却在不断加强。面对不断聚集在各级统计部门的海量数据,为得到有益的信息或者知识为决策服务,传统的统计技术和手段已不能完全胜任,结合统计学、数据库、机器学习等技术的数据挖掘技术给我们提供了新的选择。
二、数据挖掘简介
(一)数据挖掘的含义
数据挖掘(Data Mining),顾名思义就是从大量的数据中挖掘出有用的信息。一般人们认为它是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。它也可理解为是在一些事实或观察数据的集合中寻找模式的决策支持过程。数据挖掘是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。它也常被称为“知识发现”,相对来讲,“数据挖掘”主要流行于统计界(最早出现于统计文献中)、数据分析、数据库和管理信息系统界;而“知识发现”则主要流行于人工智能和机器学习界。
数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估。数据挖掘主要功能有:分类或预测模型、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。
(二)数据挖掘的基本特点
数据挖掘具有以下特点:(1)数据挖掘的数据量巨大,待处理的数据规模可能达到GB、TB级别,甚至更大;(2)数据挖掘在不确定的查询需求情况下为用户寻找他可能感兴趣的信息;(3)数据挖掘分析大量的原始数据挖掘内在的有价值的知识,用于描述过去的趋势和预测未来的趋势;(4)数据挖掘应对数据量增长快速,及时快速地作出响应,提供决策支持信息。
(三)数据挖掘的常用技术
数据挖掘常用技术:关联规则方法、记忆基础推理(MBR)方法、聚集检测、连接分析、决策树和规则推理、神经元网络、基因(遗传)算法、OLAP方法(即在线分析处理方法,严格说不属于数据挖掘的范畴,但是他同样可以获得一些有用的信息)等。
三、采用数据挖掘技术的可行性
(一)数据挖掘技术的研究与应用发展到了一定水平
数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,在国内外学术界得到广泛关注,国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。我国也已经开始进行数据挖掘技术的研究,出现了如数据挖掘与信息共享教育部重点实验室、国家统计局统计信息技术与数据挖掘重点开放实验室等专业研究机构和专门从事统计分析软件、数据挖掘软件和商务智能软件开发的高科技型企业。
(二)数据挖掘工具日益丰富,能满足不同需求
数据挖掘工具的市场可分为三个组成部分:通用型工具、综合工具和面向特定应用的工具。
通用型工具占有最大和最成熟的那部分市场,它们适合于各种需要的情况,主要工具有SAS Enterprise Miner、SPSS Clementine、IBM Intelligent Miner、Oracle Darwin、Unica PRW、SGI MineSet等软件。
综合工具反映了商业对具有多功能的决策支持工具的真实和迫切的需求。这种工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。主要包括:Cognos Scenario和Business Objects等。
面向特定应用工具发展快速,它们是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件等。
(三)数据挖掘成果已创造了良好的社会经济效益
数据挖掘在金融领域应用中发现某个客户、消费群体或组织的金融和商业兴趣;在市场业应用中进行市场定位和消费者分析,辅助制定市场策略,其中最典型的例子是:“尿布和啤酒”的销售量居然存在相互关联;在各种工程与科学数据分析应用中,在天文学和生物学上都取得了成功的案例;在制造业应用中进行零部件故障诊断、资源优化、生产过程分析;在司法应用中进行案件调查、诈骗监测、洗钱认证、犯罪组织分析等,其中“犯罪根源”的发现就是最好的例子。
(四)宏观经济数据库建设为统计数据挖掘创造了条件
全国各级统计部门开发使用的系统多是具体业务的应用系统,统计信息的采集、处理是分专业进行的,除大型普查的数据外,其余绝大多数数据都处于分散存储与管理状态。因此都面临着数据积存、数据分散、标准不统一、系统老化等问题。使得数据使用率低、数据查询困难、大量数据处于“沉睡”状态,甚至已经损坏,更不可能有效地进行数据分析和挖掘,但随着全国“宏观经济数据库”建设项目的启动,使这种情况开始得到了改观。
“宏观经济数据库”于2002年8月29日在电子政务部门工作会议上被列入中央电子政务一期重点建设项目名单,并明确由国家统计局牵头组建,是国家电子政务19个重点建设项目之一,也是国家电子政务四大基础数据库之一。目前各省市正按照规划稳步推进建设,通过建立涵盖国民经济、社会发展、科技教育、环境资源等方面的宏观经济数据库指标体系,使数据规范,标准统一,便于数据分析和挖掘,满足政府宏观经济调控决策时对信息的需要,满足各个层面管理决策的需要,使社会各界可以方便地获取、查询政府宏观经济数据信息。
四、结束语
随着数挖掘技术的发展和普及,越来越多的人们已经认识到数据挖掘技术能将原始数据转换为有意义的形式,从中挖掘潜在的巨大价值和所蕴含的科学知识。随着数据挖掘技术不断被应用到新的领域和各种算法不断被应用到数据挖掘领域中,将更大激发数据挖掘技术的潜力,进一步推进数据挖掘技术在统计部门中的应用,进一步提高统计信息资源的利用价值,当数挖掘技术与统计工作者对数据分析的特长和对政务工作的了解优势结合起来,将不断地提高对经济运行状况的分析、监测和预警,更好地为党政领导决策服务、为社会公众服务、为改革开放服务。