新网创想网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
GIS是地理空间信息的采集、存储、管理、分析、应用和可视化的一门技术,GIS中文是地理信息系统或者地理信息科学。工作中围绕地理空间信息(地理位置及地理位置上的信息)展开,分为数据采集(测量、遥感、导航、摄影测量)、数据存储(空间数据库技术,进入空间数据库前要进行检查)、管理(数据库技术、数据结构等技术、还有就是数据的权限管理等,简单的来说就是数据的进入数据库和出数据库的管理)、分析(主要指空间分析)、应用(在国土、规划、导航、地图等等所有你能想到的地方,都能将GIS和其他的行业结合,实现PC端、Web端、移动和互联等设备和网络中的应用,类似于百度地图、高德地图等等的,但是远不止这些的应用,简单的概括就是将所有的信息和信息分析的结果叠加在地图上面展示),在以上这些过程中还伴随着地图制图的技术。这是GIS的流程。实际中,GIS就是围绕以上这几个方面工作,对于每一步,都有每一步的流程,对于地理信息系统,工作中分为两大部分,一部分是应用GIS系统,另一部分当然就是开发GIS系统了,对于应用的话,围绕数据的采集、存储、管理、加工、分析展开,对于GIS系统的开发就是围绕应用展开,开发中就是软件工程了。于IT技术相结合讨论的话,就是GIS和IT都是处理信息的科学技术,狭义上的IT主要指软件开发,GIS软件工程和软件工程是差不多的,主要是软件的设计、开发,GIS技术中有空间数据库技术、空间数据结构技术、还有一系列的软件开发技术(设计、编码实现,程序开发的话有C++/.NET/JAVA等),比较新的,如云计算、大数据、物联网等都有包括,应用的有数字城市、智慧地球等等。在物联网中,可以参考京东商城的物流,在物流中有物流配送路径选择、最短路径选择,物流信息在地图上可视化实时显示、管理和查询等,还有物流中转站的选址等等,很多只要能想到的都可以做。(纯手工打的,打得手都痛了,希望对你有用,细节技术,如有兴趣可单独联系)。
成都创新互联专注为客户提供全方位的互联网综合服务,包含不限于成都网站设计、成都做网站、会同网络推广、微信小程序开发、会同网络营销、会同企业策划、会同品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;成都创新互联为所有大学生创业者提供会同建站搭建服务,24小时服务热线:18982081108,官方网址:www.cdcxhl.com
(一)GIS简介--什么是GIS ?
地理信息系统 (GIS, Geographic Information System) 是一种基于计算机的工具,它可以对在地球上存在的东西和发生的事件进行成图和分析。 GIS 技术把地图这种独特的视觉化效果和地理分析功能与一般的数据库操作(例如查询和统计分析等)集成在一起。这种能力使 GIS与其他信息系统相区别,从而使其在广泛的公众和个人企事业单位中解释事件、预测结果、规划战略等中具有实用价值。
我们当今面临世界的最主要的挑战是——人口过多,环境污染,森林破坏,自然疾病等。这些都与地理因素有关。
不论是从事一种新的职业,还是寻找生长香蕉的最合适的土壤,或是为救护车计算最佳的行车路线,这些本地问题也都有地理因素。
地图制作和地理分析已不是新鲜事,但GIS执行这些任务比传统的手工方法更好更快。而且,在GIS技术出现之前,只有很少的人具有利用地理信息来帮助做出决定和解决问题的能力。
今天,GIS 已是一个全球拥有数十万的人员和数十亿美元的产业。GIS已在全世界的中学、学院、大学里被讲授。在每个领域里的专家不断地意识到按地理的观点来思考和工作所带来的优越性。
(二)GIS简介----一个GIS的组成
GIS 由五个主要的元素所构成: 硬件、软件、数据、人员和方法。
硬 件
硬件是GIS所操作的计算机。今天,GIS软件可以在很多类型的硬件上运行。从中央计算机服务器到桌面计算机,从单机到网络环境。
软 件
GIS软件提供所需的存储、分析和显示地理信息的功能和工具。主要的软件部件有:
输入和处理地理信息的工具
数据库管理系统(DBMS)
支持地理查询、分析和视觉化的工具
容易使用这些工具的图形化界面(GUI)
数 据
一个GIS系统中最重要的部件就是数据了。地理数据和相关的表格数据可以自己采集或者从商业数据提供者处购买。GIS将把空间数据和其他数据源的数据集成在一起,而且可以使用那些被大多数公司用来组织和保存数据的数据库管理系统,来管理空间数据。
人 员
GIS技术如果没有人来管理系统和制定计划应用于实际问题,将没有什么价值。GIS的用户范围包括从设计和维护系统的技术专家,到那些使用该系统并完成他们每天工作的人员。
方 法
成功的GIS系统,具有好的设计计划和自己的事务规律,这些是规范而且对每一个公司来说具体的操作实践又是独特的。
(三)GIS简介--GIS如何工作
GIS就是用来存储有关世界的信息,这些信息是可以通过地理关系连接在一起的所有主题层集合。这个简单却非常有力和通用的概念,对于解决许多真实世界的问题具有无价的作用,这些问题包括:跟踪传输工具、记录计划的详细资料,模拟全球的大气循环等。
地理参考系统
地理信息包含有明确的地理参照系统,例如经度和纬度坐标,或者是国家网格坐标。也可以包含间接的地理参照系统,例如地址、邮政编码、人口普查区名、森林位置识别、路名等。一种叫做地理编码的自动处理系统用来从间接的参照系统,如地址描述,转变成明确的地理参照系统,如多重定位。这些地理参考系统可以使你定位一些特征,例如商业活动、森林位置,也可以定位一些事件,例如地震,用于做地表分析。
矢量和栅格模式
地理信息系统工作于两种不同的基本地理模式——矢量模式和栅格模式。
在矢量模式中,关于点、线和多边形的信息被编码并以x、y坐标形式储存。一个点特征的定位,例如一个钻孔,可以被一个单一的x、y坐标所描述。线特征,例如公路和河流,可以被存储于一系列的点坐标。多边形特征,例如销售地域或河流聚集区域,可以被存储于一个闭合循环的坐标系。矢量模式非常有利于描述一些离散特征,但对连续变化的特征,例如土壤类型或赶往医院的开销等,就不太有用。
栅格模式发展为连续特征的模式。栅格图象包含有网格单元,有点像扫描的地图或照片。不管是矢量模式还是栅格模式,用来存储地理数据,都有优点和缺陷。现代的GIS都可以处理这两种模式。
(四)GIS简介--GIS 的任务
一般来说,GIS有以下五个过程或任务:
输入
处理
管理
查询和分析
可视化
输入
在地理数据用于GIS之前,数据必须转换成适当的数字格式。从图纸数据转换成计算机文件的过程叫做数字化。对于大型的项目,现代GIS技术可以通过扫描技术来使这个过程全部自动化,对于较小的项目,需要手工数字化(使用数字化桌)。
目前,许多地理数据已经是GIS兼容的数据格式。这些数据可以从数据提供商那里获得并直接装入GIS中。
处理
对于一个特殊的GIS项目来说,有可能需要将数据转换成或处理成某种形式以适应你的系统。例如,地理信息适用于不同的比例尺(街道中心线文件的比例尺也许是1:100,000;人口边界是1:50,000;邮政编码是1:10,000)。在这些信息被集成以前,必须转变成同一比例尺。这可以是为了显示的目的而做的临时变换,也可以是为了分析所做的永久变换。GIS技术提供了许多工具来处理空间数据和去除不必要的数据。
管理
对于小的GIS项目,把地理信息存储成简单的文件就足够了。但是,当数据量很大而且数据用户数很多时,最好使用一个数据库管理系统(DBMS),来帮助存储、组织和管理数据。一个数据库管理系统DBMS就是用来管理一个数据库—一个数据的完整收集——的计算机软件。
有许多不同的DBMS设计,但在GIS中,关系数据库管理系统的设计是最有用的。在关系数据库系统设计中,概念上数据都被存储成一系列的表格。不同表格中的共同字段可以把它们连接起来。这个令人惊讶的简单设计被广泛地应用,主要是由于它的灵活性以及在使用GIS和不使用GIS时,都被广泛地采用。
查询和分析
一旦你拥有一个包含你的地理信息的多功能的GIS系统,你可能开始提出象下面这样的一些简单问题:
这个角落上的这块土地属于谁?
两个地方之间的距离是多少?
工业用地的边界在哪里?
有关分析的问题可能是:
适合于盖新房子的所有地点在哪里?
生长橡树的最好的土壤类型是什么?
如果我要在这里建一条高速公路,它将如何影响交通?
GIS提供简单的鼠标点击查询功能和复杂的分析工具,为管理者和类似的分析家提供及时的信息。当你分析地理数据用于寻找模式和趋势,或提出“如果……怎么样”设想时,GIS技术实际上正在被使用。现代的GIS具有许多有力的分析工具,但是有两个是特别重要的。
1. 接近程度分析
在这片水域周围100米范围内有多少房子?
这家商店附近10公里范围内共有多少消费者?
在这口井周围500米范围内紫花苜蓿这种植物占多大面积?
为了回答这些问题,GIS技术使用一个叫做缓冲的处理方法,来确定特征间的接近关系。
2. 覆盖范围分析
不同数据层的综合方法叫做覆盖。简单的说,它可以是一个可视化操作,但是分析操作需要一个或多个物理连接起来的数据层。覆盖,或空间连接,可以将税收数据与土地、斜坡、植被或土地所有者等集成在一起。
可视化
对于许多类型的地理操作,最终结果最好是以地图或图形来显示。图件对于存储和传递地理信息是非常有效的。制图者已经生产了上千年的地图,GIS为扩展这种制图艺术和科学提供了崭新的和激动人心的工具。地图显示可以集成在报告、三维观察、照片图象和例如多媒体的其他输出中。
(五)GIS简介--相关技术
GIS与其他几种信息系统密切相关,但由于其处理和分析地理数据的能力使其与它们相区别。尽管没有什么硬性的和快速的规则来给这些信息系统分类,但下面的讨论可以帮助区分GIS和桌面制图、计算机辅助设计CAD、遥感、DBMS、以及GPS技术。
桌面制图
桌面制图系统用地图来组织数据和用户交互。这种系统的主要目的是产生地图:地图就是数据库。大多数桌面制图系统只有及其有限的数据管理、空间分析以及个性化能力。桌面制图系统在桌面计算机上进行操作,例如PC机,Macintosh以及小型UNIX工作站。
计算机辅助设计CAD
计算机辅助设计(CAD)系统促进了产生建筑物和基本建设的设计和规划。这种设计需要装配固有特征的组件来产生整个结构。这些系统需要一些规则来指明如何装配这些部件,并具有非常有限的分析能力。CAD系统已经扩展可以支持地图设计,但管理和分析大型的地理数据库的工具很有限。
遥感和GPS
遥感是一门使用传感器对地球进行测量的科学和技术,例如,飞机上的照相机,全球定位系统(GPS)接收器,或其他设备。这些传感器以图象的格式收集数据,并为利用、分析和可视化这些图象提供专门的功能。由于它缺乏强大的地理数据管理和分析作用,所以不能叫作真正的GIS。
DBMS数据库管理系统
数据库管理系统专门研究如何存储和管理所有类型的数据,其中包括地理数据。DBMS使存储和查找数据最优化,许多GIS为此而依靠它。相对于GIS而言,它们没有分析和可视化的工具。
(六)GIS简介--GIS可以做什么?
进行地理信息查询和分析
GIS搜索数据库并进行地理信息查询的能力,节约了许多公司数以百万计的美元。GIS可以:
缩短回答客户请求的时间
找到适合于开发的土地
在粮食、土壤和天气之间找寻相关关系
电气线路故障定位
房地产经纪人可以用GIS在一定的区域内寻找满足下列条件的所有房屋:瓦盖的屋顶、 五个房间,并可列出它们的所有特点。
查询可以通过增加准则来进一步细化:房价必须每平方英尺少于100美元。还可以列出这些房屋离学校在一定的距离之内。
改进机构集成
许多采用了GIS的机构发现其主要效益之一是改进了它们自己的机构和资源的管理。由于GIS具有将数据集合和地理信息链接起来的能力,促使它们之间共享和交流局部信息。通过产生可共享的数据库,一个部门可从另一个部门的工作中得到好处,这是由于数据只需采集一次,但应用多次。
由于个人和部门之间的通讯在增加,冗余被减少,生产力提高,整体组织效率改进。因此,在一个有效的公司里,用户和基本建设数据库可以集成在一起,这样,当需要进行维护时,受影响的用户会得到计算机发出的信件。
做出好的决定
一个古老的格言“好的信息导致好的决定”,对于GIS和其他信息系统来说都是正确的。然而,一个地理信息系统(GIS),并不是一个自动决策系统,而是一个查询、分析和支持作出决策处理的图件数据工具。GIS技术已经被用于帮助完成一些任务,例如:为计划调查提供信息,帮助解决领土争端,以最小化视觉干扰为原则设置路标。
GIS可以用于帮助一个新房址的选定,以使其受环境影响最小,在低风险区域,离人口聚集地近。可以以地图和附加报告的方式简洁而清晰的提供这个信息,使决策者集中精力于实际的问题,而不是花时间去理解数据。由于GIS结果能够很快地获得,多个假想的结果可以被高效地评价。
制图
图件在GIS中占有重要的一席之地。GIS的制图方法比传统的人工或自动绘图方法要灵活得多。她开始于数据库的创建。已经存在的纸张图件可以进行数字化,并可以把计算机兼容的信息转换到GIS中。以GIS为基础的图形数据库是可以延续的,比例尺也不受限制。图件可以以任何地点为中心,比例尺任意,使用突出效果的特殊字符有效地显示所选择的信息。
地图集和地图丛书的特征可以用计算机程序编码,并与最终的数据库产品相比较。在其他GIS中使用的数字化产品还可以来自数据库的简单拷贝。在一个大的组织机构中,地形数据库可以被其他部门用作参考构架。
引言
地理信息系统(Geographic Information System,简称GIS)是计算机科学、地理学、测量学、地图学等多门学科综合的技术[1]。GIS的基本技术是空间数据库、地图可视化及空间分析,而空间数据库是GIS的关键。空间数据挖掘技术作为当前数据库技术最活跃的分支与知识获取手段,在GIS中的应用推动着GIS朝智能化和集成化的方向发展。
1 空间数据库与空间数据挖掘技术的特点
随着数据库技术的不断发展和数据库管理系统的广泛应用,数据库中存储的数据量也在急剧增大,在这些海量数据的背后隐藏了很多具有决策意义的信息。但是,现今数据库的大多数应用仍然停留在查询、检索阶段,数据库中隐藏的丰富的知识远远没有得到充分的发掘和利用,数据库中数据的急剧增长和人们对数据库处理和理解的困难形成了强烈的反差,导致“人们被数据淹没,但却饥饿于知识”的现象。
空间数据库(数据仓库)中的空间数据除了其显式信息外,还具有丰富的隐含信息,如数字高程模型〔DEM或TIN〕,除了载荷高程信息外,还隐含了地质岩性与构造方面的信息;植物的种类是显式信息,但其中还隐含了气候的水平地带性和垂直地带性的信息,等等。这些隐含的信息只有通过数据挖掘才能显示出来。空间数据挖掘(Spatial Data Mining,简称SDM),或者称为从空间数据库中发现知识,是为了解决空间数据海量特性而扩展的一个新的数据挖掘的研究分支,是指从空间数据库中提取隐含的、用户感兴趣的空间或非空间的模式和普遍特征的过程[2]。由于SDM的对象主要是空间数据库,而空间数据库中不仅存储了空间事物或对象的几何数据、属性数据,而且存储了空间事物或对象之间的图形空间关系,因此其处理方法有别于一般的数据挖掘方法。SDM与传统的地学数据分析方法的本质区别在于SDM是在没有明确假设的前提下去挖掘信息、发现知识,挖掘出的知识应具有事先未知、有效和可实用3个特征。
空间数据挖掘技术需要综合数据挖掘技术与空间数据库技术,它可用于对空间数据的理解,对空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等。
2 空间数据挖掘技术的主要方法及特点
常用的空间数据挖掘技术包括:序列分析、分类分析、预测、聚类分析、关联规则分析、时间序列分析、粗集方法及云理论等。本文从挖掘任务和挖掘方法的角度,着重介绍了分类分析、聚类分析和关联规则分析三种常用的重要的方法。
2.1、分类分析
分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和我们熟知的回归方法都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续的数值。二者常表现为一棵决策树,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。空间分类的规则实质是对给定数据对象集的抽象和概括,可用宏元组表示。
要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由特征(又称属性)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:( v1, v2, ..., vn; c );其中vi表示字段值,c表示类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示是判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是反向传播(Back-Propagation,简称BP)算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数[3]。另外,最近又兴起了一种新的方法:粗糙集(rough set),其知识表示是产生式规则。
不同的分类器有不同的特点。有三种分类器评价或比较尺度:1) 预测准确度;2) 计算复杂度;3) 模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是海量的数据库,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎。例如,采用规则归纳法表示的分类器构造法就很有用,而神经网络方法产生的结果就难以理解。
另外要注意的是,分类的效果一般和数据的特点有关。有的数据噪声大,有的有缺值, 有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。
分类技术在实际应用非常重要,比如:可以根据房屋的地理位置决定房屋的档次等。
2. 2 聚类分析
聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。它的目的是使得属于同一个组的样本之间应该彼此相似,而不同组的样本应足够不相似。与分类分析不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。基于聚类分析方法的空间数据挖掘算法包括均值近似算法[4]、CLARANS、BIRCH、DBSCAN等算法。目前,对空间数据聚类分析方法的研究是一个热点。
对于空间数据,利用聚类分析方法,可以根据地理位置以及障碍物的存在情况自动地进行区域划分。例如,根据分布在不同地理位置的ATM机的情况将居民进行区域划分,根据这一信息,可以有效地进行ATM机的设置规划,避免浪费,同时也避免失掉每一个商机。
2.3 关联规则分析
关联规则分析主要用于发现不同事件之间的关联性,即一事物发生时,另一事物也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是:事件发生的概率和条件概率应该符合一定的统计意义。空间关联规则的形式是X->Y[S%,C%],其中X、Y是空间或非空间谓词的集合,S%表示规则的支持度,C%表示规则的置信度。空间谓词的形式有3种:表示拓扑结构的谓词、表示空间方向的谓词和表示距离的谓词[5]。各种各样的空间谓词可以构成空间关联规则。如,距离信息(如Close_to(临近)、Far_away(远离))、拓扑关系(Intersect(交)、Overlap(重叠)、Disjoin(分离))和空间方位(如Right_of(右边)、West_of(西边))。实际上大多数算法都是利用空间数据的关联特性改进其分类算法,使得它适合于挖掘空间数据中的相关性,从而可以根据一个空间实体而确定另一个空间实体的地理位置,有利于进行空间位置查询和重建空间实体等。大致算法可描述如下:(1)根据查询要求查找相关的空间数据;(2)利用临近等原则描述空间属性和特定属性;(3)根据最小支持度原则过滤不重要的数据;(4)运用其它手段对数据进一步提纯(如OVERLAY);(5)生成关联规则。
关联规则通常可分为两种:布尔型的关联规则和多值关联规则。多值关联规则比较复杂,一种自然的想法是将它转换为布尔型关联规则,由于空间关联规则的挖掘需要在大量的空间对象中计算多种空间关系,因此其代价是很高的。—种逐步求精的挖掘优化方法可用于空间关联的分析,该方法首先用一种快速的算法粗略地对一个较大的数据集进行一次挖掘,然后在裁减过的数据集上用代价较高的算法进一步改进挖掘的质量。因为其代价非常高,所以空间的关联方法需要进一步的优化。
对于空间数据,利用关联规则分析,可以发现地理位置的关联性。例如,85%的靠近高速公路的大城镇与水相邻,或者发现通常与高尔夫球场相邻的对象是停车场等。
3 空间数据挖掘技术的研究方向
3.1 处理不同类型的数据
绝大多数数据库是关系型的,因此在关系数据库上有效地执行数据挖掘是至关重要的。但是在不同应用领域中存在各种数据和数据库,而且经常包含复杂的数据类型,例如结构数据、复杂对象、事务数据、历史数据等。由于数据类型的多样性和不同的数据挖掘目标,一个数据挖掘系统不可能处理各种数据。因此针对特定的数据类型,需要建立特定的数据挖掘系统。
3.2 数据挖掘算法的有效性和可测性
海量数据库通常有上百个属性和表及数百万个元组。GB数量级数据库已不鲜见,TB数量级数据库已经出现,高维大型数据库不仅增大了搜索空间,也增加了发现错误模式的可能性。因此必须利用领域知识降低维数,除去无关数据,从而提高算法效率。从一个大型空间数据库中抽取知识的算法必须高效、可测量,即数据挖掘算法的运行时间必须可预测,且可接受,指数和多项式复杂性的算法不具有实用价值。但当算法用有限数据为特定模型寻找适当参数时,有时也会导致物超所值,降低效率。
3.3 交互性用户界面
数据挖掘的结果应准确地描述数据挖掘的要求,并易于表达。从不同的角度考察发现的知识,并以不同形式表示,用高层次语言和图形界面表示数据挖掘要求和结果。目前许多知识发现系统和工具缺乏与用户的交互,难以有效利用领域知识。对此可以利用贝叶斯方法和演译数据库本身的演译能力发现知识。
3.4 在多抽象层上交互式挖掘知识
很难预测从数据库中会挖掘出什么样的知识,因此一个高层次的数据挖掘查询应作为进一步探询的线索。交互式挖掘使用户能交互地定义一个数据挖掘要求,深化数据挖掘过程,从不同角度灵活看待多抽象层上的数据挖掘结果。
3.5 从不同数据源挖掘信息
局域网、广域网以及Internet网将多个数据源联成一个大型分布、异构的数据库,从包含不同语义的格式化和非格式化数据中挖掘知识是对数据挖掘的一个挑战。数据挖掘可揭示大型异构数据库中存在的普通查询不能发现的知识。数据库的巨大规模、广泛分布及数据挖掘方法的计算复杂性,要求建立并行分布的数据挖掘。
3.6 私有性和安全性
数据挖掘能从不同角度、不同抽象层上看待数据,这将影响到数据挖掘的私有性和安全性。通过研究数据挖掘导致的数据非法侵入,可改进数据库安全方法,以避免信息泄漏。
3.7 和其它系统的集成
方法、功能单一的发现系统的适用范围必然受到一定的限制。要想在更广泛的领域发现知识,空间数据挖掘系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等技术的集成。
4 有待研究的问题
我们虽然在空间数据挖掘技术的研究和应用中取得了很大的成绩,但在一些理论及应用方面仍存在急需解决的问题。
4.1 数据访问的效率和可伸缩性
空间数据的复杂性和数据的大量性,TB数量级的数据库的出现,必然增大发现算法的搜索空间,增加了搜索的盲目性。如何有效的去除与任务无关的数据,降低问题的维数,设计出更加高效的挖掘算法对空间数据挖掘提出了巨大的挑战。
4.2 对当前一些GIS软件缺乏时间属性和静态存储的改进
由于数据挖掘的应用在很大的程度上涉及到时序关系,因此静态的数据存储严重妨碍了数据挖掘的应用。基于图层的计算模式、不同尺度空间数据之间的完全割裂也对空间数据挖掘设置了重重障碍。空间实体与属性数据之间的联系仅仅依赖于标识码,这种一维的连接方式无疑将丢失大量的连接信息,不能有效的表示多维和隐含的内在连接关系,这些都增加了数据挖掘计算的复杂度,极大地增加了数据准备阶段的工作量和人工干预的程度。
4.3 发现模式的精炼
当发现空间很大时会获得大量的结果,尽管有些是无关或没有意义的模式,这时可利用领域的知识进一步精炼发现的模式,从而得到有意义的知识。
在空间数据挖掘技术方面,重要的研究和应用的方向还包括:网络环境上的数据挖掘、栅格矢量一体化的挖掘、不确定性情况下的数据挖掘、分布式环境下的数据挖掘、数据挖掘查询语言和新的高效的挖掘算法等。
5 小结
随着GIS与数据挖掘及相关领域科学研究的不断发展,空间数据挖掘技术在广度和深度上的不断深入,在不久的将来,一个集成了挖掘技术的GIS、GPS、RS集成系统必将朝着智能化、网络化、全球化与大众化的方向发展。