新聞中心
、GIS的功能及其工作流程是什么?GIS與IT技術有哪些綜合應用?舉例說明GIS在現(xiàn)代物流中有哪些應用
GIS是地理空間信息的采集、存儲、管理、分析、應用和可視化的一門技術,GIS中文是地理信息系統(tǒng)或者地理信息科學。工作中圍繞地理空間信息(地理位置及地理位置上的信息)展開,分為數(shù)據(jù)采集(測量、遙感、導航、攝影測量)、數(shù)據(jù)存儲(空間數(shù)據(jù)庫技術,進入空間數(shù)據(jù)庫前要進行檢查)、管理(數(shù)據(jù)庫技術、數(shù)據(jù)結構等技術、還有就是數(shù)據(jù)的權限管理等,簡單的來說就是數(shù)據(jù)的進入數(shù)據(jù)庫和出數(shù)據(jù)庫的管理)、分析(主要指空間分析)、應用(在國土、規(guī)劃、導航、地圖等等所有你能想到的地方,都能將GIS和其他的行業(yè)結合,實現(xiàn)PC端、Web端、移動和互聯(lián)等設備和網(wǎng)絡中的應用,類似于百度地圖、高德地圖等等的,但是遠不止這些的應用,簡單的概括就是將所有的信息和信息分析的結果疊加在地圖上面展示),在以上這些過程中還伴隨著地圖制圖的技術。這是GIS的流程。實際中,GIS就是圍繞以上這幾個方面工作,對于每一步,都有每一步的流程,對于地理信息系統(tǒng),工作中分為兩大部分,一部分是應用GIS系統(tǒng),另一部分當然就是開發(fā)GIS系統(tǒng)了,對于應用的話,圍繞數(shù)據(jù)的采集、存儲、管理、加工、分析展開,對于GIS系統(tǒng)的開發(fā)就是圍繞應用展開,開發(fā)中就是軟件工程了。于IT技術相結合討論的話,就是GIS和IT都是處理信息的科學技術,狹義上的IT主要指軟件開發(fā),GIS軟件工程和軟件工程是差不多的,主要是軟件的設計、開發(fā),GIS技術中有空間數(shù)據(jù)庫技術、空間數(shù)據(jù)結構技術、還有一系列的軟件開發(fā)技術(設計、編碼實現(xiàn),程序開發(fā)的話有C++/.NET/JAVA等),比較新的,如云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等都有包括,應用的有數(shù)字城市、智慧地球等等。在物聯(lián)網(wǎng)中,可以參考京東商城的物流,在物流中有物流配送路徑選擇、最短路徑選擇,物流信息在地圖上可視化實時顯示、管理和查詢等,還有物流中轉站的選址等等,很多只要能想到的都可以做。(純手工打的,打得手都痛了,希望對你有用,細節(jié)技術,如有興趣可單獨聯(lián)系)。
成都創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務,包含不限于成都網(wǎng)站設計、成都做網(wǎng)站、會同網(wǎng)絡推廣、微信小程序開發(fā)、會同網(wǎng)絡營銷、會同企業(yè)策劃、會同品牌公關、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務,您的肯定,是我們最大的嘉獎;成都創(chuàng)新互聯(lián)為所有大學生創(chuàng)業(yè)者提供會同建站搭建服務,24小時服務熱線:18982081108,官方網(wǎng)址:www.cdcxhl.com
請教哪位知道gis具體是什么?
(一)GIS簡介--什么是GIS ?
地理信息系統(tǒng) (GIS, Geographic Information System) 是一種基于計算機的工具,它可以對在地球上存在的東西和發(fā)生的事件進行成圖和分析。 GIS 技術把地圖這種獨特的視覺化效果和地理分析功能與一般的數(shù)據(jù)庫操作(例如查詢和統(tǒng)計分析等)集成在一起。這種能力使 GIS與其他信息系統(tǒng)相區(qū)別,從而使其在廣泛的公眾和個人企事業(yè)單位中解釋事件、預測結果、規(guī)劃戰(zhàn)略等中具有實用價值。
我們當今面臨世界的最主要的挑戰(zhàn)是——人口過多,環(huán)境污染,森林破壞,自然疾病等。這些都與地理因素有關。
不論是從事一種新的職業(yè),還是尋找生長香蕉的最合適的土壤,或是為救護車計算最佳的行車路線,這些本地問題也都有地理因素。
地圖制作和地理分析已不是新鮮事,但GIS執(zhí)行這些任務比傳統(tǒng)的手工方法更好更快。而且,在GIS技術出現(xiàn)之前,只有很少的人具有利用地理信息來幫助做出決定和解決問題的能力。
今天,GIS 已是一個全球擁有數(shù)十萬的人員和數(shù)十億美元的產(chǎn)業(yè)。GIS已在全世界的中學、學院、大學里被講授。在每個領域里的專家不斷地意識到按地理的觀點來思考和工作所帶來的優(yōu)越性。
(二)GIS簡介----一個GIS的組成
GIS 由五個主要的元素所構成: 硬件、軟件、數(shù)據(jù)、人員和方法。
硬 件
硬件是GIS所操作的計算機。今天,GIS軟件可以在很多類型的硬件上運行。從中央計算機服務器到桌面計算機,從單機到網(wǎng)絡環(huán)境。
軟 件
GIS軟件提供所需的存儲、分析和顯示地理信息的功能和工具。主要的軟件部件有:
輸入和處理地理信息的工具
數(shù)據(jù)庫管理系統(tǒng)(DBMS)
支持地理查詢、分析和視覺化的工具
容易使用這些工具的圖形化界面(GUI)
數(shù) 據(jù)
一個GIS系統(tǒng)中最重要的部件就是數(shù)據(jù)了。地理數(shù)據(jù)和相關的表格數(shù)據(jù)可以自己采集或者從商業(yè)數(shù)據(jù)提供者處購買。GIS將把空間數(shù)據(jù)和其他數(shù)據(jù)源的數(shù)據(jù)集成在一起,而且可以使用那些被大多數(shù)公司用來組織和保存數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng),來管理空間數(shù)據(jù)。
人 員
GIS技術如果沒有人來管理系統(tǒng)和制定計劃應用于實際問題,將沒有什么價值。GIS的用戶范圍包括從設計和維護系統(tǒng)的技術專家,到那些使用該系統(tǒng)并完成他們每天工作的人員。
方 法
成功的GIS系統(tǒng),具有好的設計計劃和自己的事務規(guī)律,這些是規(guī)范而且對每一個公司來說具體的操作實踐又是獨特的。
(三)GIS簡介--GIS如何工作
GIS就是用來存儲有關世界的信息,這些信息是可以通過地理關系連接在一起的所有主題層集合。這個簡單卻非常有力和通用的概念,對于解決許多真實世界的問題具有無價的作用,這些問題包括:跟蹤傳輸工具、記錄計劃的詳細資料,模擬全球的大氣循環(huán)等。
地理參考系統(tǒng)
地理信息包含有明確的地理參照系統(tǒng),例如經(jīng)度和緯度坐標,或者是國家網(wǎng)格坐標。也可以包含間接的地理參照系統(tǒng),例如地址、郵政編碼、人口普查區(qū)名、森林位置識別、路名等。一種叫做地理編碼的自動處理系統(tǒng)用來從間接的參照系統(tǒng),如地址描述,轉變成明確的地理參照系統(tǒng),如多重定位。這些地理參考系統(tǒng)可以使你定位一些特征,例如商業(yè)活動、森林位置,也可以定位一些事件,例如地震,用于做地表分析。
矢量和柵格模式
地理信息系統(tǒng)工作于兩種不同的基本地理模式——矢量模式和柵格模式。
在矢量模式中,關于點、線和多邊形的信息被編碼并以x、y坐標形式儲存。一個點特征的定位,例如一個鉆孔,可以被一個單一的x、y坐標所描述。線特征,例如公路和河流,可以被存儲于一系列的點坐標。多邊形特征,例如銷售地域或河流聚集區(qū)域,可以被存儲于一個閉合循環(huán)的坐標系。矢量模式非常有利于描述一些離散特征,但對連續(xù)變化的特征,例如土壤類型或趕往醫(yī)院的開銷等,就不太有用。
柵格模式發(fā)展為連續(xù)特征的模式。柵格圖象包含有網(wǎng)格單元,有點像掃描的地圖或照片。不管是矢量模式還是柵格模式,用來存儲地理數(shù)據(jù),都有優(yōu)點和缺陷。現(xiàn)代的GIS都可以處理這兩種模式。
(四)GIS簡介--GIS 的任務
一般來說,GIS有以下五個過程或任務:
輸入
處理
管理
查詢和分析
可視化
輸入
在地理數(shù)據(jù)用于GIS之前,數(shù)據(jù)必須轉換成適當?shù)臄?shù)字格式。從圖紙數(shù)據(jù)轉換成計算機文件的過程叫做數(shù)字化。對于大型的項目,現(xiàn)代GIS技術可以通過掃描技術來使這個過程全部自動化,對于較小的項目,需要手工數(shù)字化(使用數(shù)字化桌)。
目前,許多地理數(shù)據(jù)已經(jīng)是GIS兼容的數(shù)據(jù)格式。這些數(shù)據(jù)可以從數(shù)據(jù)提供商那里獲得并直接裝入GIS中。
處理
對于一個特殊的GIS項目來說,有可能需要將數(shù)據(jù)轉換成或處理成某種形式以適應你的系統(tǒng)。例如,地理信息適用于不同的比例尺(街道中心線文件的比例尺也許是1:100,000;人口邊界是1:50,000;郵政編碼是1:10,000)。在這些信息被集成以前,必須轉變成同一比例尺。這可以是為了顯示的目的而做的臨時變換,也可以是為了分析所做的永久變換。GIS技術提供了許多工具來處理空間數(shù)據(jù)和去除不必要的數(shù)據(jù)。
管理
對于小的GIS項目,把地理信息存儲成簡單的文件就足夠了。但是,當數(shù)據(jù)量很大而且數(shù)據(jù)用戶數(shù)很多時,最好使用一個數(shù)據(jù)庫管理系統(tǒng)(DBMS),來幫助存儲、組織和管理數(shù)據(jù)。一個數(shù)據(jù)庫管理系統(tǒng)DBMS就是用來管理一個數(shù)據(jù)庫—一個數(shù)據(jù)的完整收集——的計算機軟件。
有許多不同的DBMS設計,但在GIS中,關系數(shù)據(jù)庫管理系統(tǒng)的設計是最有用的。在關系數(shù)據(jù)庫系統(tǒng)設計中,概念上數(shù)據(jù)都被存儲成一系列的表格。不同表格中的共同字段可以把它們連接起來。這個令人驚訝的簡單設計被廣泛地應用,主要是由于它的靈活性以及在使用GIS和不使用GIS時,都被廣泛地采用。
查詢和分析
一旦你擁有一個包含你的地理信息的多功能的GIS系統(tǒng),你可能開始提出象下面這樣的一些簡單問題:
這個角落上的這塊土地屬于誰?
兩個地方之間的距離是多少?
工業(yè)用地的邊界在哪里?
有關分析的問題可能是:
適合于蓋新房子的所有地點在哪里?
生長橡樹的最好的土壤類型是什么?
如果我要在這里建一條高速公路,它將如何影響交通?
GIS提供簡單的鼠標點擊查詢功能和復雜的分析工具,為管理者和類似的分析家提供及時的信息。當你分析地理數(shù)據(jù)用于尋找模式和趨勢,或提出“如果……怎么樣”設想時,GIS技術實際上正在被使用。現(xiàn)代的GIS具有許多有力的分析工具,但是有兩個是特別重要的。
1. 接近程度分析
在這片水域周圍100米范圍內有多少房子?
這家商店附近10公里范圍內共有多少消費者?
在這口井周圍500米范圍內紫花苜蓿這種植物占多大面積?
為了回答這些問題,GIS技術使用一個叫做緩沖的處理方法,來確定特征間的接近關系。
2. 覆蓋范圍分析
不同數(shù)據(jù)層的綜合方法叫做覆蓋。簡單的說,它可以是一個可視化操作,但是分析操作需要一個或多個物理連接起來的數(shù)據(jù)層。覆蓋,或空間連接,可以將稅收數(shù)據(jù)與土地、斜坡、植被或土地所有者等集成在一起。
可視化
對于許多類型的地理操作,最終結果最好是以地圖或圖形來顯示。圖件對于存儲和傳遞地理信息是非常有效的。制圖者已經(jīng)生產(chǎn)了上千年的地圖,GIS為擴展這種制圖藝術和科學提供了嶄新的和激動人心的工具。地圖顯示可以集成在報告、三維觀察、照片圖象和例如多媒體的其他輸出中。
(五)GIS簡介--相關技術
GIS與其他幾種信息系統(tǒng)密切相關,但由于其處理和分析地理數(shù)據(jù)的能力使其與它們相區(qū)別。盡管沒有什么硬性的和快速的規(guī)則來給這些信息系統(tǒng)分類,但下面的討論可以幫助區(qū)分GIS和桌面制圖、計算機輔助設計CAD、遙感、DBMS、以及GPS技術。
桌面制圖
桌面制圖系統(tǒng)用地圖來組織數(shù)據(jù)和用戶交互。這種系統(tǒng)的主要目的是產(chǎn)生地圖:地圖就是數(shù)據(jù)庫。大多數(shù)桌面制圖系統(tǒng)只有及其有限的數(shù)據(jù)管理、空間分析以及個性化能力。桌面制圖系統(tǒng)在桌面計算機上進行操作,例如PC機,Macintosh以及小型UNIX工作站。
計算機輔助設計CAD
計算機輔助設計(CAD)系統(tǒng)促進了產(chǎn)生建筑物和基本建設的設計和規(guī)劃。這種設計需要裝配固有特征的組件來產(chǎn)生整個結構。這些系統(tǒng)需要一些規(guī)則來指明如何裝配這些部件,并具有非常有限的分析能力。CAD系統(tǒng)已經(jīng)擴展可以支持地圖設計,但管理和分析大型的地理數(shù)據(jù)庫的工具很有限。
遙感和GPS
遙感是一門使用傳感器對地球進行測量的科學和技術,例如,飛機上的照相機,全球定位系統(tǒng)(GPS)接收器,或其他設備。這些傳感器以圖象的格式收集數(shù)據(jù),并為利用、分析和可視化這些圖象提供專門的功能。由于它缺乏強大的地理數(shù)據(jù)管理和分析作用,所以不能叫作真正的GIS。
DBMS數(shù)據(jù)庫管理系統(tǒng)
數(shù)據(jù)庫管理系統(tǒng)專門研究如何存儲和管理所有類型的數(shù)據(jù),其中包括地理數(shù)據(jù)。DBMS使存儲和查找數(shù)據(jù)最優(yōu)化,許多GIS為此而依靠它。相對于GIS而言,它們沒有分析和可視化的工具。
(六)GIS簡介--GIS可以做什么?
進行地理信息查詢和分析
GIS搜索數(shù)據(jù)庫并進行地理信息查詢的能力,節(jié)約了許多公司數(shù)以百萬計的美元。GIS可以:
縮短回答客戶請求的時間
找到適合于開發(fā)的土地
在糧食、土壤和天氣之間找尋相關關系
電氣線路故障定位
房地產(chǎn)經(jīng)紀人可以用GIS在一定的區(qū)域內尋找滿足下列條件的所有房屋:瓦蓋的屋頂、 五個房間,并可列出它們的所有特點。
查詢可以通過增加準則來進一步細化:房價必須每平方英尺少于100美元。還可以列出這些房屋離學校在一定的距離之內。
改進機構集成
許多采用了GIS的機構發(fā)現(xiàn)其主要效益之一是改進了它們自己的機構和資源的管理。由于GIS具有將數(shù)據(jù)集合和地理信息鏈接起來的能力,促使它們之間共享和交流局部信息。通過產(chǎn)生可共享的數(shù)據(jù)庫,一個部門可從另一個部門的工作中得到好處,這是由于數(shù)據(jù)只需采集一次,但應用多次。
由于個人和部門之間的通訊在增加,冗余被減少,生產(chǎn)力提高,整體組織效率改進。因此,在一個有效的公司里,用戶和基本建設數(shù)據(jù)庫可以集成在一起,這樣,當需要進行維護時,受影響的用戶會得到計算機發(fā)出的信件。
做出好的決定
一個古老的格言“好的信息導致好的決定”,對于GIS和其他信息系統(tǒng)來說都是正確的。然而,一個地理信息系統(tǒng)(GIS),并不是一個自動決策系統(tǒng),而是一個查詢、分析和支持作出決策處理的圖件數(shù)據(jù)工具。GIS技術已經(jīng)被用于幫助完成一些任務,例如:為計劃調查提供信息,幫助解決領土爭端,以最小化視覺干擾為原則設置路標。
GIS可以用于幫助一個新房址的選定,以使其受環(huán)境影響最小,在低風險區(qū)域,離人口聚集地近。可以以地圖和附加報告的方式簡潔而清晰的提供這個信息,使決策者集中精力于實際的問題,而不是花時間去理解數(shù)據(jù)。由于GIS結果能夠很快地獲得,多個假想的結果可以被高效地評價。
制圖
圖件在GIS中占有重要的一席之地。GIS的制圖方法比傳統(tǒng)的人工或自動繪圖方法要靈活得多。她開始于數(shù)據(jù)庫的創(chuàng)建。已經(jīng)存在的紙張圖件可以進行數(shù)字化,并可以把計算機兼容的信息轉換到GIS中。以GIS為基礎的圖形數(shù)據(jù)庫是可以延續(xù)的,比例尺也不受限制。圖件可以以任何地點為中心,比例尺任意,使用突出效果的特殊字符有效地顯示所選擇的信息。
地圖集和地圖叢書的特征可以用計算機程序編碼,并與最終的數(shù)據(jù)庫產(chǎn)品相比較。在其他GIS中使用的數(shù)字化產(chǎn)品還可以來自數(shù)據(jù)庫的簡單拷貝。在一個大的組織機構中,地形數(shù)據(jù)庫可以被其他部門用作參考構架。
GIS基本技術有哪些?
引言
地理信息系統(tǒng)(Geographic Information System,簡稱GIS)是計算機科學、地理學、測量學、地圖學等多門學科綜合的技術[1]。GIS的基本技術是空間數(shù)據(jù)庫、地圖可視化及空間分析,而空間數(shù)據(jù)庫是GIS的關鍵。空間數(shù)據(jù)挖掘技術作為當前數(shù)據(jù)庫技術最活躍的分支與知識獲取手段,在GIS中的應用推動著GIS朝智能化和集成化的方向發(fā)展。
1 空間數(shù)據(jù)庫與空間數(shù)據(jù)挖掘技術的特點
隨著數(shù)據(jù)庫技術的不斷發(fā)展和數(shù)據(jù)庫管理系統(tǒng)的廣泛應用,數(shù)據(jù)庫中存儲的數(shù)據(jù)量也在急劇增大,在這些海量數(shù)據(jù)的背后隱藏了很多具有決策意義的信息。但是,現(xiàn)今數(shù)據(jù)庫的大多數(shù)應用仍然停留在查詢、檢索階段,數(shù)據(jù)庫中隱藏的豐富的知識遠遠沒有得到充分的發(fā)掘和利用,數(shù)據(jù)庫中數(shù)據(jù)的急劇增長和人們對數(shù)據(jù)庫處理和理解的困難形成了強烈的反差,導致“人們被數(shù)據(jù)淹沒,但卻饑餓于知識”的現(xiàn)象。
空間數(shù)據(jù)庫(數(shù)據(jù)倉庫)中的空間數(shù)據(jù)除了其顯式信息外,還具有豐富的隱含信息,如數(shù)字高程模型〔DEM或TIN〕,除了載荷高程信息外,還隱含了地質巖性與構造方面的信息;植物的種類是顯式信息,但其中還隱含了氣候的水平地帶性和垂直地帶性的信息,等等。這些隱含的信息只有通過數(shù)據(jù)挖掘才能顯示出來。空間數(shù)據(jù)挖掘(Spatial Data Mining,簡稱SDM),或者稱為從空間數(shù)據(jù)庫中發(fā)現(xiàn)知識,是為了解決空間數(shù)據(jù)海量特性而擴展的一個新的數(shù)據(jù)挖掘的研究分支,是指從空間數(shù)據(jù)庫中提取隱含的、用戶感興趣的空間或非空間的模式和普遍特征的過程[2]。由于SDM的對象主要是空間數(shù)據(jù)庫,而空間數(shù)據(jù)庫中不僅存儲了空間事物或對象的幾何數(shù)據(jù)、屬性數(shù)據(jù),而且存儲了空間事物或對象之間的圖形空間關系,因此其處理方法有別于一般的數(shù)據(jù)挖掘方法。SDM與傳統(tǒng)的地學數(shù)據(jù)分析方法的本質區(qū)別在于SDM是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識,挖掘出的知識應具有事先未知、有效和可實用3個特征。
空間數(shù)據(jù)挖掘技術需要綜合數(shù)據(jù)挖掘技術與空間數(shù)據(jù)庫技術,它可用于對空間數(shù)據(jù)的理解,對空間關系和空間與非空間關系的發(fā)現(xiàn)、空間知識庫的構造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等。
2 空間數(shù)據(jù)挖掘技術的主要方法及特點
常用的空間數(shù)據(jù)挖掘技術包括:序列分析、分類分析、預測、聚類分析、關聯(lián)規(guī)則分析、時間序列分析、粗集方法及云理論等。本文從挖掘任務和挖掘方法的角度,著重介紹了分類分析、聚類分析和關聯(lián)規(guī)則分析三種常用的重要的方法。
2.1、分類分析
分類在數(shù)據(jù)挖掘中是一項非常重要的任務,目前在商業(yè)上應用最多。分類的目的是學會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分類和我們熟知的回歸方法都可用于預測,兩者的目的都是從歷史數(shù)據(jù)紀錄中自動推導出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續(xù)的數(shù)值。二者常表現(xiàn)為一棵決策樹,根據(jù)數(shù)據(jù)值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別。空間分類的規(guī)則實質是對給定數(shù)據(jù)對象集的抽象和概括,可用宏元組表示。
要構造分類器,需要有一個訓練樣本數(shù)據(jù)集作為輸入。訓練集由一組數(shù)據(jù)庫記錄或元組構成,每個元組是一個由特征(又稱屬性)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可為:( v1, v2, ..., vn; c );其中vi表示字段值,c表示類別。
分類器的構造方法有統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法等等。統(tǒng)計方法包括貝葉斯法和非參數(shù)法(近鄰學習或基于事例的學習),對應的知識表示是判別函數(shù)和原型事例。機器學習方法包括決策樹法和規(guī)則歸納法,前者對應的表示為決策樹或判別樹,后者則一般為產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡方法主要是反向傳播(Back-Propagation,簡稱BP)算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡模型(由代表神經(jīng)元的節(jié)點和代表聯(lián)接權值的邊組成的一種體系結構),BP算法本質上是一種非線性判別函數(shù)[3]。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識表示是產(chǎn)生式規(guī)則。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:1) 預測準確度;2) 計算復雜度;3) 模型描述的簡潔度。預測準確度是用得最多的一種比較尺度,特別是對于預測型分類任務,目前公認的方法是10番分層交叉驗證法。計算復雜度依賴于具體的實現(xiàn)細節(jié)和硬件環(huán)境,在數(shù)據(jù)挖掘中,由于操作對象是海量的數(shù)據(jù)庫,因此空間和時間的復雜度問題將是非常重要的一個環(huán)節(jié)。對于描述型的分類任務,模型描述越簡潔越受歡迎。例如,采用規(guī)則歸納法表示的分類器構造法就很有用,而神經(jīng)網(wǎng)絡方法產(chǎn)生的結果就難以理解。
另外要注意的是,分類的效果一般和數(shù)據(jù)的特點有關。有的數(shù)據(jù)噪聲大,有的有缺值, 有的分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認為不存在某種方法能適合于各種特點的數(shù)據(jù)。
分類技術在實際應用非常重要,比如:可以根據(jù)房屋的地理位置決定房屋的檔次等。
2. 2 聚類分析
聚類是指根據(jù)“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的組,并且對每一個這樣的組進行描述的過程。它的目的是使得屬于同一個組的樣本之間應該彼此相似,而不同組的樣本應足夠不相似。與分類分析不同,進行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來定義組。其目的旨在發(fā)現(xiàn)空間實體的屬性間的函數(shù)關系,挖掘的知識用以屬性名為變量的數(shù)學方程來表示。聚類方法包括統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法和面向數(shù)據(jù)庫的方法。基于聚類分析方法的空間數(shù)據(jù)挖掘算法包括均值近似算法[4]、CLARANS、BIRCH、DBSCAN等算法。目前,對空間數(shù)據(jù)聚類分析方法的研究是一個熱點。
對于空間數(shù)據(jù),利用聚類分析方法,可以根據(jù)地理位置以及障礙物的存在情況自動地進行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的ATM機的情況將居民進行區(qū)域劃分,根據(jù)這一信息,可以有效地進行ATM機的設置規(guī)劃,避免浪費,同時也避免失掉每一個商機。
2.3 關聯(lián)規(guī)則分析
關聯(lián)規(guī)則分析主要用于發(fā)現(xiàn)不同事件之間的關聯(lián)性,即一事物發(fā)生時,另一事物也經(jīng)常發(fā)生。關聯(lián)分析的重點在于快速發(fā)現(xiàn)那些有實用價值的關聯(lián)發(fā)生的事件。其主要依據(jù)是:事件發(fā)生的概率和條件概率應該符合一定的統(tǒng)計意義。空間關聯(lián)規(guī)則的形式是X->Y[S%,C%],其中X、Y是空間或非空間謂詞的集合,S%表示規(guī)則的支持度,C%表示規(guī)則的置信度。空間謂詞的形式有3種:表示拓撲結構的謂詞、表示空間方向的謂詞和表示距離的謂詞[5]。各種各樣的空間謂詞可以構成空間關聯(lián)規(guī)則。如,距離信息(如Close_to(臨近)、Far_away(遠離))、拓撲關系(Intersect(交)、Overlap(重疊)、Disjoin(分離))和空間方位(如Right_of(右邊)、West_of(西邊))。實際上大多數(shù)算法都是利用空間數(shù)據(jù)的關聯(lián)特性改進其分類算法,使得它適合于挖掘空間數(shù)據(jù)中的相關性,從而可以根據(jù)一個空間實體而確定另一個空間實體的地理位置,有利于進行空間位置查詢和重建空間實體等。大致算法可描述如下:(1)根據(jù)查詢要求查找相關的空間數(shù)據(jù);(2)利用臨近等原則描述空間屬性和特定屬性;(3)根據(jù)最小支持度原則過濾不重要的數(shù)據(jù);(4)運用其它手段對數(shù)據(jù)進一步提純(如OVERLAY);(5)生成關聯(lián)規(guī)則。
關聯(lián)規(guī)則通常可分為兩種:布爾型的關聯(lián)規(guī)則和多值關聯(lián)規(guī)則。多值關聯(lián)規(guī)則比較復雜,一種自然的想法是將它轉換為布爾型關聯(lián)規(guī)則,由于空間關聯(lián)規(guī)則的挖掘需要在大量的空間對象中計算多種空間關系,因此其代價是很高的。—種逐步求精的挖掘優(yōu)化方法可用于空間關聯(lián)的分析,該方法首先用一種快速的算法粗略地對一個較大的數(shù)據(jù)集進行一次挖掘,然后在裁減過的數(shù)據(jù)集上用代價較高的算法進一步改進挖掘的質量。因為其代價非常高,所以空間的關聯(lián)方法需要進一步的優(yōu)化。
對于空間數(shù)據(jù),利用關聯(lián)規(guī)則分析,可以發(fā)現(xiàn)地理位置的關聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對象是停車場等。
3 空間數(shù)據(jù)挖掘技術的研究方向
3.1 處理不同類型的數(shù)據(jù)
絕大多數(shù)數(shù)據(jù)庫是關系型的,因此在關系數(shù)據(jù)庫上有效地執(zhí)行數(shù)據(jù)挖掘是至關重要的。但是在不同應用領域中存在各種數(shù)據(jù)和數(shù)據(jù)庫,而且經(jīng)常包含復雜的數(shù)據(jù)類型,例如結構數(shù)據(jù)、復雜對象、事務數(shù)據(jù)、歷史數(shù)據(jù)等。由于數(shù)據(jù)類型的多樣性和不同的數(shù)據(jù)挖掘目標,一個數(shù)據(jù)挖掘系統(tǒng)不可能處理各種數(shù)據(jù)。因此針對特定的數(shù)據(jù)類型,需要建立特定的數(shù)據(jù)挖掘系統(tǒng)。
3.2 數(shù)據(jù)挖掘算法的有效性和可測性
海量數(shù)據(jù)庫通常有上百個屬性和表及數(shù)百萬個元組。GB數(shù)量級數(shù)據(jù)庫已不鮮見,TB數(shù)量級數(shù)據(jù)庫已經(jīng)出現(xiàn),高維大型數(shù)據(jù)庫不僅增大了搜索空間,也增加了發(fā)現(xiàn)錯誤模式的可能性。因此必須利用領域知識降低維數(shù),除去無關數(shù)據(jù),從而提高算法效率。從一個大型空間數(shù)據(jù)庫中抽取知識的算法必須高效、可測量,即數(shù)據(jù)挖掘算法的運行時間必須可預測,且可接受,指數(shù)和多項式復雜性的算法不具有實用價值。但當算法用有限數(shù)據(jù)為特定模型尋找適當參數(shù)時,有時也會導致物超所值,降低效率。
3.3 交互性用戶界面
數(shù)據(jù)挖掘的結果應準確地描述數(shù)據(jù)挖掘的要求,并易于表達。從不同的角度考察發(fā)現(xiàn)的知識,并以不同形式表示,用高層次語言和圖形界面表示數(shù)據(jù)挖掘要求和結果。目前許多知識發(fā)現(xiàn)系統(tǒng)和工具缺乏與用戶的交互,難以有效利用領域知識。對此可以利用貝葉斯方法和演譯數(shù)據(jù)庫本身的演譯能力發(fā)現(xiàn)知識。
3.4 在多抽象層上交互式挖掘知識
很難預測從數(shù)據(jù)庫中會挖掘出什么樣的知識,因此一個高層次的數(shù)據(jù)挖掘查詢應作為進一步探詢的線索。交互式挖掘使用戶能交互地定義一個數(shù)據(jù)挖掘要求,深化數(shù)據(jù)挖掘過程,從不同角度靈活看待多抽象層上的數(shù)據(jù)挖掘結果。
3.5 從不同數(shù)據(jù)源挖掘信息
局域網(wǎng)、廣域網(wǎng)以及Internet網(wǎng)將多個數(shù)據(jù)源聯(lián)成一個大型分布、異構的數(shù)據(jù)庫,從包含不同語義的格式化和非格式化數(shù)據(jù)中挖掘知識是對數(shù)據(jù)挖掘的一個挑戰(zhàn)。數(shù)據(jù)挖掘可揭示大型異構數(shù)據(jù)庫中存在的普通查詢不能發(fā)現(xiàn)的知識。數(shù)據(jù)庫的巨大規(guī)模、廣泛分布及數(shù)據(jù)挖掘方法的計算復雜性,要求建立并行分布的數(shù)據(jù)挖掘。
3.6 私有性和安全性
數(shù)據(jù)挖掘能從不同角度、不同抽象層上看待數(shù)據(jù),這將影響到數(shù)據(jù)挖掘的私有性和安全性。通過研究數(shù)據(jù)挖掘導致的數(shù)據(jù)非法侵入,可改進數(shù)據(jù)庫安全方法,以避免信息泄漏。
3.7 和其它系統(tǒng)的集成
方法、功能單一的發(fā)現(xiàn)系統(tǒng)的適用范圍必然受到一定的限制。要想在更廣泛的領域發(fā)現(xiàn)知識,空間數(shù)據(jù)挖掘系統(tǒng)就應該是數(shù)據(jù)庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡等技術的集成。
4 有待研究的問題
我們雖然在空間數(shù)據(jù)挖掘技術的研究和應用中取得了很大的成績,但在一些理論及應用方面仍存在急需解決的問題。
4.1 數(shù)據(jù)訪問的效率和可伸縮性
空間數(shù)據(jù)的復雜性和數(shù)據(jù)的大量性,TB數(shù)量級的數(shù)據(jù)庫的出現(xiàn),必然增大發(fā)現(xiàn)算法的搜索空間,增加了搜索的盲目性。如何有效的去除與任務無關的數(shù)據(jù),降低問題的維數(shù),設計出更加高效的挖掘算法對空間數(shù)據(jù)挖掘提出了巨大的挑戰(zhàn)。
4.2 對當前一些GIS軟件缺乏時間屬性和靜態(tài)存儲的改進
由于數(shù)據(jù)挖掘的應用在很大的程度上涉及到時序關系,因此靜態(tài)的數(shù)據(jù)存儲嚴重妨礙了數(shù)據(jù)挖掘的應用。基于圖層的計算模式、不同尺度空間數(shù)據(jù)之間的完全割裂也對空間數(shù)據(jù)挖掘設置了重重障礙。空間實體與屬性數(shù)據(jù)之間的聯(lián)系僅僅依賴于標識碼,這種一維的連接方式無疑將丟失大量的連接信息,不能有效的表示多維和隱含的內在連接關系,這些都增加了數(shù)據(jù)挖掘計算的復雜度,極大地增加了數(shù)據(jù)準備階段的工作量和人工干預的程度。
4.3 發(fā)現(xiàn)模式的精煉
當發(fā)現(xiàn)空間很大時會獲得大量的結果,盡管有些是無關或沒有意義的模式,這時可利用領域的知識進一步精煉發(fā)現(xiàn)的模式,從而得到有意義的知識。
在空間數(shù)據(jù)挖掘技術方面,重要的研究和應用的方向還包括:網(wǎng)絡環(huán)境上的數(shù)據(jù)挖掘、柵格矢量一體化的挖掘、不確定性情況下的數(shù)據(jù)挖掘、分布式環(huán)境下的數(shù)據(jù)挖掘、數(shù)據(jù)挖掘查詢語言和新的高效的挖掘算法等。
5 小結
隨著GIS與數(shù)據(jù)挖掘及相關領域科學研究的不斷發(fā)展,空間數(shù)據(jù)挖掘技術在廣度和深度上的不斷深入,在不久的將來,一個集成了挖掘技術的GIS、GPS、RS集成系統(tǒng)必將朝著智能化、網(wǎng)絡化、全球化與大眾化的方向發(fā)展。
新聞標題:現(xiàn)代gis的若干技術 談談目前我國gis的應用現(xiàn)狀
鏈接分享:http://ef60e0e.cn/article/ddoojph.html