引 言
隨著地理空間信息技術的飛速發展,獲取數據的手段和途徑都得到極大豐富,傳感器的精度得到提高和時空覆蓋范圍得以擴大,數據量也隨之激增。用于采集空間數據的可能是雷達、紅外、光電、衛星、多光譜儀、數碼相機、成像光譜儀、全站儀、天文望遠鏡、電視攝像、電子顯微鏡、CT 成像等各種宏觀與微觀傳感器或設備,也可能是常規的野外測量、人口普查、土地資源調查、地圖掃描、地圖數字化、統計圖表等空間數據獲取手段,還可能是來自計算機、網絡、GPS,RS 和 GIS 等技術應用和分析空間數據。特別是近些年來,個人使用的、攜帶的各種傳感器( 重力感應器、電子羅盤、三軸陀螺儀、光線距離感應器、溫度傳感器、紅外線傳感器等) ,具備定位功能電子設備的普及,如智能手機、平板電腦、可穿戴設備(GOOGLEGLASS 和智能手表等) ,使人們在日常生活中產生了大量具有位置信息的數據。隨著志愿者地理信息( VolunteerGeographic Information) 的出現,使這些普通民眾也加入到了提供數據者的行列。
以上各種獲取手段和途徑的匯集,就使每天獲取的數據增長量達到 GB 級、TB 級乃至 PB 級。如中國遙感衛星地面站現在保存的對地觀測衛星數據資料達 260 TB,并以每年 15 TB 的數據量增長。比如 2011 年退役的Landsat5 衛星在其 29 年的在軌工作期間,平均每年獲取8.6 萬景影像,每天獲取 67 GB 的觀測數據。而 2012 年發射的資源三號( ZY3) 衛星,每天的觀測數據獲取量可以達到 10TB 以上。類似的傳感器現在已經大量部署在衛星、飛機等飛行平臺上,未來 10 年,全球天空、地空間部署的百萬計傳感器每天獲取的觀測數據將超過 10 PB。這預示著一個時代的到來,那就是大數據時代。大數據具有“4V”特性,即數據體量大( Volume) 、數據來源和類型繁多( Variety) 、數據的真實性難以保證( Veracity) 、數據增加和變化的速度快( Velocity) 。對地觀測的系統如圖 1所示。
圖1.對地觀測系統
在這些數據中,與空間位置相關的數據占了絕大多數。傳統的空間知識發現的科研模式在大數據情境下已經不再適用,原因是傳統的科研模型不具有普適性且支持的數據量受限,受到數據傳輸、存儲及時效性需求的制約等。為了從存儲在分布方式、虛擬化的數據中心獲取信息或知識,這就需要利用強有力的數據分析工具來將數據“墳墓”變成“知識金塊”。這一需求使得數據挖掘在大數據時代再度受到人們的重視。同時,大數據時代的研究方法和數據處理技術也給空間數據挖掘研究的發展帶來了新的機遇。
1 傳統空間數據挖掘存在的問題
1989 年 8 月于美國底特律市召開的第一屆國際聯合人工智能學術會議上,首次出現了從數據庫中發現知識( Knowledge Discovery in Database,簡稱 KDD) 。空間數據挖掘研究比一般的關系數據庫或事務數據庫的數據挖掘研究晚。1994 年在渥太華舉行的 GIS 國際會議上,李德仁院士第一次提出了從 GIS 數據庫中發現知識( Knowledge Discovery from GIS,簡稱 KDG) 的概念,并系統分析了空間知識發現的特點和方法,認為它能夠把 GIS 有限的數據變成無限的知識,精煉和更新 GIS 數據,促使 GIS 成為智能化的信息系統。從此,空間數據挖掘就成為數據庫和信息決策領域的一個重要研究方向,雖然取得了一定的進展,但還有很多問題需要研究。空間數據挖掘的基本過程如圖 2 所示。
1.1 空間挖掘理論和算法研究
經過近年來的研究,空間數據挖掘繼承和發展相關的基礎學科( 如機器學習、統計學等) 已有成果,并探索出獨具特色的理論體系,但也存在一些問題,主要表現為以下幾點:
1) 多數空間數據挖掘算法是由一般的數據挖掘算法移植而來,并沒有考慮空間數據存儲、處理及空間數據本身的特點。空間數據不同于關系數據庫中的數據,它有其特有的空間數據訪問方法,因而傳統的數據挖掘技術往往不能很好地分析復雜的空間現象和空間對象。
2) 空間數據含有隨機不確定性和模糊性,但目前的空間數據挖掘方法對空間數據的不確定性處理還存在一些問題。有的方法根本沒有考慮空間數據的不確定性;有的方法考慮了隨機不確定性; 有的方法考慮空間數據的模糊性。還沒有一種方法既能較好地考慮空間數據隨機不確定性又考慮空間數據模糊性。
3) 空間數據挖掘的智能化。目前空間數據挖掘已經應用了人工神經網絡等智能算法,但現有的空間數據挖掘系統的智能化程度比較低,還需要進一步提高。例如依據數據的特點自動選擇合適的挖掘算法,在此過程中不需要或者需要少量的人工干預。
4) 空間數據挖掘質量評價。空間數據挖掘的知識很多,但挖掘的程度如何、挖掘的效益如何等這些問題目前還沒有進行研究。空間數據挖掘結果可能會發現數以千計的模式,其中有些模式是錯誤的,對于給定的用戶,許多模式未必是感興趣的,因此,如何提供給用戶有用的、確定的和可表示性的知識是一個需要研究的課題。
5) 私有性、安全性與空間數據挖掘問題。知識發現可能導致對于私有權的入侵,研究采取哪些措施防止暴露敏感信息是十分重要的。當從不同角度和不同抽象級上觀察空間數據時,數據安全性將受到嚴重威脅。這時空間數據保護和空間數據挖掘可能會造成一些矛盾的結果。
1. 2 空間數據挖掘技術研究
目前,在空間數據挖掘系統研究過程中存在以下問題:
1) 空間數據集成問題。許多空間數據集中包含著復雜的數據類型,如關系型數據、半結構化數據、非結構化數據、復雜的空間數據對象、超文本數據和多媒體數據、時空數據、視頻數據、聲音數據等,局域網和廣域網、國際互聯網上更是連接了更多的空間數據源并形成了巨大、變化、分布式、分層、異構的空間數據倉庫。具有不同數據語義,來自不同的數據源隨時都有可能改變的空間數據集,對空間數據挖掘提出了新的挑戰,目前并不存在一個強有力的空間能使數據挖掘系統有效地處理這些復雜的數據類型。
2) 空間數據挖掘系統適用范圍有限。國際上最著名且有代表性的通用 SDM 系統有: GeoMiner,Descartes 和ArcViewGIS 的 S_PLUS 接口。以上 SDM 系統的共同優點是可以把傳統 DM 與地圖可視化結合起來,提供聚類、分類等多種挖掘模式,但它們在空間數據的操作上實現方式不盡相同。Descartes 是專門的空間數據可視化工具,它和 DM 工具 Kepler 兩者聯合在一起才能完成 SDM 任務。GeoMiner 是在 MapInfo 平臺上進行二次開發而成,系統龐大,造成較大的資源浪費。S_PLUS 的局限在于,它是一種解釋性語言( Script) ,功能的實現比用 C 和 C + +直接實現要慢得多,所以只能在非常小的數據庫中使用。
3) 沒有公認的標準化空間數據挖掘查詢語言。雖然GeoMiner 在 Oracle Spatial SQL 語言的基礎上設計了GMQL( Geo - Mining Query Language) ,方便了空間數據挖掘,但畢竟 GeoMiner 只是加拿大 Simon 大學開發的,原型系統不夠成熟,屬于實驗階段,并未投入實際應用和后續開發。
4) 空間挖掘方法和用戶交互問題。由于不同的用戶可能對不同類型的知識感興趣,空間數據系統應該覆蓋范圍很廣的數據分析和知識發現任務,在相同的空間數據上發現不同的知識,有必要提供交互式手段,開發不同的空間數據挖掘技術。而目前,空間數據挖掘知識發現系統普遍交互性不強,在知識發現過程中很難充分有效地利用領域專家知識,用戶不能很好地掌控空間數據挖掘過程。
5) 性能問題。許多現有的空間數據挖掘算法往往適合于常駐內存的、小數據集的空間數據挖掘,而如今大數據時代,大型空間數據庫中存放了 TB 級的數據,所有的空間數據無法同時導入內存,所以有效性和可伸縮性是實現空間數據挖掘系統的關鍵問題。
在大數據時代,以上研究都會遇到數據密集( Data intensity) 、計算密集 ( Computing intensity) 、并發訪問密集( Concurrent intensity) 和時空密集( Spatiotemporal intensity) 的問題。海量的、分布的、異構的空間數據給數據挖掘系統的實現帶來了難題。處理這些數據的復雜度很高,系統的存儲能力、計算能力、并發訪問能力很難達到要求,此時傳統的單機服務器所能提供的有限資源往往不能滿足要求,需要借助分布式計算技術來實現大規模空間數據的存儲和并行計算。
2 大數據時代空間數據挖掘進展
云計算( CloudComputing) 是網格計算( GridComputing) 、分布式計算( DistributedComputing) 、并行計算( ParallelComputing) 、效用計算 ( UtilityComputing) 、網絡存儲
( NetworkStorageTechnologies) 、虛擬化( Virtualization) 、負載均衡( LoadBalance) 等傳統計算機技術和網絡技術發展融合的產物。它旨在通過網絡把多個成本相對較低的計算實體整合成一個具有強大計算能力的完善系統。基于云計算的數據挖掘系統搭建于“云”之上,透明地為各種終端的用戶提供界面服務; 為基于該系統開發的程序提供開放接口,用戶可以通過其他應用程序調用系統提供的開放接口來間接地使用系統提供的各種服務。用戶不需要了解系統是怎樣實現的,也不需要擔心系統的計算與存儲能力,只需要選擇合適的算法來處理數據,最終以任務的方式部署給系統區執行,得到數據挖掘的結果。基于云計算的數據挖掘系統設計如圖 3 所示。
.
圖3.基于云計算的數據挖掘系統設計
2.1 國內進展
1) 數據挖掘系統研究。中國移動研究院研發的基于云計算平臺的并行數據挖掘工具( BC - PDM,Blue Carrierbased Parallel Data Mining) ,采用云計算技術,實現海量數
據的存儲、分析、處理、挖掘。廈門大學數據挖掘研究中心與臺灣銘傳大學資訊工程系、中華資料采礦協會合作開發的一套基于云計算的數據挖掘決策支持系統———云端數據挖掘決策系統( MCU Smart Score) 。該系統是廈門數據挖掘研究中心統計與數據挖掘云端系統的部分階段性成果。基于 Hadoop,中科院計算所研制了并行數據挖掘工具平臺 PDMiner。針對海量數據,分別從數據挖掘模式和方法等方面進行相關的研究。與此同時,中科院深圳先進技術研究院還研制了一套分布式數據挖掘系統AlphaMiner。以上這些云端數據挖掘系統只是實現了對事務性海量數據的挖掘,并沒有針對空間數據進行設計,還無法高效存儲、查詢和挖掘空間數據。
2) 數據挖掘算法研究。在一些大學和研究機構,基于 MapReduce 模式的數據挖掘算法研究較多。如大連理工大學李鈺研究了空間數據 RkNN 算法,但僅限于低維空間數據。河南工業大學趙廣才研究了基于改進 K - means空間聚類算法,但存在模型簡單化、聚類結果容易出現誤差的問題。
2.2 國外進展
Apache 組織近年來組織了 Mahout 開源項目,設計用于云平臺的數據挖掘算法。但 Mahout 項目目前還缺少數據準備、數據展示和用戶交互,還不能完全適合海量數據挖掘并行算法的性能評估。SpatialHadoop 由明尼蘇達大學計算科學與工程系 Ahmed Eldawy 和 Mohamed F. Mokbel 兩人開發,是對開源的 MapReduce 一個擴展,專門用來在 Apache Hadoop 上處理海量的空間數據。SpatialHadoop 內置高級空間查詢語言、支持基本空間數據類型( 點、矩形、多邊形) 和空間索引( 分為本地索引和全局索引) ,可以高效進行一些空間操作( 范圍查詢、K 最近鄰分類、空間合并) 。但此項目還處在實驗階段,存在支持的數據類型有限、交互性不強、功能單一的問題。以上基于云計算的數據挖掘系統都是基于通用的云計算平臺和大數據處理工具開發的,并未在底層設計時考慮到地理空間科學的特點,所以對于空間數據的處理,效果都不是很理想。而且大多基于 Hadoop技術開發,無法完成數據流的實時挖掘處理。
3 結束語
從數據挖掘技術的發展歷史看,隨著互聯網的蓬勃發展,數據的規模越來越大,從 KB 級發展到 TB 級甚至PB 級海量數據; 數據挖掘的對象也變得越來越復雜,從數據庫到多媒體數據和復雜社會網絡; 數據挖掘的需求也從分類、聚類關聯到復雜的演化和預測分析; 挖掘過程中的交互方式從單一的人機交互發展到現在社會網絡群體的交互。通過云計算的海量數據存儲和分布計算,為云計算環境下的海量數據挖掘提供了新的方法和手段,有效解決了海量數據挖掘的分布存儲和高效計算問題。但是,這些云計算平臺自誕生之日起,就不是為處理空間數據而設計,所以它們都在底層對空間數據不敏感。2011年由 Yang Chaowei ( 美國喬治梅森大學制圖與地理信息科學系) ,Michael Goodchild( 加利福尼亞大學制圖系) 等多位學者在《空間云計算: 地理空間科學如何利用和塑造云計算》一文中,定義了空間云計算( Spatial Cloud Computing) ,是指由地理空間科學推動的,并經時空原則優化的云計算范式,它可以進行地理科學發現和在分布式環境中進行云計算。筆者認為,專門為地理科學設計的云計算才更適合空間數據的挖掘和處理,也是地理信息領域研究人員今后努力的一個方向。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:大數據時代的空間數據挖掘綜述
本文網址:http://www.guhuozai8.cn/html/consultation/10819916614.html