近些年,由于以社交網站、基于位置的服務LBS 等為代表的新型信息產生方式的涌現,以及云計算、移動和物聯網技術的迅猛發展,無處不在的移動、無線傳感器等設備無時不刻都在產生數據,數以億計用戶的互聯網服務時時刻刻都在產生著數據交互,大數據時代已經到來。在當下,大數據炙手可熱,不管是企業還是個人都在談論或者從事大數據相關的話題與業務,我們創造大數據同時也被大數據時代包圍。雖然大數據的市場前景讓人充滿期待,但是在公眾眼中,對于數據量早已逾越TB、增長率驚人、實時性高的大數據,如何分析、管理、利用大數據等工作仍將面臨若干的挑戰。
目前,對于大數據的定義尚未達成完全的共識。維基百科對大數據的定義為:所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到獲取、管理、處理、并整理幫助企業經營決策更積極目的的資訊。互聯網數據中心對大數據的定義為:為更經濟地從高頻率的、大容量的、不同結構和類型的數據中獲取價值而設計的新一代構架和技術。所有對大數據的定義基本上是從大數據的特征出發,通過這些特征的闡述和歸納給出其定義。在這些定義中,可將大數據的特點總結為:規模性(volume)、多樣性(variety)、高速型(velocity)和價值性(value)。
1.大數據的可視化分析
從最初的數據集成到數據分析,直到最后的數據解釋,數據易用性應當貫穿整大數據分析的流程。大數據時代的數據量大且數據結構多樣化,其復雜程度早已超過了傳統意義上的關系數據庫。另外,隨著大數據已經滲透到人們生活的各個領域,很多行業都開始增加對大數據的需求。但普通用戶往往更關心結果的展示,數據的復雜性限制了普通用戶從大數據中直接獲取知識。因此,數據的可視化在進行大數據的分析工作時應當被研究工作者加以重視并進一步提升。
(1)可視化技術。可視化技術是目前解釋大量數據最有效的手段之一,通過將分析結果用形象的可視化方式向用戶展示結果,且圖形化方式比傳統的文字展示方式更容易理解與接收。在數據可視化中,數據結果展現從底層的平臺處理的數據挖掘結果中的圖片,映射關系或表格,以簡單,友好,醫用的圖形化,智能化的形式呈現給用戶供其分析使用。目前面對大數據常見的可視化技術有標簽云(tag cloud)、歷史流(history flow)、空間信息流(spatial information flow)等。對級數達到PB 甚至更大的大數據,傳統的圖表方式已經很難實現其可視化,需引進能夠快速而準確地處理海量數據的科學計算方法。科學計算可以用2D,3D 的圖形實現數據的可視化,為數據分心及研究提供了更加直觀的表現形式,其涉及計算機圖形學,圖像處理,計算機視覺及圖形用戶界面等多個研究領域。數據的可視化全球最大的商業網站之一eBay 選擇Tableau 公司提供的數據可視化軟件,使得在給定的時間內,所有員工都能夠看到圖形化的搜索聯系及監督客戶的反饋及情感分析,為eBay 帶去了商業的洞察力。
(2)Web 可視化。網絡的飛速發展、網絡性能的不斷提升,使得基于Web 的數據可視技術成為一個熱點。網絡上已有很多的Web 圖表工具,它們常用來展現股票、天氣數據等。目前最為廣泛使用的是JavaScript、Flash、Java Applet 等,這些技術都可以實現在Web 上的圖形繪制。對于需要處理萬級以上的大數據量的科學計算數據,可以采用EJSChart 或者JFreeChart,其繪圖速度快、兼容性強且具有良好的交互性,可以作為首選的繪圖工具;對于繪圖工具的開發,可以選擇JavaScript 和Flash,這兩者繪圖速度快且差異不大。現在很多瀏覽器支持HTML5,包括手機和平板電腦,如果要求具有更好的跨平臺兼容性,JavaScript 是個不錯的選擇。
2.數據挖掘常用的方法
在大數據時代,數據挖掘是最關鍵的工作。大數據的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數據庫中發現隱含在其中有價值的、潛在有用的信息和知識的過程,也是一種決策支持過程。其主要基于人工智能,機器學習,模式學習,統計學等。通過對大數據高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業、商家、用戶調整市場政策、減少風險、理性面對市場,并做出正確的決策。目前,在很多領域尤其是在商業領域如銀行、電信、電商等,數據挖掘可以解決很多問題,包括市場營銷策略制定、背景分析、企業管理危機等。大數據的挖掘常用的方法有分類、回歸分析、聚類、關聯規則、神經網絡方法、Web 數據挖掘等。這些方法從不同的角度對數據進行挖掘。
(1)分類。分類是找出數據庫中的一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到摸個給定的類別中。可以應用到涉及到應用分類、趨勢預測中,如淘寶商鋪將用戶在一段時間內的購買情況劃分成不同的類,根據情況向用戶推薦關聯類的商品,從而增加商鋪的銷售量。
(2)回歸分析。回歸分析反映了數據庫中數據的屬性值的特性,通過函數表達數據映射的關系來發現屬性值之間的依賴關系。它可以應用到對數據序列的預測及相關關系的研究中去。在市場營銷中,回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出預測并做出針對性的營銷改變。
(3)聚類。聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。
(4)關聯規則。關聯規則是隱藏在數據項之間的關聯或相互關系,即可以根據一個數據項的出現推導出其他數據項的出現。關聯規則的挖掘過程主要包括兩個階段:第一階段為從海量原始數據中找出所有的高頻項目組;第二極端為從這些高頻項目組產生關聯規則。關聯規則挖掘技術已經被廣泛應用于金融行業企業中用以預測客戶的需求,各銀行在自己的ATM 機上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應信息來改善自身的營銷。
(5)神經網絡方法。神經網絡作為一種先進的人工智能技術,因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據為特征的處理問題,它的這一特點十分適合解決數據挖掘的問題。典型的神經網絡模型主要分為三大類:第一類是以用于分類預測和模式識別的前饋式神經網絡模型,其主要代表為函數型網絡、感知機;第二類是用于聯想記憶和優化算法的反饋式神經網絡模型,以Hopfield 的離散模型和連續模型為代表。第三類是用于聚類的自組織映射方法,以ART 模型為代表。雖然神經網絡有多種模型及算法,但在特定領域的數據挖掘中使用何種模型及算法并沒有統一的規則,而且人們很難理解網絡的學習及決策過程。
(6)Web數據挖掘。Web數據挖掘是一項綜合性技術,指Web 從文檔結構和使用的集合C 中發現隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過程就可以看做是從輸入到輸出的一個映射過程。其流程如圖所示:
圖1 Web數據挖流程圖
當前越來越多的Web 數據都是以數據流的形式出現的,因此對Web 數據流挖掘就具有很重要的意義。目前常用的Web數據挖掘算法有:PageRank算法,HITS算法以及LOGSOM 算法。這三種算法提到的用戶都是籠統的用戶,并沒有區分用戶的個體。目前Web 數據挖掘面臨著一些問題,包括:用戶的分類問題、網站內容時效性問題,用戶在頁面停留時間問題,頁面的鏈入與鏈出數問題等。在Web 技術高速發展的今天,這些問題仍舊值得研究并加以解決。
3.數據分析技術
數據的分析是大數據處理的核心。傳統數據分析主要是針對結構化數據,其大致過程為:首先利用數據庫存儲結構化數據,在此基礎上構建數據倉庫,根據需要再構建相應立方體并進行聯機分析處理。這一過程在處理相對較少的結構化數據時非常高效。但對于大數據而言,分析技術面臨3 個直觀問題:大容量數據、多格式數據及分析速度,這使得標準存儲技術無法對大數據進行存儲,從而需要引進更加合理的分析平臺進行大數據分析。目前,開源的Hadoop 是廣泛應用的大數據處理技術,它也是分析處理大數據的核心技術。
Hadoop是一個基于Java的分布式密集數據處理和數據分析的軟件框架,用戶可以在不了解分布式底層細節的情況下,開發分布式程序,充分利用集群的威力高速運算和存儲。其基本工作原理為:將規模巨大的數據分解成較小、易訪問的批量數據并分發到多臺服務器來分析。主要包括文件系統(HDFS)、數據處理(MapReduce)兩部分功能模塊,最底層是HDFS 用來存儲Hadoop 集群中所有存儲節點上的文件,HDFS 上一層是MapReduce 引擎,該引擎由Job Trackers 和Task Trackers 組成。其組成架構如圖所示:
圖2 Hadoop組成架構圖
鑒于商用的硬件集群上。所謂商用硬件并非低端硬件,其故障率比低端硬件要低很多。Hadoop 不需要運行在價格昂貴并且高度可靠的硬件上,即使對于節點故障的幾率較高的龐大集群,HDFS在遇到故障時仍能夠繼續運行且不讓用戶察覺到明顯的中斷,這種設計降低了對機器的維護成本,尤其是在用戶管理上百臺甚至上千臺機器時。
Hadoop 的設計是基于一次寫入、多次讀取的高效訪問模式。每次對數據的分析會涉及到數據所在的整個數據集,這種高數據的吞吐量會造成高的時間延遲,對于低延遲的數據訪問,HBase是更好的選擇。HDFS 采用master/slave 的構架,即一個HDFS集群由一個NameNode(master)和多個DataNode(slave)組成。NameNode 是一個中心服務器,負責管理HDFS 的命名空間,并維護HDFS 的所有文件及目錄。這些信息以命名空間鏡像文件和編輯日志文件的形式永久地保存在本地磁盤上。它還記錄著每個文件中各個塊所在的DataNode 信息,但不永久保存塊的位置信息,因為DataNode 會在系統啟動時重新建立新的位置信息。同時,NameCode 還負責控制外部Client 的訪問。
DataNode 是HDFS 的工作節點,在集群中一般為一個機器節點一個,負責管理節點上附帶的存儲。它們根據客戶端需要或NameNode 調度存儲并檢索數據塊(Block),執行創建、刪除和復制數據塊的命令,并定期向NameNode 發送存儲數據塊列表的動態信息,NameNode 獲取每個DataNode 的動態信息并據此驗證塊映射和文件系統元數據。
3.2 MapReduce
MapReduce是用于處理大數據的軟件框架。其核心設計思想為:將問題分塊處理,把計算推到數據而非把數據推向計算。最簡單的MapReduce應用程序至少包含3 個部分:Map函數、Reduce 函數和main函數,其模型相對簡單,將用戶的原始數據進行分塊,然后交給不同的Map任務區執行Map函數處理輸出中間結果,Reduce函數讀取數據列表并對數據進行排序并輸出最終結果。其流程如圖所示:
3.3 Hadoop 的優勢及問題
Hadoop 是一個能夠對大量數據進行分布式處理的軟件框架,同時是以一種可靠、高效、可伸縮的方式進行處理。可靠是因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理;高效是因為它以并行的方式工作,通過并行處理加快處理速度;可伸縮是說它能夠處理PB 級數據。
但與其他新興科技一樣,Hadoop 同樣面臨一些需要解決的問題。(1)目前Hadoop 缺乏企業級的數據保護功能,開發人員必須手動設置HDFS 的數據復制參數, 而依賴開發人員來確定復制參數很可能會導致對存儲空間的浪費。(2)Hadoop 需要投資建設專用的計算集群,但這通常會產生獨立存儲、計算資源以及存儲或CPU 資源利用問題,且這種存儲在與其他程序的共享問題中也存在兼容性問題。
4.預測性分析能力
對數據挖掘可以讓用戶更好的理解數據,而對大數據進行預測性分析可以讓用戶根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
與傳統的數據分析相比較,大數據分析的一個重要目標就是從海量,數據繁多的數據庫中找出隱藏的規律,使數據庫發揮最大的價值。數據的價值遠不止于數據本身,而是隱藏在數據之間的關系隱含的知識。比如,現在企業與客戶之間的接觸途道和界面越來越豐富,而這些途徑承載了客戶與企業之間、客戶與產品之間、客戶與品牌之間的大量互動信息與數據。如果可將這些數據整合,企業便有更多的機會準確了解現有的用戶及挖掘潛在的用戶群體。
為了充分發揮和利用大數據的價值,對可視化分析及數據挖掘后的結果進行預測性分析。在大數據時代,對數據進行預測性分析,為企業帶來了洞察客戶的機會,更全面更深入地了解和把握客戶的需求特征、興趣愛好、消費傾向和消費心理等,幫助企業提升運營管理能力及績效。
5.結論
隨著數據爆炸式的增長,我們正被各種數據包圍著。正確利用大數據將給人們帶來極大的便利,但與此同時也給傳統的數據分析帶來了技術的挑戰。本文對大數據的分析關鍵技術進行了詳細的分析,主要闡述了大數據分析時的可視化技術、挖掘技術、分析技術以數據挖掘后的預測性分析問題。總的來說,雖然我們已經進入大數據時代,但是“大數據”技術還仍處于起步階段,進一步地開發以完善大數據分析技術仍舊是大數據研究課題的熱點。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:大數據時代的數據分析淺析