作為機器學習的一個分支,深度學習可以說是當下相當熱門的一個話題。像Google、Microsoft、IBM這樣的巨頭都圍繞深度學習重點投資了一系列新興項目,他們的目標是為了開發能夠學習越來越多復雜任務的神經網絡。但是它是如何工作的呢?本文中我們一起來進行探討。
你有收到過垃圾郵件嗎?
當下垃圾郵件過濾器早已替我們過濾掉大部分我們不想收到的電子郵件,且精度十分之高。但是并沒有多少人知道這些垃圾郵件是如何與正常郵件篩選開的。因為新的垃圾郵件地址能夠很容易重新注冊,所以不能簡單地基于發件人地址來進行過濾。第二個原因是垃圾郵件經常是通過被第三方盜取的正常賬戶地址進行發送的。將垃圾郵件與正常郵件分開的最佳辦法是查看郵件信息中的具體內容,目前用來做這個的最有效的方法正是基于機器學習。
機器學習通過自我學習系統來不斷改善自身,這些系統以一種自動化的方式來學習識別數據中的結構。通過這種方式,系統能學會一個能進行數據解釋的模型,使用它我們能對未知的數據進行預測。一些有名的機器學習范例有面部識別、聲音識別、文本翻譯。另外,Google的無人駕駛汽車也使用了一些不同的機器學習系統來識別行人和交通信號指示。
基準原則
機器學習的基準原則相當簡單,設想下我們想要建立一種能夠分辨蘋果和梨的機器。數字圖像是由一個物體、兩個稱為特征的值組成的,其中這些值是通過一小段手工代碼從數字圖像中提取的。這些代碼能提取圖像中對象的顏色(從紅色到綠色)以及對象的形狀(從圓形到橢圓形)。現在想象一下,我們有一組包含蘋果和梨的圖像。對于每一個圖像,如果它包含一個蘋果或一個梨,我們會直接用這些圖像的標簽來稱呼它。當我們計算訓練集中圖像的特性并將它們繪制出來的話,得到的結果如下圖所示。
圖1 計算訓練集中圖像的特性
從上圖我們可以看出蘋果和梨的計算結果大部分都落在自己的區域,因此這兩個對象類別可以通過劃分成兩個不同的空間(藍色線條)來進行區分。現在如果給定一個新的對象圖片,我們可以通過計算特征并檢查它在空間中的位置來辨別它是一個蘋果還是一個梨。本質上來說,算法已經從數據中將蘋果和梨區分開了。
雖然情況看起來很樂觀,但是我們也注意到如果計算的特征離兩個對象的分類線(藍色線條)接近的話,系統會出現錯誤,比如說綠色橢圓形的蘋果以及又圓又紅的梨。因此,該算法的準確度高度依賴于訓練集上的樣本數目,以及所使用特征的質量和數量。例如我們可以使用三分之一的特征來量化對象的結構,這樣也許增加了算法的準確度,整個過程如下圖所示。
圖2 使用三分之一的特征來量化對象的結構
深度學習
上述方法是機器學習的本質,這種方式被應用了幾十年。最重要的一點是構建對象類別是可分離的高質量特征。然而有人可能會問,除了通過手工對其進行編碼之外,是否有可能直接學習這些特征嗎?這個確實是有可能的,而且從70年代起就已經存在了。其中一種可以用來學習特征的方法就是神經網絡,神經網絡是基于大腦工作方式的方法。
人工智能神經網絡是基于對單個大腦細胞進行建模的人工神經元建成的,這些人工神經元代表一個單位的運算。
人工神經網絡接收不同的值作為輸入(例如從其他人工神經元),然后通過一個簡單的方程運算產生一個單一的輸出值,此輸出值可以作為其他神經元的輸入值。通過連接各層中的神經元,我們構筑了一個大型人工神經網絡。既然單個神經元執行簡單的計算行為,那么網絡作為一個整體可以執行一個非常復雜的運算。下圖展示了這個過程,圓代表了神經元,線條代表輸出——輸入神經元之間的連接。關于神經網絡一件有趣的事是他們會自動學習所需的特征。可以想象有一個神經網絡,通過直接學習它接收的輸入圖像特征(顏色、形狀)將蘋果和梨分開。

圖3 圖像特征(顏色、形狀)
深度學習中的“深度”指代的是神經網絡中的層級數目,深度在學習良好特征上扮演了相當重要的角色。這是因為每一層都會基于上一層的特征學會另外一系列特征。神經網絡越深,其能學會的特征越復雜。想要更深入地了解神經網絡的工作原理可以下圖簡單了解,也通過下面的鏈接:playground.tensorflow.org詳細觀看演示。
雖然神經網絡可以通過自身學會特征,但是這些通常不會應用到實踐中。這樣做的其實有兩個原因,第一是其需要大量的訓練樣本,第二是要學會良好的特征需要許多層級,這反過來又需要大量的計算能力。隨著近幾年來大數據的興起和計算能力的增加,在實踐中應用這些神經網絡已經成為可能。神經網絡可以學習到比手工構造更復雜的特征,因此他們往往比手工編碼系統要表現優異。
應用
機器學習和深度學習是廣泛適用的,它不僅限于工農業中的將梨和蘋果分開的應用。例如有個系統能夠通過醫療掃描學會從健康的細胞中識別癌細胞,在過去的幾年中這個系統的精度有了迅速的提高。再如Facebook創造了一個類似Siri的系統,它能夠以高精度分析圖片的內容,還可以回答關于圖像內容的問題。
雖然這些類型的系統并沒有比人類表現的更好,但是存在一些專業系統,其在自身領域中早已超過人類的表現。例如,微軟開發的一個應用能夠高精度的識別狗的品種,比人類正確率要高。如下圖所示。
圖4 微軟開發的一個應用能夠高精度的識別狗的品種
機器學習不僅可用于分類識別,也可用于文本分析。例如一個神經網絡能夠被用來提取文本中的觀點,可以表明文本所持觀點是否積極或者消極。這是一個相當有名的技術,其應用包括自動評估產品的評論內容。
在我看來,機器學習最令人印象深刻的應用是在人工智能領域,神經網絡與強化學習結合使得構筑能從自身環境中進行學習的智能agents稱為可能。
最好的例子是Google Deepmind所推出的系統,它能夠通過完全自主的試驗和錯誤來學習如何玩雅達利(Atari)視頻游戲。該系統就像人類玩家一樣只接收屏幕輸入,也只產生視頻游戲控制器上的按壓信號,在一些電子游戲中該系統實際上表現優于人類。
圖5 電子游戲中該系統實際上表現優于人類
就目前來看,深度學習日后發展的潛力可以說是相當巨大的,希望通過本文的介紹你對深度學習會有一個基本了解。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:深度學習簡明教程
本文網址:http://www.guhuozai8.cn/html/support/11121819848.html