
一、前言
在進(jìn)一步學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)與算法前,我們應(yīng)該先掌握算法分析的一般方法。算法分析主要包括對(duì)算法的時(shí)空復(fù)雜度進(jìn)行分析,但有些時(shí)候我們更關(guān)心算法的實(shí)際運(yùn)行性能如何,此外,算法可視化是一項(xiàng)幫助我們理解算法實(shí)際執(zhí)行過程的實(shí)用技能,在分析一些比較抽象的算法時(shí),這項(xiàng)技能尤為實(shí)用。在在本篇博文中,我們首先會(huì)介紹如何通過設(shè)計(jì)實(shí)驗(yàn)來量化算法的實(shí)際運(yùn)行性能,然后會(huì)介紹算法的時(shí)間復(fù)雜度的分析方法,我們還會(huì)介紹能夠非常便捷的預(yù)測(cè)算法性能的倍率實(shí)驗(yàn)。當(dāng)然,在文章的末尾,我們會(huì)一起來做幾道一線互聯(lián)網(wǎng)的相關(guān)面試/筆試題來鞏固所學(xué),達(dá)到學(xué)以致用。
二、算法分析的一般方法
1. 量化算法的實(shí)際運(yùn)行性能
在介紹算法的時(shí)空復(fù)雜度分析方法前,我們先來介紹以下如何來量化算法的實(shí)際運(yùn)行性能,這里我們選取的衡量算法性能的量化指標(biāo)是它的實(shí)際運(yùn)行時(shí)間。通常這個(gè)運(yùn)行時(shí)間與算法要解決的問題規(guī)模相關(guān),比如排序100萬個(gè)數(shù)的時(shí)間通常要比排序10萬個(gè)數(shù)的時(shí)間要長(zhǎng)。所以我們?cè)谟^察算法的運(yùn)行時(shí)間時(shí),還要同時(shí)考慮它所解決問題的規(guī)模,觀察隨著問題規(guī)模的增長(zhǎng),算法的實(shí)際運(yùn)行時(shí)間時(shí)怎樣增長(zhǎng)的。代碼如下:

以上代碼用到的StdIn和StdOut這兩個(gè)類都在這里:
我們可以看到,以上代碼的功能是統(tǒng)計(jì)標(biāo)準(zhǔn)一個(gè)int[]數(shù)組中的所有和為0的三整數(shù)元組的數(shù)量。采用的算法十分直接,就是從頭開始遍歷數(shù)組,每次取三個(gè)數(shù),若和為0,則計(jì)數(shù)加一,最后返回的計(jì)數(shù)值即為和為0的三元組的數(shù)量。這里我們采取含有整數(shù)數(shù)量分別為1000、2000、4000的3個(gè)文件(這些文件可以在上面的項(xiàng)目地址中找到),來對(duì)以上算法進(jìn)行測(cè)試,觀察它的運(yùn)行時(shí)間隨著問題規(guī)模的增長(zhǎng)是怎樣變化的。
測(cè)量一個(gè)過程的運(yùn)行時(shí)間的一個(gè)直接的方法就是,在這個(gè)過程運(yùn)行前后各獲取一次當(dāng)前時(shí)間,兩者的差值即為這個(gè)過程的運(yùn)行時(shí)間。當(dāng)我們的過程本身需要的執(zhí)行時(shí)間很短時(shí)間,這個(gè)測(cè)量方法可能會(huì)存在一些誤差,但是我們可以通過執(zhí)行多次這個(gè)過程再取平均數(shù)來減小以至可以忽略這個(gè)誤差。下面我們來實(shí)際測(cè)量一下以上算法的運(yùn)行時(shí)間,相關(guān)代碼如下:
我們分別以1000、2000、4000個(gè)整數(shù)作為輸入,得到的運(yùn)行結(jié)果如下:

我們從以上結(jié)果大概可你看到,當(dāng)問題的規(guī)模變?yōu)樵瓉淼?倍時(shí),實(shí)際運(yùn)行時(shí)間大約變?yōu)樵瓉淼?倍。根據(jù)這個(gè)現(xiàn)象我們可以做出一個(gè)猜想:程序的運(yùn)行時(shí)間關(guān)于問題規(guī)模N的函數(shù)關(guān)系式為T(N) = k*(n^3)。
在這個(gè)關(guān)系式中,當(dāng)n變?yōu)樵瓉淼?倍時(shí),T(N)會(huì)變?yōu)樵瓉淼?倍。那么ThreeSum算法的運(yùn)行時(shí)間與問題規(guī)模是否滿足以上的函數(shù)關(guān)系呢?在介紹算法時(shí)間復(fù)雜度的相關(guān)內(nèi)容后,我們會(huì)回過頭來再看這個(gè)問題。
2. 算法的時(shí)間復(fù)雜度分析
(1)基本概念
關(guān)于算法的時(shí)間復(fù)雜度,這里我們先簡(jiǎn)單介紹下相關(guān)的三種符號(hào)記法:

我們?cè)谄匠5乃惴ǚ治鲋凶畛S玫降氖荁ig O notation。下面我們將介紹分析算法的時(shí)間復(fù)雜度的具體方法。
(2)時(shí)間復(fù)雜度的分析方法
這部分我們將以上面的ThreeSum程序?yàn)槔瑏斫榻B一下算法時(shí)間復(fù)雜度的分析方法。為了方便閱讀,這里再貼一下上面的程序:

在介紹時(shí)間復(fù)雜度分析方法前,我們首先來明確下算法的運(yùn)行時(shí)間究竟取決于什么。直觀地想,一個(gè)算法的運(yùn)行時(shí)間也就是執(zhí)行所有程序語(yǔ)句的耗時(shí)總和。然而在實(shí)際的分析中,我們并不需要考慮所有程序語(yǔ)句的運(yùn)行時(shí)間,我們應(yīng)該做的是集中注意力于最耗時(shí)的部分,也就是執(zhí)行頻率最高而且最耗時(shí)的操作。也就是說,在對(duì)一個(gè)程序的時(shí)間復(fù)雜度進(jìn)行分析前,我們要先確定這個(gè)程序中哪些語(yǔ)句的執(zhí)行占用的它的大部分執(zhí)行時(shí)間,而那些盡管耗時(shí)大但只執(zhí)行常數(shù)次(和問題規(guī)模無關(guān))的操作我們可以忽略。我們選出一個(gè)最耗時(shí)的操作,通過計(jì)算這些操作的執(zhí)行次數(shù)來估計(jì)算法的時(shí)間復(fù)雜度,下面我們來具體介紹這一過程。
首先我們看到以上代碼的第1行和第2行的語(yǔ)句只會(huì)執(zhí)行一次,因此我們可以忽略它們。然后我們看到第4行到第12行是一個(gè)三層循環(huán),最內(nèi)存的循環(huán)體包含了一個(gè)if語(yǔ)句。也就是說,這個(gè)if語(yǔ)句是以上代碼中耗時(shí)最多的語(yǔ)句,我們接下來只需要計(jì)算if語(yǔ)句的執(zhí)行次數(shù)即可估計(jì)出這個(gè)算法的時(shí)間復(fù)雜度。以上算法中,我們的問題規(guī)模為N(輸入數(shù)組包含的元素?cái)?shù)目),我們也可以看到,if語(yǔ)句的執(zhí)行次數(shù)與N是相關(guān)的。我們不難得出,if語(yǔ)句會(huì)執(zhí)行N * (N-1) * (N-2)/6次,因此這個(gè)算法的時(shí)間復(fù)雜度為O(n^3)。這也印證了我們之前猜想的運(yùn)行時(shí)間與問題規(guī)模的函數(shù)關(guān)系(T(n) =k*n^3)。由此我們也可以知道,算法的時(shí)間復(fù)雜度刻畫的是隨著問題規(guī)模的增長(zhǎng),算法的運(yùn)行時(shí)間的增長(zhǎng)速度是怎樣的。在平常的使用中,Big O notation通常都不是嚴(yán)格表示最壞情況下算法的運(yùn)行時(shí)間上限,而是用來表示通常情況下算法的漸進(jìn)性能的上限,在使用Big O notation描述算法最壞情況下運(yùn)行時(shí)間的上限時(shí),我們通常加上限定詞“最壞情況“。
通過以上分析,我們知道分析算法的時(shí)間復(fù)雜度只需要兩步,比把大象放進(jìn)冰箱還少一步:

在以上的例子中我們可以看到,不論我們輸入的整型數(shù)組是怎樣的,if語(yǔ)句的執(zhí)行次數(shù)是不變的,也就是說上面算法的運(yùn)行時(shí)間與輸入無關(guān)。而有些算法的實(shí)際運(yùn)行時(shí)間高度依賴于我們給定的輸入,關(guān)于這一問題下面我們進(jìn)行介紹。
3. 算法的期望運(yùn)行時(shí)間
算法的期望運(yùn)行時(shí)間我們可以理解為,在通常情況下,算法的運(yùn)行時(shí)間是多少。在很多時(shí)候,我們更關(guān)心算法的期望運(yùn)行時(shí)間而不是算法在最壞情況下運(yùn)行時(shí)間的上限,因?yàn)樽顗那闆r和最好情況發(fā)生的概率是比較低的,我們更常遇到的是一般情況。比如說盡管快速排序算法與歸并排序算法的時(shí)間復(fù)雜度都為O(nlogn),但是在相同的問題規(guī)模下,快速排序往往要比歸并排序快,因此快速排序算法的期望運(yùn)行時(shí)間要比歸并排序的期望時(shí)間小。然而在最壞情況下,快速排序的時(shí)間復(fù)雜度會(huì)變?yōu)镺(n^2),快速排序算法就是一個(gè)運(yùn)行時(shí)間依賴于輸入的算法,對(duì)于這個(gè)問題,我們可以通過打亂輸入的待排序數(shù)組的順序來避免發(fā)生最壞情況。
4. 倍率實(shí)驗(yàn)
下面我們來介紹一下算法(第4版) (豆瓣)一書中的“倍率實(shí)驗(yàn)”。這個(gè)方法能夠簡(jiǎn)單有效地預(yù)測(cè)程序的性能并判斷他們的運(yùn)行時(shí)間大致的增長(zhǎng)數(shù)量級(jí)。在正式介紹倍率實(shí)驗(yàn)前,我們先來簡(jiǎn)單介紹下“增長(zhǎng)數(shù)量級(jí)“這一概念(同樣引用自《算法》一書):

我們還是拿ThreeSum程序來舉例,假設(shè)g(N)表示在輸入數(shù)組尺寸為N時(shí)執(zhí)行if語(yǔ)句的次數(shù)。根據(jù)以上的定義,我們就可以得到g(N) ~ N ^ 3(當(dāng)N趨向于正無窮時(shí),g(N) / N^3 趨近于1)。所以g(N)的增長(zhǎng)數(shù)量級(jí)為N^3,即ThreeSum算法的運(yùn)行時(shí)間的增長(zhǎng)數(shù)量級(jí)為N^3。
現(xiàn)在,我們來正式介紹倍率實(shí)驗(yàn)(以下內(nèi)容主要引用自上面提到的《算法》一書,同時(shí)結(jié)合了一些個(gè)人理解)。首先我們來一個(gè)熱身的小程序:
以上代碼會(huì)以250為起點(diǎn),每次講ThreeSum的問題規(guī)模翻一倍,并在每次運(yùn)行ThreeSum后輸出本次問題規(guī)模和對(duì)應(yīng)的運(yùn)行時(shí)間。運(yùn)行以上程序得到的輸出如下所示:

上面的輸出之所以和理論值有所出入是因?yàn)閷?shí)際運(yùn)行環(huán)境是復(fù)雜多變的,因而會(huì)產(chǎn)生許多偏差,盡可能減小這種偏差的方式就是多次運(yùn)行以上程序并取平均值。有了上面這個(gè)熱身的小程序做鋪墊,接下來我們就可以正式介紹這個(gè)“可以簡(jiǎn)單有效地預(yù)測(cè)任意程序執(zhí)行性能并判斷其運(yùn)行時(shí)間的大致增長(zhǎng)數(shù)量級(jí)”的方法了,實(shí)際上它的工作基于以上的DoublingTest程序,大致過程如下:
DoublingRatio程序如下:
運(yùn)行倍率程序,我們可以得到如下輸出:

我們可以看到,time/prev確實(shí)收斂到了8(2^3)。那么,為什么通過使輸入不斷翻倍而反復(fù)運(yùn)行程序,運(yùn)行時(shí)間的比例會(huì)趨于一個(gè)常數(shù)呢?答案是下面的[倍率定理]:

以上定理的證明很簡(jiǎn)單,只需要計(jì)算T(2N) / T(N)在N趨向于正無窮時(shí)的極限即可。其中,“a * N^b * lgN”基本上涵蓋了常見算法的增長(zhǎng)量級(jí)(a、b為常數(shù))。值得我們注意的是,當(dāng)一個(gè)算法的增長(zhǎng)量級(jí)為NlogN時(shí),對(duì)它進(jìn)行倍率測(cè)試,我們會(huì)得到它的運(yùn)行時(shí)間的增長(zhǎng)數(shù)量級(jí)約為N。實(shí)際上,這并不矛盾,因?yàn)槲覀儾⒉荒芨鶕?jù)倍率實(shí)驗(yàn)的結(jié)果推測(cè)出算法符合某個(gè)特定的數(shù)學(xué)模型,我們只能夠大致預(yù)測(cè)相應(yīng)算法的性能(當(dāng)N在16000到32000之間時(shí),14N與NlgN十分接近)。
5. 均攤分析
考慮下我們之前在 深入理解數(shù)據(jù)結(jié)構(gòu)之鏈表 中提到的ResizingArrayStack,也就是底層用數(shù)組實(shí)現(xiàn)的支持動(dòng)態(tài)調(diào)整大小的棧。每次添加一個(gè)元素到棧中后,我們都會(huì)判斷當(dāng)前元素是否填滿的數(shù)組,若是填滿了,則創(chuàng)建一個(gè)尺寸為原來兩倍的新數(shù)組,并把所有元素從原數(shù)組復(fù)制到新數(shù)組中。我們知道,在數(shù)組未填滿的情況下,push操作的復(fù)雜度為O(1),而當(dāng)一個(gè)push操作使得數(shù)組被填滿,創(chuàng)建新數(shù)組及復(fù)制這一工作會(huì)使得push操作的復(fù)雜度驟然上升到O(n)。
對(duì)于上面那種情況,我們顯然不能說push的復(fù)雜度是O(n),我們通常認(rèn)為push的“平均復(fù)雜度”為O(1),因?yàn)楫吘姑縩個(gè)push操作才會(huì)觸發(fā)一次“復(fù)制元素到新數(shù)組”,因而這n個(gè)push把這一代價(jià)一均攤,對(duì)于這一系列push中的每個(gè)來說,它們的均攤代價(jià)就是O(1)。這種記錄所有操作的總成本并除以操作總數(shù)來講成本均攤的方法叫做均攤分析(也叫攤還分析)。
三、小試牛刀之實(shí)戰(zhàn)名企面試題
前面我們介紹了算法分析的一些姿勢(shì),那么現(xiàn)在我們就來學(xué)以致用,一起來解決幾道一線互聯(lián)網(wǎng)企業(yè)有關(guān)于算法分析的面試/筆試題。

看到這道題要我們分析算法時(shí)間復(fù)雜度后,我們要做的第一步便是確定關(guān)鍵操作,這里的關(guān)鍵操作顯然是if語(yǔ)句,那么我們只需要判斷if語(yǔ)句執(zhí)行的次數(shù)即可。首先我們看到這是一個(gè)遞歸過程:foo會(huì)不斷的調(diào)用自身,直到foo的實(shí)參小于等于1,foo就會(huì)返回1,之后便不會(huì)再執(zhí)行if語(yǔ)句了。由此我們可以知道,if語(yǔ)句調(diào)用的次數(shù)為n次,所以時(shí)間復(fù)雜度為O(n)。
這道題明顯要比上道題難一些,那么讓我們來按部就班的解決它。首先,它的關(guān)鍵操作時(shí)if語(yǔ)句,因此我們只需判斷出if語(yǔ)句的執(zhí)行次數(shù)即可。以上函數(shù)會(huì)在n > 0的時(shí)候不斷遞歸調(diào)用自身,我們要做的是判斷在到達(dá)遞歸的base case(即n <= 0)前,共執(zhí)行了多少次if語(yǔ)句。我們假設(shè)if語(yǔ)句的執(zhí)行次數(shù)為T(n, m, o),那么我們可以進(jìn)一步得到:T(n, m, o) = T(n-1, m+1, o) + T(n-1, m, o+1) (當(dāng)n > 0時(shí))。我們可以看到base case與參數(shù)m, o無關(guān),因此我們可以把以上表達(dá)式進(jìn)一步簡(jiǎn)化為T(n) = 2T(n-1),由此我們可得T(n) = 2T(n-1) = (2^2) * T(n-2)......所以我們可以得到以上算法的時(shí)間復(fù)雜度為O(2^n)。

以上算法的關(guān)鍵操作即while語(yǔ)句中的兩條賦值語(yǔ)句,我們只需要計(jì)算這兩條語(yǔ)句的執(zhí)行次數(shù)即可。我們可以看到,當(dāng)x - y > e時(shí),while語(yǔ)句體內(nèi)的語(yǔ)句就會(huì)執(zhí)行,x = (x + y) / 2使得x不斷變小(當(dāng)y<<x時(shí),執(zhí)行一次這個(gè)語(yǔ)句會(huì)使x變?yōu)榧s原來的一半),假定y的值固定在1,那么循環(huán)體的執(zhí)行次數(shù)即為~logm,而實(shí)際情況是y在每次循環(huán)體最后都會(huì)被賦值為m / x,這個(gè)值總是比y在上一輪循環(huán)中的值大,這樣一來x-y的值就會(huì)更小,所以以上算法的時(shí)間復(fù)雜度為O(logm)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標(biāo)題:算法分析的正確姿勢(shì)
本文網(wǎng)址:http://www.guhuozai8.cn/html/support/11121519309.html