[建站入門]Web背后的秘密
作者:晉城網(wǎng)站建設(shè) 日期:2012-02-16
Web,全稱為 World Wide Web,是 Internet 上最重要和最為人們所熟知的應(yīng)用之一。Web 是指 Internet 上所有基于 http 協(xié)議的 html 網(wǎng)頁、圖像、音頻、視頻等內(nèi)容的集合。雖然 Web 可能早已成你每天日常生活的一部分,但相信你對 Web 背后的秘密仍然很感興趣。本文向大家展示了關(guān)于 Web 的一些通常不為人所知而又有趣的細(xì)節(jié)。
1. Web的流量
雖然Internet(包括其前身ARPANET等)的歷史比Web要長的多,但直到 Tim Berners-Lee爵士于1989年設(shè)計出Web并在1991年開始實(shí)際運(yùn)行之后,Internet才逐漸大眾化并開始流行。自1995年開始,Web占據(jù)了整個 Internet的大部分流量,而成為Internet上最重要的一項(xiàng)應(yīng)用(注意不是“之一”)。
這種影響一直延續(xù)到今天:在日常生活中,我們一般甚至不 區(qū)分“Internet”和“Web”,而“上網(wǎng)”這個詞在很多情況下指的就是瀏覽Web。Web在流量上的主導(dǎo)地位自2000年起受到以napster為始祖的P2P的挑戰(zhàn)。相比Web來說,P2P在大型文件的傳輸上具有很大優(yōu)勢,因此雖然從廣度來說Web仍然是主導(dǎo),但在流量上自2002年起被P2P應(yīng)用超過。下圖顯示了自1993年到2004年Internet上重要協(xié)議的流量變化。
但這種狀況在2007年發(fā)生了逆轉(zhuǎn)。隨著網(wǎng)絡(luò)帶寬的增加,以 YouTube為首的在線視頻網(wǎng)站開始流行,使得Web的流量迅速增長并重新超過了P2P流量,盡管這個“優(yōu)勢”很微弱。總結(jié)一下,僅從流量的角度看,目前的Internet可以說是Web和P2P各占半邊天,而其余應(yīng)用所占的比重是越來越小。關(guān)于Web和P2P流量更詳細(xì)的分析可以參考這篇文章。
2. Web的規(guī)模
Web的規(guī)模定義為Web上包含的有效網(wǎng)頁的數(shù)量。Google最近宣稱已經(jīng)索引了1,000,000,000,000個網(wǎng)頁, 不過Google顯然不敢宣稱已經(jīng)索引了Web上全部或絕大部分的網(wǎng)頁,可以預(yù)計,Web的規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超過了上面這個數(shù)值。順便提一句,“有效網(wǎng)頁的數(shù) 量”嚴(yán)格來說其實(shí)是個偽命題,因?yàn)椋?. 很多網(wǎng)站在被請求了不存在的頁面時會返回一個友好的提示而非404錯誤(可以測試url:http://live.aulddays.com/后面跟上任意的文件名),理論上說它們?nèi)匀皇?ldquo;有效”的網(wǎng)頁;2. 很多網(wǎng)頁可以根據(jù)輸入?yún)?shù)的不同而返回不同的結(jié)果(Google目前正著手解決的 Deep web就是屬于這種情況)。從這個意義上說,說Web的規(guī)模是無窮大的…
退而求其次,我們可以來估計一下有多少網(wǎng)頁是Google沒有索引到的:假設(shè)我們知道了兩個不同的搜索引擎 A 和 B,它們索引的網(wǎng)頁數(shù)量分別是 s(A) 和 s(B),A&B為兩個搜索引擎的交集,那么根據(jù)容斥原理,所有被它們(中至少一個)索引的網(wǎng)頁數(shù)量就是 S=s(A)+s(B)-s(A&B);這個公式還可以推廣到多個搜索引擎的情況,則此時S會越來越靠近真實(shí)的 Web 的規(guī)模。不過很遺憾,這個公式很不實(shí)用:-( 雖然 Google 不久前迫于 Cuil的壓力公布了自己的索引量,但其他幾大搜索引擎仍習(xí)慣于對這個數(shù)據(jù)秘而不宣;更糟的是,Google 或是 Yahoo! 顯然不可能把自己的索引庫共享給對手以求得 s(A&B) 這項(xiàng)。不過,Bharat 和 Broder在1998年基于統(tǒng)計學(xué)原理提出了一個很巧妙并且很著名的解決方法:記 Pr(A) 為某個元素屬于集合 A 的概率,Pr(A&B|A) 為已知一個元素屬于 A 時而它同時屬于兩個集合的條件概率。 則可以推出:Pr(A&B|A)≈s(A&B)/s(A),Pr(A&B|B)≈s(A&B)/s(B),即得 s(A)/s(B)≈Pr(A&B|B)/Pr(A&B|A)。而 Pr(A&B|B)、Pr(A&B|A) 都可以用隨機(jī)采樣的方法根據(jù)一系列精巧構(gòu)造的搜索用例通過實(shí)際的搜索實(shí)驗(yàn)估計出來,從這兩個值還可以用來估算出 s(A&B) 的大小。再進(jìn)一步,從語言學(xué)模型中可以估計出之前構(gòu)造的搜索用例在整個語言文本中出現(xiàn)的概率,從而估計出 s(A) 和 s(B) 具體的大小。
現(xiàn)在的問題就集中在3點(diǎn):搜索用例的獨(dú)立性、搜索用例的覆蓋性、和結(jié)果檢驗(yàn)的完整性(搜索結(jié)果集可能很大,如果只看靠前的部分,通常這部分的 rank 會比較高,因而被同時索引的概率也會偏高,參考下面的Web的結(jié)構(gòu)一 節(jié))。Bharat 和 Broder 構(gòu)造的方法著重解決了前兩個問題,他們報告當(dāng)時(1997年底)的幾大搜索引擎HotBot, AltaVista, Excite, Infoseek (其時 Google 還未正式發(fā)布) 的索引覆蓋率 (占整個已被索引的 Web) 分別為:48%, 62%, 20%, 和 17%,而 Web 的總規(guī)模約為 220,000,000。值得注意的是,他們的結(jié)果還顯示各引擎的重合率 (即 s(A&B)) 很低,平均只有 1.4%,可見當(dāng)時的索引水平也還處于較低的階段。到了 2005 年,Gulli 和 Signorini改進(jìn)了結(jié)果檢驗(yàn)完整性的問題并在新的搜索巨頭 Google, Yahoo!, Ask/Teoma, MSN 上進(jìn)行了測試,結(jié)果它們各自的覆蓋度分別為 76%, 69%, 58%, 62%,Web的總規(guī)模達(dá)到了約 11,500,000,000。2006 年 Bar-Yossef 和 Gurevich進(jìn)一步優(yōu)化了隨機(jī)采樣的理論,根據(jù)他們的結(jié)果,當(dāng)時 Google, Yahoo!, MSN 的覆蓋率大約為:64%, 65%, 50%,重合率平均為 44%,比1997年有很大提高。他們并沒有給出估計的Web總規(guī)模,不過這組覆蓋率數(shù)值應(yīng)該比較接近目前的水平,因此結(jié)合上面 Google 最新的索引數(shù)量,相信大家不難估計出當(dāng)前 Web 的總規(guī)模。
3. Web的結(jié)構(gòu)
上面討論了Web的規(guī)模。我們知道,Web的特點(diǎn)是各個網(wǎng)頁之間由超鏈接互相連接而形成的網(wǎng)狀結(jié)構(gòu),那么這么大的一張網(wǎng)具有什么樣的特點(diǎn)呢?
Andrei Broder等人在2000年比較早的研究了這個問題,他們的研究基于兩個Web爬蟲各自爬取的超過2億個網(wǎng)頁和15億個超鏈接,他們認(rèn)為這些網(wǎng)頁具有一種類似“領(lǐng)結(jié)(bow tie)”的結(jié)構(gòu)。領(lǐng)結(jié)的形狀大致是中間一個大的“結(jié)”以及兩邊各一個三角形的“花”,在每個“花”上面附著了一些穗狀的“花邊”,而兩個花之間還有一條長的“項(xiàng)圈 ”讓領(lǐng)結(jié)可以套在脖子上。中間的“結(jié)”是由約5600萬網(wǎng)頁組成的SCC(strong connected component,強(qiáng)連接組件),左邊和右邊的花分別是IN組件和OUT組件,分別包含4400萬網(wǎng)頁。剩下的4400萬網(wǎng)頁則是花上的穗狀物 (TENDRIL組件)。在SCC組件中,任意兩個網(wǎng)頁都可以通過很短的有向鏈接路徑到達(dá)彼此,它們是整個Web的核心部分。IN組件里的網(wǎng)頁可以鏈入 SCC,但無法從SCC鏈回來,這些一般是比較新的網(wǎng)頁還沒有被大家所發(fā)現(xiàn)并鏈接到。OUT組件則是可以從SCC鏈入但不包含鏈回SCC的鏈接,這些可能 是一些只包含內(nèi)部鏈接的企業(yè)網(wǎng)站。TENDRIL組件則是和IN或OUT組件相連但并不和SCC組件有較直接聯(lián)系的網(wǎng)頁,有趣的是,TENDRIL組件中 的一小部分可以聯(lián)系IN和OUT組件而形成的“項(xiàng)圈”部分。還有很少一部分的網(wǎng)頁是不被鏈接到的,不屬于以上任何一個組件。這項(xiàng)結(jié)果中最令人驚奇的部分是 它顯示SCC部分(整個 Web 中相互鏈接最稠密的部分,因而通常也是最經(jīng)常瀏覽的部分,參考 PageRank的基本原理,它們通常具有較高的 rank 值)的大小只占整個 Web 的一小部分,這暗示W(wǎng)eb上可能大量充斥的是那些沒多少“價值”的網(wǎng)頁。
當(dāng)然上面的是2000年的情況,在最近幾年中Web的結(jié)構(gòu)可能發(fā)生了變化,因此一些新的理論也被提了出來。2005年 Debora Donato 等人研究后認(rèn)為,Web的結(jié)構(gòu)已逐漸轉(zhuǎn)變成一個類似“菊花”的形狀:在 IN 和 OUT 組件內(nèi)部出現(xiàn)了很多符合 IN-OUT-SCC 關(guān)系的細(xì)微結(jié)構(gòu),因而 IN 和 OUT 可以進(jìn)一步被細(xì)分而形成圍繞在 SCC “花心”周圍一圈大小不一的“花瓣”。不過在他們的結(jié)果中,SCC 的比例有所擴(kuò)大,在部分?jǐn)?shù)據(jù)集上甚至達(dá)到了 72.3%,這也讓后來的研究者對他們的數(shù)據(jù)集覆蓋性產(chǎn)生了一些懷疑,或許有一些較深的弱鏈接網(wǎng)頁沒有被他們索引到。另外,他們的結(jié)果還顯示,不同語言的 Web 子集其結(jié)構(gòu)有相當(dāng)大的區(qū)別,其中最突出的特點(diǎn)是英語的頁面無疑是 Web 的核心,其他語言的網(wǎng)頁有很多指向英語網(wǎng)頁的鏈接,而反過來的情況則相當(dāng)?shù)纳佟W詈笫侵形?Web 的情況,今年 Jonathan J. H. Zhu 等的分析將中文 Web 形容為“茶壺”的結(jié)構(gòu):相比 IN 組件,OUT 組件的變小了很多,因而在 SCC 兩側(cè)構(gòu)成了一大一小形如“把手”和“壺嘴”的結(jié)構(gòu),而游離的 TENDRIL 組件則很像壺中滴下的水滴。
上一篇
下一篇

Tags: ,