[建站入門]Web背后的秘密

作者:晉城網(wǎng)站建設(shè) 日期:2012-02-16

字體大小: 小中大

Web，全稱為 World Wide Web，是 Internet 上最重要和最為人們所熟知的應(yīng)用之一。Web 是指 Internet 上所有基于 http 協(xié)議的 html 網(wǎng)頁、圖像、音頻、視頻等內(nèi)容的集合。雖然 Web 可能早已成你每天日常生活的一部分，但相信你對 Web 背后的秘密仍然很感興趣。本文向大家展示了關(guān)于 Web 的一些通常不為人所知而又有趣的細(xì)節(jié)。

1. Web的流量

雖然Internet（包括其前身ARPANET等）的歷史比Web要長的多，但直到 Tim Berners-Lee爵士于1989年設(shè)計出Web并在1991年開始實(shí)際運(yùn)行之后，Internet才逐漸大眾化并開始流行。自1995年開始，Web占據(jù)了整個 Internet的大部分流量，而成為Internet上最重要的一項(xiàng)應(yīng)用（注意不是“之一”）。

這種影響一直延續(xù)到今天：在日常生活中，我們一般甚至不區(qū)分“Internet”和“Web”，而“上網(wǎng)”這個詞在很多情況下指的就是瀏覽Web。Web在流量上的主導(dǎo)地位自2000年起受到以napster為始祖的P2P的挑戰(zhàn)。相比Web來說，P2P在大型文件的傳輸上具有很大優(yōu)勢，因此雖然從廣度來說Web仍然是主導(dǎo)，但在流量上自2002年起被P2P應(yīng)用超過。下圖顯示了自1993年到2004年Internet上重要協(xié)議的流量變化。

但這種狀況在2007年發(fā)生了逆轉(zhuǎn)。隨著網(wǎng)絡(luò)帶寬的增加，以 YouTube為首的在線視頻網(wǎng)站開始流行，使得Web的流量迅速增長并重新超過了P2P流量，盡管這個“優(yōu)勢”很微弱。總結(jié)一下，僅從流量的角度看，目前的Internet可以說是Web和P2P各占半邊天，而其余應(yīng)用所占的比重是越來越小。關(guān)于Web和P2P流量更詳細(xì)的分析可以參考這篇文章。

2. Web的規(guī)模

Web的規(guī)模定義為Web上包含的有效網(wǎng)頁的數(shù)量。Google最近宣稱已經(jīng)索引了1,000,000,000,000個網(wǎng)頁，不過Google顯然不敢宣稱已經(jīng)索引了Web上全部或絕大部分的網(wǎng)頁，可以預(yù)計，Web的規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超過了上面這個數(shù)值。順便提一句，“有效網(wǎng)頁的數(shù) 量”嚴(yán)格來說其實(shí)是個偽命題，因?yàn)椋?. 很多網(wǎng)站在被請求了不存在的頁面時會返回一個友好的提示而非404錯誤（可以測試url：http://live.aulddays.com/后面跟上任意的文件名），理論上說它們?nèi)匀皇?ldquo;有效”的網(wǎng)頁；2. 很多網(wǎng)頁可以根據(jù)輸入?yún)?shù)的不同而返回不同的結(jié)果（Google目前正著手解決的 Deep web就是屬于這種情況）。從這個意義上說，說Web的規(guī)模是無窮大的…

退而求其次，我們可以來估計一下有多少網(wǎng)頁是Google沒有索引到的：假設(shè)我們知道了兩個不同的搜索引擎 A 和 B，它們索引的網(wǎng)頁數(shù)量分別是 s(A) 和 s(B)，A&B為兩個搜索引擎的交集，那么根據(jù)容斥原理，所有被它們（中至少一個）索引的網(wǎng)頁數(shù)量就是 S=s(A)+s(B)-s(A&B)；這個公式還可以推廣到多個搜索引擎的情況，則此時S會越來越靠近真實(shí)的 Web 的規(guī)模。不過很遺憾，這個公式很不實(shí)用:-( 雖然 Google 不久前迫于 Cuil的壓力公布了自己的索引量，但其他幾大搜索引擎仍習(xí)慣于對這個數(shù)據(jù)秘而不宣；更糟的是，Google 或是 Yahoo! 顯然不可能把自己的索引庫共享給對手以求得 s(A&B) 這項(xiàng)。不過，Bharat 和 Broder在1998年基于統(tǒng)計學(xué)原理提出了一個很巧妙并且很著名的解決方法：記 Pr(A) 為某個元素屬于集合 A 的概率，Pr(A&B|A) 為已知一個元素屬于 A 時而它同時屬于兩個集合的條件概率。則可以推出：Pr(A&B|A)≈s(A&B)/s(A)，Pr(A&B|B)≈s(A&B)/s(B)，即得 s(A)/s(B)≈Pr(A&B|B)/Pr(A&B|A)。而 Pr(A&B|B)、Pr(A&B|A) 都可以用隨機(jī)采樣的方法根據(jù)一系列精巧構(gòu)造的搜索用例通過實(shí)際的搜索實(shí)驗(yàn)估計出來，從這兩個值還可以用來估算出 s(A&B) 的大小。再進(jìn)一步，從語言學(xué)模型中可以估計出之前構(gòu)造的搜索用例在整個語言文本中出現(xiàn)的概率，從而估計出 s(A) 和 s(B) 具體的大小。

現(xiàn)在的問題就集中在3點(diǎn)：搜索用例的獨(dú)立性、搜索用例的覆蓋性、和結(jié)果檢驗(yàn)的完整性（搜索結(jié)果集可能很大，如果只看靠前的部分，通常這部分的 rank 會比較高，因而被同時索引的概率也會偏高，參考下面的Web的結(jié)構(gòu)一節(jié)）。Bharat 和 Broder 構(gòu)造的方法著重解決了前兩個問題，他們報告當(dāng)時（1997年底）的幾大搜索引擎HotBot, AltaVista, Excite, Infoseek (其時 Google 還未正式發(fā)布) 的索引覆蓋率 (占整個已被索引的 Web) 分別為：48%, 62%, 20%, 和 17%，而 Web 的總規(guī)模約為 220,000,000。值得注意的是，他們的結(jié)果還顯示各引擎的重合率 (即 s(A&B)) 很低，平均只有 1.4%，可見當(dāng)時的索引水平也還處于較低的階段。到了 2005 年，Gulli 和 Signorini改進(jìn)了結(jié)果檢驗(yàn)完整性的問題并在新的搜索巨頭 Google, Yahoo!, Ask/Teoma, MSN 上進(jìn)行了測試，結(jié)果它們各自的覆蓋度分別為 76%, 69%, 58%, 62%，Web的總規(guī)模達(dá)到了約 11,500,000,000。2006 年 Bar-Yossef 和 Gurevich進(jìn)一步優(yōu)化了隨機(jī)采樣的理論，根據(jù)他們的結(jié)果，當(dāng)時 Google, Yahoo!, MSN 的覆蓋率大約為：64%, 65%, 50%，重合率平均為 44%，比1997年有很大提高。他們并沒有給出估計的Web總規(guī)模，不過這組覆蓋率數(shù)值應(yīng)該比較接近目前的水平，因此結(jié)合上面 Google 最新的索引數(shù)量，相信大家不難估計出當(dāng)前 Web 的總規(guī)模。

3. Web的結(jié)構(gòu)

上面討論了Web的規(guī)模。我們知道，Web的特點(diǎn)是各個網(wǎng)頁之間由超鏈接互相連接而形成的網(wǎng)狀結(jié)構(gòu)，那么這么大的一張網(wǎng)具有什么樣的特點(diǎn)呢？

Andrei Broder等人在2000年比較早的研究了這個問題，他們的研究基于兩個Web爬蟲各自爬取的超過2億個網(wǎng)頁和15億個超鏈接，他們認(rèn)為這些網(wǎng)頁具有一種類似“領(lǐng)結(jié)（bow tie）”的結(jié)構(gòu)。領(lǐng)結(jié)的形狀大致是中間一個大的“結(jié)”以及兩邊各一個三角形的“花”，在每個“花”上面附著了一些穗狀的“花邊”，而兩個花之間還有一條長的“項(xiàng)圈 ”讓領(lǐng)結(jié)可以套在脖子上。中間的“結(jié)”是由約5600萬網(wǎng)頁組成的SCC（strong connected component，強(qiáng)連接組件），左邊和右邊的花分別是IN組件和OUT組件，分別包含4400萬網(wǎng)頁。剩下的4400萬網(wǎng)頁則是花上的穗狀物（TENDRIL組件）。在SCC組件中，任意兩個網(wǎng)頁都可以通過很短的有向鏈接路徑到達(dá)彼此，它們是整個Web的核心部分。IN組件里的網(wǎng)頁可以鏈入 SCC，但無法從SCC鏈回來，這些一般是比較新的網(wǎng)頁還沒有被大家所發(fā)現(xiàn)并鏈接到。OUT組件則是可以從SCC鏈入但不包含鏈回SCC的鏈接，這些可能是一些只包含內(nèi)部鏈接的企業(yè)網(wǎng)站。TENDRIL組件則是和IN或OUT組件相連但并不和SCC組件有較直接聯(lián)系的網(wǎng)頁，有趣的是，TENDRIL組件中的一小部分可以聯(lián)系IN和OUT組件而形成的“項(xiàng)圈”部分。還有很少一部分的網(wǎng)頁是不被鏈接到的，不屬于以上任何一個組件。這項(xiàng)結(jié)果中最令人驚奇的部分是它顯示SCC部分（整個 Web 中相互鏈接最稠密的部分，因而通常也是最經(jīng)常瀏覽的部分，參考 PageRank的基本原理，它們通常具有較高的 rank 值）的大小只占整個 Web 的一小部分，這暗示W(wǎng)eb上可能大量充斥的是那些沒多少“價值”的網(wǎng)頁。

當(dāng)然上面的是2000年的情況，在最近幾年中Web的結(jié)構(gòu)可能發(fā)生了變化，因此一些新的理論也被提了出來。2005年 Debora Donato 等人研究后認(rèn)為，Web的結(jié)構(gòu)已逐漸轉(zhuǎn)變成一個類似“菊花”的形狀：在 IN 和 OUT 組件內(nèi)部出現(xiàn)了很多符合 IN-OUT-SCC 關(guān)系的細(xì)微結(jié)構(gòu)，因而 IN 和 OUT 可以進(jìn)一步被細(xì)分而形成圍繞在 SCC “花心”周圍一圈大小不一的“花瓣”。不過在他們的結(jié)果中，SCC 的比例有所擴(kuò)大，在部分?jǐn)?shù)據(jù)集上甚至達(dá)到了 72.3%，這也讓后來的研究者對他們的數(shù)據(jù)集覆蓋性產(chǎn)生了一些懷疑，或許有一些較深的弱鏈接網(wǎng)頁沒有被他們索引到。另外，他們的結(jié)果還顯示，不同語言的 Web 子集其結(jié)構(gòu)有相當(dāng)大的區(qū)別，其中最突出的特點(diǎn)是英語的頁面無疑是 Web 的核心，其他語言的網(wǎng)頁有很多指向英語網(wǎng)頁的鏈接，而反過來的情況則相當(dāng)?shù)纳佟Ｗ詈笫侵形?Web 的情況，今年 Jonathan J. H. Zhu 等的分析將中文 Web 形容為“茶壺”的結(jié)構(gòu)：相比 IN 組件，OUT 組件的變小了很多，因而在 SCC 兩側(cè)構(gòu)成了一大一小形如“把手”和“壺嘴”的結(jié)構(gòu)，而游離的 TENDRIL 組件則很像壺中滴下的水滴。

Tags: ,山西晉城網(wǎng)站建設(shè),晉城在線網(wǎng)頁學(xué)習(xí),晉城企業(yè)智能建站

日本不卡一区二区三区在线观看_久久香蕉频线观_国产日产欧美a一级在线_欧美国产综合视频

[建站入門]Web背后的秘密

作者:晉城網(wǎng)站建設(shè) 日期:2012-02-16