鏈接結(jié)構(gòu)和爬蟲(chóng)爬行范圍
如果希望網(wǎng)站能夠吸引新的訪(fǎng)問(wèn)者,在網(wǎng)站設(shè)計(jì)過(guò)程中,網(wǎng)站設(shè)計(jì)者們應(yīng)考慮商業(yè)引擎網(wǎng)絡(luò)爬蟲(chóng)的工作原理。關(guān)于商業(yè)引擎網(wǎng)絡(luò)爬蟲(chóng)工作原理的具體細(xì)節(jié),外人知道得很少,但可以從其一般工作原理中獲得幾點(diǎn)啟示。
網(wǎng)絡(luò)爬蟲(chóng)是沿著從網(wǎng)頁(yè)文本中提取出來(lái)的鏈接爬行的,任何一個(gè)網(wǎng)站都應(yīng)含有足夠的鏈接,以便爬蟲(chóng)能夠發(fā)現(xiàn)該站點(diǎn)所有的網(wǎng)頁(yè)。更具體的講,爬蟲(chóng)很可能從網(wǎng)站的首頁(yè)開(kāi)始爬行,因此,網(wǎng)站首頁(yè)上的鏈接應(yīng)能夠指向該網(wǎng)站所有的網(wǎng)頁(yè)。另外,這些鏈接必須包含在網(wǎng)頁(yè)的HTML中,且是標(biāo)準(zhǔn)的HTML(如,使用錨點(diǎn)標(biāo)簽),因?yàn)榕老x(chóng)可能識(shí)別不了其他格式的鏈接,包括JAVA或JavaScript格式。
許多網(wǎng)站從未被任何搜索引擎發(fā)現(xiàn)過(guò),網(wǎng)站設(shè)計(jì)者們應(yīng)該確保他們的網(wǎng)站能夠讓搜索引擎的“爬蟲(chóng)”發(fā)現(xiàn)。某些搜索引擎有URL提交功能,即允許設(shè)計(jì)者們將其網(wǎng)站的URL提交到爬行列表中,所有的主流搜索引擎都有這一功能;有些搜索引擎雖沒(méi)有此功能,但如果已經(jīng)被索引過(guò)的網(wǎng)站中有指向未被索引到的網(wǎng)站的鏈接,那么順著鏈接,爬蟲(chóng)也能爬取該網(wǎng)站。因此,對(duì)于新網(wǎng)站而言,應(yīng)該確保至少有一個(gè)已經(jīng)被主流搜索引擎索引到的網(wǎng)站鏈接到該網(wǎng)站。
搜索引擎程序如何解析網(wǎng)頁(yè)文本
一個(gè)網(wǎng)頁(yè)中的文本對(duì)搜索引擎來(lái)說(shuō),比對(duì)用戶(hù)更為重要。網(wǎng)頁(yè)中的文本與鏈接主題無(wú)關(guān),但可以給出一些網(wǎng)站的總體印象,這些網(wǎng)站里有些內(nèi)容不愿被搜索引擎索引到,所以,在設(shè)計(jì)時(shí)專(zhuān)門(mén)提防著搜索引擎。此時(shí),需要區(qū)分“爬行”和“索引”這兩個(gè)概念。爬行一個(gè)網(wǎng)站是指沿著鏈接訪(fǎng)問(wèn)該站點(diǎn)上所有的頁(yè)面,且一般會(huì)為這些網(wǎng)頁(yè)保存一個(gè)復(fù)本。索引則是爬行的下一個(gè)階段,即將網(wǎng)頁(yè)文本存人到一個(gè)特殊的“倒排文檔”數(shù)據(jù)庫(kù)中,利用“倒排文檔”數(shù)據(jù)庫(kù),可以快速搜索到與用戶(hù)查詢(xún)相匹配的頁(yè)面。標(biāo)準(zhǔn)搜索引擎一般只索引網(wǎng)頁(yè)文本,而忽略圖片和其他多媒體信息。因此,討論搜索時(shí)就應(yīng)該區(qū)分文本和圖片。
用戶(hù)在訪(fǎng)問(wèn)網(wǎng)站的時(shí)候,從圖片中獲得的信息比從文本中獲得的信息更直觀。舉一個(gè)極端的例子,一個(gè)來(lái)自知名公司的圖標(biāo)放在頁(yè)面中顯眼的位置,就足以說(shuō)明該網(wǎng)頁(yè)是該公司的。相反,搜索引擎則是忽略所有圖片的,至少在從網(wǎng)頁(yè)中提取信息時(shí)是這樣的。如果一個(gè)網(wǎng)頁(yè)上都是鞋子的圖片,但其文本中卻沒(méi)有一個(gè)“鞋”字,那么,搜索引擎不知道這個(gè)頁(yè)面是關(guān)于鞋子的。這就說(shuō)明,網(wǎng)站的設(shè)計(jì)者們需要確保頁(yè)面中含有描述該站點(diǎn)主題內(nèi)容的詞語(yǔ)。
一些更聰明的方法可以用來(lái)幫助搜索引擎來(lái)判定該頁(yè)面是關(guān)于鞋子的。Google首先提出了這樣的方法:如果有其他頁(yè)面鏈接到含有鞋子圖片的頁(yè)面,且錨文本中也提到鞋子,這便證明該圖片頁(yè)面是和鞋子相關(guān)的。另外,有一些精細(xì)的方法,如潛在語(yǔ)義分析,可以根據(jù)主題同義詞,或其他與主題相關(guān)的詞來(lái)猜測(cè)一個(gè)網(wǎng)頁(yè)的主題。例如,如果一個(gè)頁(yè)面中含有“靴子”,或其他與鞋子相關(guān)的詞(如“鞋帶”和“鞋底”);那么,這便足以說(shuō)明該頁(yè)面是和鞋子相關(guān)的。然而,網(wǎng)絡(luò)設(shè)計(jì)者們不能依賴(lài)使用這些先進(jìn)技術(shù)的搜索引擎,因此,應(yīng)該保證他們站點(diǎn)的關(guān)鍵頁(yè)面中含有大量與主題相關(guān)的文本信息,可以吸引訪(fǎng)問(wèn)者。當(dāng)然,這些文本應(yīng)該在站點(diǎn)頁(yè)面的HTML中,而不是在圖片,或Java程序或多媒體形式的媒介中。
知道搜索引擎處理網(wǎng)頁(yè)的過(guò)程,有益于了解它們是如何尋找相關(guān)網(wǎng)頁(yè)的。似乎所有的商業(yè)搜索引擎都采用了向量空間模型,或是它的變體,向量空間模型一般是與其他技術(shù)結(jié)合在一起使用的。向量空間模型將所有的網(wǎng)頁(yè)都轉(zhuǎn)換到一個(gè)無(wú)序的詞庫(kù)中,每個(gè)頁(yè)面都用一個(gè)列表表示,列表中是頁(yè)面里各個(gè)詞出現(xiàn)的頻率。稍后,會(huì)用數(shù)學(xué)公式將詞頻轉(zhuǎn)換為權(quán)重,該數(shù)學(xué)公式能夠賦予文檔中詞頻較高的詞語(yǔ)較高的權(quán)重。同時(shí),也會(huì)給稀有詞語(yǔ)賦予較高的權(quán)重。