久久婷婷六月/丝袜美腿视频一区二区三区/三级网站在线看/黄色网址免费在线播放

關(guān)于天照
首頁(yè) > 關(guān)于天照 > 知識(shí)庫(kù)

上海網(wǎng)站建設(shè)之搜索引擎的原理

18
8789
天照科技提供中高端網(wǎng)站制作服務(wù)

搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。
 
從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)

利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過程,并把爬過的所有網(wǎng)頁(yè)收集回來。
 
建立索引數(shù)據(jù)庫(kù)

由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。
 
在索引數(shù)據(jù)庫(kù)中搜索排序

當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。
 
搜索引擎派出一個(gè)能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁(yè)并抓文件的程序,這個(gè)程序通常稱之為蜘蛛。搜索引擎從已知的數(shù)據(jù)庫(kù)出發(fā),就像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁(yè)并抓取文件。搜索引擎會(huì)跟蹤網(wǎng)頁(yè)中的鏈接,訪問更多的網(wǎng)頁(yè),這個(gè)過程就叫爬行。這些新的網(wǎng)址會(huì)被存入數(shù)據(jù)庫(kù)等待抓取。所以跟蹤網(wǎng)頁(yè)鏈接是搜索引擎蜘蛛發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁(yè)面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫(kù)。

相關(guān)新聞
滬ICP備11049390號(hào) 上海工商


服務(wù)范圍:網(wǎng)站建設(shè)/軟件開發(fā)/小程序/微信公眾號(hào)/App/電商運(yùn)營(yíng)/域名空間/網(wǎng)站維護(hù) 網(wǎng)絡(luò)營(yíng)銷推廣等   
版權(quán)所有 ? 2005-2019上海天照信息科技有限公司 電話:021-51696162