成都網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)建站!專注于網(wǎng)頁(yè)設(shè)計(jì)、成都網(wǎng)站建設(shè)、微信開發(fā)、微信小程序、集團(tuán)成都企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。核心團(tuán)隊(duì)均擁有互聯(lián)網(wǎng)行業(yè)多年經(jīng)驗(yàn),服務(wù)眾多知名企業(yè)客戶;涵蓋的客戶類型包括:高空作業(yè)車租賃等眾多領(lǐng)域,積累了大量豐富的經(jīng)驗(yàn),同時(shí)也獲得了客戶的一致稱贊!

分類目錄,顧名思義就是把東西分成各個(gè)類別列成目錄的形式給你使用
搜 索 引 擎 分 類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。■ 全文搜索引擎 全文搜索引擎是名副其實(shí)的搜索引擎,國(guó)外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國(guó)內(nèi)著名的有百度(Baidu)。它們都是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)而建立的數(shù)據(jù)庫(kù)中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。從搜索結(jié)果來(lái)源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,如Lycos引擎。■ 目錄索引 目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過(guò)于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。■ 元搜索引擎 (META Search Engine) 元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來(lái)源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。除上述三大類引擎外,還有以下幾種非主流形式: 1、集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索,而是由用戶從提供的4個(gè)引擎當(dāng)中選擇,因此叫它“集合式”搜索引擎更確切些。
2、門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務(wù),但自身即沒有分類目錄也沒有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)自其他引擎。
3、免費(fèi)鏈接列表(Free For All Links,簡(jiǎn)稱FFA):這類網(wǎng)站一般只簡(jiǎn)單地滾動(dòng)排列鏈接條目,少部分有簡(jiǎn)單的分類目錄,不過(guò)規(guī)模比起Yahoo等目錄索引來(lái)要小得多。由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù),為方便起見,我們通常將其統(tǒng)稱為搜索引擎。
很多行業(yè)都有行業(yè)性的搜索引擎,綜合搜索引擎最常用的是BAIDU。GOOGLE。YAHOO。MSN等我建議你使用BAIDU。
原發(fā)布者:海蝶20實(shí)驗(yàn)A討論思考:全文搜索引擎和目錄索引引擎的區(qū)別是什么?全文搜索引擎因?yàn)橐揽寇浖M(jìn)行,所以數(shù)據(jù)庫(kù)的容量非常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確。分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。?搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。?搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功;而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。?當(dāng)用于在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問(wèn)題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄(Directory)。?搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁(yè)中自動(dòng)提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。因此,分類目錄型搜索引擎營(yíng)銷方法與技術(shù)性搜索引擎的方式有很大的不同,需要充分了解這種區(qū)別,才能充分發(fā)揮各種不同搜索引擎的作用。實(shí)驗(yàn)B討論思考:百度的廣告策略如何策劃的。談?wù)勀愕目捶ā0俣鹊膹V告策略主要是通過(guò)搜索推廣、網(wǎng)盟推廣、增值服務(wù)(百度指數(shù)、百度統(tǒng)計(jì)、百度推廣助手、百度商橋)、其他推廣服務(wù)(百度圖片推廣、百度品牌專區(qū)、百度火爆地帶)、專業(yè)客戶服務(wù)等幾項(xiàng)來(lái)進(jìn)行的。百度推廣流程是:1.搜索:網(wǎng)民在百度搜索自己關(guān)注的關(guān)鍵詞信息2.推廣:企業(yè)的推廣信息展現(xiàn)在關(guān)鍵詞對(duì)應(yīng)的搜索結(jié)果頁(yè)3.點(diǎn)擊:
搜索引擎基本工作原理了解搜索引擎的工作原理對(duì)我們?nèi)粘K阉鲬?yīng)用和網(wǎng)站提交推廣都會(huì)有很大幫助。■ 全文搜索引擎 搜索引擎的自動(dòng)信息搜集功能分兩種。
一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)
(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶查詢。由于近年來(lái)搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。■ 目錄索引 與全文搜索引擎相比,目錄索引有許多不同之處。首先,搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。其次,搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級(jí)索引,登錄更是困難。(由于登錄Yahoo!的難度最大,而它又是商家網(wǎng)絡(luò)營(yíng)銷必爭(zhēng)之地,所以我們會(huì)在后面用專門的篇幅介紹登錄Yahoo雅虎的技巧) 此外,在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問(wèn)題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄(Directory)。最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁(yè)中自動(dòng)提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對(duì)其進(jìn)行調(diào)整,當(dāng)然事先是不會(huì)和你商量的。目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過(guò)其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。目前,搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來(lái)一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過(guò)與Google等搜索引擎合作擴(kuò)大搜索范圍(注)。在默認(rèn)搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如國(guó)內(nèi)搜狐、新浪、網(wǎng)易等;而另外一些則默認(rèn)的是網(wǎng)頁(yè)搜索,如Yahoo。
一、什么叫搜索引擎? 在Internet上有上百億可用的公共Web頁(yè)面,即使是最狂熱的沖浪者也不會(huì)訪問(wèn)到所有的頁(yè)面,而只能看到其中的一小部分,更不會(huì)在這浩瀚的Web海洋中發(fā)現(xiàn)你那即使精彩卻渺小的一隅。當(dāng)然你可以為你的存在做廣告,可以用大大的字把你的URL刻在你的身體上,然后裸體穿過(guò)白宮草坪,但你得保證媒體正好在那里,并注視到了這一切。與其這樣做,不如好好去理解搜索引擎是如何工作的?又怎樣選擇和使用"keywords"(關(guān)鍵詞)等等。本文的目的就是讓眾多的頁(yè)面設(shè)計(jì)者在了解搜索引擎的基礎(chǔ)上,尋求如何使自己的頁(yè)面在搜索引擎索返回的列表中獲得好的排列層次的方法。"搜索引擎"這個(gè)術(shù)語(yǔ)一般統(tǒng)指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實(shí)他們是不一樣的,其區(qū)別主要在于返回的搜索結(jié)果列表是如何編排的。
1、目錄 目錄(比如Yahoo!)返回的列表是由人工來(lái)編排的。這類引擎提供了一份人工按類別編排的網(wǎng)站目錄,各類下邊排列著屬于這一類別的網(wǎng)站的站名和網(wǎng)址鏈接,再記錄一些摘要信息,對(duì)該網(wǎng)站進(jìn)行概述性介紹(摘要可能是你提交過(guò)去的,也可以是引擎站點(diǎn)的編輯為你的站點(diǎn)所做的評(píng)價(jià))。人們搜索時(shí)就按相應(yīng)類別的目錄查詢下去。這類引擎往往還伴有網(wǎng)站查詢功能,也稱之為網(wǎng)站檢索,即提供一個(gè)文字輸入框和一個(gè)按鈕。我們可以在文字框中輸入要查找的字、詞或短語(yǔ),再點(diǎn)擊按鈕,便會(huì)在目錄中查找相關(guān)的站名、網(wǎng)址和內(nèi)容提要,將查到的內(nèi)容列表送過(guò)來(lái)。目前國(guó)內(nèi)Sohoo、常青藤等都是這種搜索方式。
2、搜索引擎 搜索引擎(如HotBot)是自動(dòng)創(chuàng)建列表的。搜索引擎看起來(lái)與目錄的網(wǎng)站查詢非常相似,也提供一個(gè)文字輸入框和按鈕,使用方法也相同,而且有些也提供分類目錄,但兩者卻有本質(zhì)上的區(qū)別。目錄的資料庫(kù)中,搜集保存的是各網(wǎng)站的站名、網(wǎng)址和內(nèi)容提要;搜索引擎的資料庫(kù)中,搜集保存的則是各網(wǎng)站的每一個(gè)網(wǎng)頁(yè)的全部?jī)?nèi)容,范圍要大得多。搜索引擎是以全文檢索的方式工作的。全文檢索查到的結(jié)果不是站名、網(wǎng)址和內(nèi)容提要,而是與你輸入的關(guān)鍵詞相關(guān)的一個(gè)個(gè)網(wǎng)頁(yè)的地址和一小段文字。在這段文字中,可能沒有你輸入的那個(gè)關(guān)鍵詞,它只是某一網(wǎng)頁(yè)的第一段話,甚至是一段無(wú)法看懂的標(biāo)記,但在這個(gè)網(wǎng)頁(yè)中,一定有你所輸入的那個(gè)關(guān)鍵詞,或者相關(guān)的詞匯。打個(gè)比方說(shuō),網(wǎng)站查詢可以查到網(wǎng)上有哪些報(bào)紙,如《文匯報(bào)》、《大公報(bào)》,而全文檢索則可以查到網(wǎng)上這些報(bào)紙的每一篇文章中的詞匯。
3、兩者相結(jié)合的搜索引擎 某些搜索引擎同時(shí)也提供目錄。包含在搜索引擎中的目錄通常質(zhì)量比較高,也能從那里找到許多好站點(diǎn)。因?yàn)榧词鼓惆涯愕恼军c(diǎn)提交過(guò)去,也并不能保證一定被加到目錄中去,他們把注意力放在那些已經(jīng)在別的目錄中存在的站點(diǎn)上,并有選擇地尋找有吸引力的加到自己的目錄中。搜索引擎和目錄各有各自不可替代的功用。目錄比較簡(jiǎn)單,要想獲得一個(gè)好的排列層次,除了你努力創(chuàng)建一個(gè)好內(nèi)容的高品質(zhì)站點(diǎn)外別無(wú)他法。搜索引擎復(fù)雜得多,它們隨時(shí)都在自動(dòng)地索引眾多WEB站點(diǎn)的最新網(wǎng)頁(yè),所以常常會(huì)發(fā)現(xiàn)目錄所不能得到的信息。如果你改動(dòng)了你的頁(yè)面,搜索引擎還隨時(shí)會(huì)發(fā)現(xiàn)這個(gè)變化,并重新排列你在列表中的位置。而目錄就做不到。下面專門討論搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。參考資料:http://www.yuan.sc.cn/cpc/buildweb/search101.htm按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類: 1.目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄埽孕畔?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國(guó)內(nèi)代表為:"天網(wǎng)"、悠游、OpenFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等。…… 主 要 技 術(shù) 一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶接口等四個(gè)部分組成。
1.搜索器 搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過(guò)的舊信息,以避免死連接和無(wú)效連接。目前有兩種搜集信息的策略: ● 從一個(gè)起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo!)。● 將Web空間按照域名、IP地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬(wàn)網(wǎng)頁(yè)。
2.索引器 索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),如作者名、URL、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度(Link Popularity)等等;內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語(yǔ)索引項(xiàng))兩種。單索引項(xiàng)對(duì)于英文來(lái)講是英語(yǔ)單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格);對(duì)于中文等連續(xù)書寫的語(yǔ)言,必須進(jìn)行詞語(yǔ)的切分。在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來(lái)計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法。索引表一般使用某種形式的倒排表(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。
一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
3.檢索器 檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。
4.用戶接口 用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。用戶輸入接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。簡(jiǎn)單接口只提供用戶輸入查詢串的文本框;復(fù)雜接口可以讓用戶對(duì)查詢進(jìn)行限制,如邏輯運(yùn)算(與、或、非;+、-)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現(xiàn)位置(如標(biāo)題、內(nèi)容)、信息時(shí)間、長(zhǎng)度等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。http://www.userver.cn/n1246c142.aspx
一、什么叫搜索引擎?
在Internet上有上百億可用的公共Web頁(yè)面,即使是最狂熱的沖浪者也不會(huì)訪問(wèn)到所有的頁(yè)面,而只能看到其中的一小部分,更不會(huì)在這浩瀚的Web海洋中發(fā)現(xiàn)你那即使精彩卻渺小的一隅。當(dāng)然你可以為你的存在做廣告,可以用大大的字把你的URL刻在你的身體上,然后裸體穿過(guò)白宮草坪,但你得保證媒體正好在那里,并注視到了這一切。與其這樣做,不如好好去理解搜索引擎是如何工作的?又怎樣選擇和使用"keywords"(關(guān)鍵詞)等等。
本文的目的就是讓眾多的頁(yè)面設(shè)計(jì)者在了解搜索引擎的基礎(chǔ)上,尋求如何使自己的頁(yè)面在搜索引擎索返回的列表中獲得好的排列層次的方法。
"搜索引擎"這個(gè)術(shù)語(yǔ)一般統(tǒng)指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實(shí)他們是不一樣的,其區(qū)別主要在于返回的搜索結(jié)果列表是如何編排的。
1、目錄
目錄(比如Yahoo!)返回的列表是由人工來(lái)編排的。
這類引擎提供了一份人工按類別編排的網(wǎng)站目錄,各類下邊排列著屬于這一類別的網(wǎng)站的站名和網(wǎng)址鏈接,再記錄一些摘要信息,對(duì)該網(wǎng)站進(jìn)行概述性介紹(摘要可能是你提交過(guò)去的,也可以是引擎站點(diǎn)的編輯為你的站點(diǎn)所做的評(píng)價(jià))。人們搜索時(shí)就按相應(yīng)類別的目錄查詢下去。
這類引擎往往還伴有網(wǎng)站查詢功能,也稱之為網(wǎng)站檢索,即提供一個(gè)文字輸入框和一個(gè)按鈕。我們可以在文字框中輸入要查找的字、詞或短語(yǔ),再點(diǎn)擊按鈕,便會(huì)在目錄中查找相關(guān)的站名、網(wǎng)址和內(nèi)容提要,將查到的內(nèi)容列表送過(guò)來(lái)。目前國(guó)內(nèi)Sohoo、常青藤等都是這種搜索方式。
2、搜索引擎
搜索引擎(如HotBot)是自動(dòng)創(chuàng)建列表的。
搜索引擎看起來(lái)與目錄的網(wǎng)站查詢非常相似,也提供一個(gè)文字輸入框和按鈕,使用方法也相同,而且有些也提供分類目錄,但兩者卻有本質(zhì)上的區(qū)別。
目錄的資料庫(kù)中,搜集保存的是各網(wǎng)站的站名、網(wǎng)址和內(nèi)容提要;搜索引擎的資料庫(kù)中,搜集保存的則是各網(wǎng)站的每一個(gè)網(wǎng)頁(yè)的全部?jī)?nèi)容,范圍要大得多。
搜索引擎是以全文檢索的方式工作的。全文檢索查到的結(jié)果不是站名、網(wǎng)址和內(nèi)容提要,而是與你輸入的關(guān)鍵詞相關(guān)的一個(gè)個(gè)網(wǎng)頁(yè)的地址和一小段文字。在這段文字中,可能沒有你輸入的那個(gè)關(guān)鍵詞,它只是某一網(wǎng)頁(yè)的第一段話,甚至是一段無(wú)法看懂的標(biāo)記,但在這個(gè)網(wǎng)頁(yè)中,一定有你所輸入的那個(gè)關(guān)鍵詞,或者相關(guān)的詞匯。打個(gè)比方說(shuō),網(wǎng)站查詢可以查到網(wǎng)上有哪些報(bào)紙,如《文匯報(bào)》、《大公報(bào)》,而全文檢索則可以查到網(wǎng)上這些報(bào)紙的每一篇文章中的詞匯。
3、兩者相結(jié)合的搜索引擎
某些搜索引擎同時(shí)也提供目錄。包含在搜索引擎中的目錄通常質(zhì)量比較高,也能從那里找到許多好站點(diǎn)。因?yàn)榧词鼓惆涯愕恼军c(diǎn)提交過(guò)去,也并不能保證一定被加到目錄中去,他們把注意力放在那些已經(jīng)在別的目錄中存在的站點(diǎn)上,并有選擇地尋找有吸引力的加到自己的目錄中。
搜索引擎和目錄各有各自不可替代的功用。目錄比較簡(jiǎn)單,要想獲得一個(gè)好的排列層次,除了你努力創(chuàng)建一個(gè)好內(nèi)容的高品質(zhì)站點(diǎn)外別無(wú)他法。搜索引擎復(fù)雜得多,它們隨時(shí)都在自動(dòng)地索引眾多WEB站點(diǎn)的最新網(wǎng)頁(yè),所以常常會(huì)發(fā)現(xiàn)目錄所不能得到的信息。如果你改動(dòng)了你的頁(yè)面,搜索引擎還隨時(shí)會(huì)發(fā)現(xiàn)這個(gè)變化,并重新排列你在列表中的位置。而目錄就做不到。下面專門討論搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。
參考資料: http://www.yuan.sc.cn/cpc/buildweb/search101.htm
按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄埽孕畔?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國(guó)內(nèi)代表為:"天網(wǎng)"、悠游、OpenFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等。
……
主 要 技 術(shù)
一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶接口等四個(gè)部分組成。
1.搜索器
搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過(guò)的舊信息,以避免死連接和無(wú)效連接。目前有兩種搜集信息的策略:
● 從一個(gè)起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo!)。
● 將Web空間按照域名、IP地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬(wàn)網(wǎng)頁(yè)。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。
索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),如作者名、URL、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度(Link Popularity)等等;內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語(yǔ)索引項(xiàng))兩種。單索引項(xiàng)對(duì)于英文來(lái)講是英語(yǔ)單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格);對(duì)于中文等連續(xù)書寫的語(yǔ)言,必須進(jìn)行詞語(yǔ)的切分。
在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來(lái)計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。
一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
3.檢索器
檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。
檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。
4.用戶接口
用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。用戶輸入接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。
簡(jiǎn)單接口只提供用戶輸入查詢串的文本框;復(fù)雜接口可以讓用戶對(duì)查詢進(jìn)行限制,如邏輯運(yùn)算(與、或、非;+、-)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現(xiàn)位置(如標(biāo)題、內(nèi)容)、信息時(shí)間、長(zhǎng)度等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。
http://www.userver.cn/n1246c142.aspx
搜索引擎基本工作原理 了解搜索引擎的工作原理對(duì)我們?nèi)粘K阉鲬?yīng)用和網(wǎng)站提交推廣都會(huì)有很大幫助。■ 全文搜索引擎
在搜索引擎分類部分我們提到過(guò)全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。
一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。
另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)
(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶查詢。由于近年來(lái)搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。
當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。
■ 目錄索引
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。
其次,搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級(jí)索引,登錄更是困難。(由于登錄Yahoo!的難度最大,而它又是商家網(wǎng)絡(luò)營(yíng)銷必爭(zhēng)之地,所以我們會(huì)在后面用專門的篇幅介紹登錄Yahoo雅虎的技巧)
此外,在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問(wèn)題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄(Directory)。
最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁(yè)中自動(dòng)提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對(duì)其進(jìn)行調(diào)整,當(dāng)然事先是不會(huì)和你商量的。
目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過(guò)其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來(lái)一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過(guò)與Google等搜索引擎合作擴(kuò)大搜索范圍(注)。在默認(rèn)搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如國(guó)內(nèi)搜狐、新浪、網(wǎng)易等;而另外一些則默認(rèn)的是網(wǎng)頁(yè)搜索,如Yahoo。
當(dāng)前題目:什么是目錄分類式搜索,分類目錄是什么
轉(zhuǎn)載來(lái)于:http://www.chinadenli.net/article28/iccpcp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、網(wǎng)站收錄、App設(shè)計(jì)、App開發(fā)、虛擬主機(jī)、網(wǎng)站營(yíng)銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)