日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

微信搜一搜邁出新的一步,好戲來了( 二 )


使用搜索引擎激活存量資源,形成更大的協(xié)同生態(tài) 。
人無我有,人有我優(yōu),人優(yōu)我便利 。
不僅僅是技術(shù)的問題,更是思路上的差異 。
02
搜索引擎這個東西并不新鮮 。
我們一般把搜索引擎分成四代,導(dǎo)航網(wǎng)站(黃頁模式)是第一代,給你什么你看什么 。
提供最簡單的文本檢索功能的是第二代,人們可以簡單錄入自己的需求內(nèi)容,但是受限于網(wǎng)站的內(nèi)部數(shù)據(jù)庫 。在第二代的后期,搜索引擎解決了內(nèi)部數(shù)據(jù)庫問題,使用爬蟲來爬公域信息,理論上數(shù)據(jù)庫是無限的 。
我們最常用的,其實(shí)是第二代搜索引擎 。
從第三代開始,搜索引擎開始去預(yù)測用戶的意圖和習(xí)慣,在搜索結(jié)果中插入高亮信息 。這些信息可以是搜索引擎認(rèn)為更有效的資料,也可以是廣告 。
前三代搜索引擎主打的都是圍繞廠商端的需求 。
第四代搜索引擎是基于移動互聯(lián)網(wǎng)出現(xiàn)的用戶中心時代,最大的特點(diǎn)就是搜索的私人化,依據(jù)對用戶的了解,從搜索方式,搜索類型乃至搜索結(jié)果,都要往千人千面上靠 。
搜索引擎的歷史不算長,但是技術(shù)躍遷得非???。
雖然給用戶帶來更便利的內(nèi)容分發(fā)體驗(yàn)這個核心邏輯沒有變過,但是在搜索引擎的進(jìn)步過程中,也產(chǎn)生了很多非常有意思的技術(shù)原理,甚至和道德、法律、社會公序良俗相關(guān) 。
首先是爬蟲技術(shù) 。
網(wǎng)站其實(shí)并不歡迎私人的爬蟲,因?yàn)榕老x的訪問量會增加網(wǎng)站負(fù)擔(dān),但是又無法帶來真人流量 。所以,現(xiàn)在很多網(wǎng)站都設(shè)置有驗(yàn)證碼,就是為了確保訪問請求都來自真人用戶 。
但是,網(wǎng)站對搜索引擎的爬蟲是非常歡迎并且來者不拒的,被搜索引擎爬取并且收錄可以增加網(wǎng)站的曝光;甚至對于很多缺乏冷啟動的小網(wǎng)站來說,被搜索引擎爬出來,就是它們唯一能得到流量的渠道了 。
搜索引擎的爬蟲技術(shù)其實(shí)沒什么好講的,不管技術(shù)好壞,最后都能爬出來,區(qū)別在于爬取過程中的技術(shù)代價以及效率 。
但是,爬取+收錄這個行為就出現(xiàn)了騷操作了 。
有一家自己不做搜索引擎但是專門給其他公司提供搜索技術(shù)的公司,叫inktomi 。這是互聯(lián)網(wǎng)早期非常重要的一家搜索引擎技術(shù)提供商,而它把自己作死的原因,是inktomi開始要求網(wǎng)站付費(fèi)才能被收錄 。
實(shí)際上,搜索引擎的搜索結(jié)果就是它為用戶提供的商品,網(wǎng)站被收錄,獲得流量,搜索引擎收錄網(wǎng)站,獲得更多內(nèi)容,本來是雙贏的一件事情 。
如果要求一方給錢,性質(zhì)就變了 。
后來的雅虎和Google就是因?yàn)槊赓M(fèi)策略而大獲成功 。
搜索引擎很賺錢,但過度追求金錢,最后必然會帶來失敗,這是搜索引擎的第一個教訓(xùn) 。
再比如搜索結(jié)果的排名機(jī)制,也歷經(jīng)過非常有趣的演變 。
二代搜索引擎的排名機(jī)制和爬取機(jī)制是一體的,用的都是一些信息檢索模型,比如布爾模型,概率模型或者向量空間模型 。
這種機(jī)制下,其實(shí)不存在排名問題,因?yàn)榉颠€給用戶的直接就是一個鏈接清單,里面會夾雜大量用戶不關(guān)心的鏈接,用戶必須一條條全部看完才能找到自己需要的內(nèi)容 。
到了第三代搜索引擎,就把鏈接清單給取消了,以搜索界面的形式展現(xiàn)搜索結(jié)果,也就是我們現(xiàn)在看到的大多數(shù)搜索引擎 。問題在于,在這個界面里,哪個搜索結(jié)果應(yīng)該排在前面,哪個應(yīng)該排在后面,這會直接影響到搜索結(jié)果的曝光度 。
當(dāng)時的各個搜索引擎,用過不同的邏輯去判斷這個問題 。
比如有一個早期的搜索引擎叫Direct Hit,排名機(jī)制主要靠搜索結(jié)果的用戶點(diǎn)擊率來決定 。在一開始,這種方法的確提高了用戶看到優(yōu)質(zhì)搜索結(jié)果的可能性,Direct Hit也因此流行一時 。

推薦閱讀