當前位置: 首頁>>係統&架構>>正文


談搜索架構師的不同階段(轉載)

文/騰訊soso 喬建秀

喬建秀,國內早期從事搜索引擎技術的專家,擁有十年的搜索經驗。作為搜索首席架構師,2000年-2007年在中搜在線工作。2007年以高端技術專家身 份加入騰訊公司。自加入公司以來,全麵負責網頁搜索的後台技術架構的研發,直到2009年9月soso網頁搜索成功上線。目前任命網頁搜索平台和公共平台 的總監,負責搜索引擎新架構和公共平台的研發工作。

搜索技術的應用越來越廣,掌握搜索技術或者針對搜索技術有了解的人也越來越多。最近接觸了不少搜索人才,從對搜索的了解程度來講,大體分為幾種不同的階段。

第一個階段是使用開源的單機搜索係統(最常見的是lucene),在其之上加入broker和Cache,在其之上在構造應用。這個階段一般對 lucene的工作原理以及基本的搜索原理會略有了解,甚至還是有不少看過lucene的源碼的。這也是大多數人接觸搜索引擎的最方便和最常見的方式。但 是這種係統一般隻適用於較少量數據(千萬級),其並發性能一般也隻能達到百萬級。好處是開發周期短,這一類的人才在市場上也容易找到,再加上一些好的 idea,簡單的數據挖掘方法(分類、聚類、協同過濾、用戶行為分析等)就可以很快做出原型係統,滿足一些小公司的前期創業階段的技術要求。

第二個階段是自行開發的垂直領域內的搜索,這個階段一般數據量會達到上億或者幾億,如果用開源係統,其性價比已經不能滿足要求,需要的服務器會超出承受能 力,所以就會進行自己開發搜索係統,這種係統大都是針對內存的係統。這個階段的人才會對搜索引擎的原理有較深的理解,可以自行開發簡單的搜索應用。這類人 才有很多是從第一個階段發展過來的,他們會對搜索的各個方麵都有所了解,包括切詞、索引的建立、更新、應用的搭建、broker係統、cache係統、簡 單的排序策略等等。對於大部分搜索係統來講,這部分人才都可以完成對係統設計和開發。

前兩個階段,其數據來源一般也是定向的抓取,基於模板的內容分析抽取,對服務的穩定性要求也沒有那麽高,更新無法做到無縫更新。

第三個階段是針對網頁搜索(通用搜索)的人才,這個階段的人才比較少,針對整個網頁搜索都有了解的人就更少了。主要集中於百度、穀歌、搜狗等大的搜索公司。

了 解通用搜索的人主要集中於大型的搜索公司,有以下幾個原因:一是其它公司很難有做網頁搜索的實力,也就很難有這種工作經曆。沒有經曆過這樣的挑戰就很難想 像出其中的難度。二是即使有做過,但是很難拿到用戶的反饋,而缺乏用戶反饋數據,網頁搜索引擎就象缺了一條腿。三是做網頁搜索的人一般比較多,包括百度、 穀歌等公司,大部分人也隻能從事網頁搜索中較小的一個部分,針對網頁搜索整體了解和思考都是比較少的。

這個階段的人才會對通用搜索遇到的挑戰有一定的解決能力。包括如何能夠在有限的資源內做到盡快的返回用戶的結果(性能指標),如何做到第一時間更新互聯網 的熱點並且能夠展示到用戶麵前(時新性指標),如何能夠盡可能多的收錄互聯網的有用頁麵(覆蓋率指標),如何能夠把用戶最感興趣的結果放到最前麵(相關性 指標),還有很多用戶可用性、以及顯相關的指標。這些是評價通用搜索的最主要的指標,每個指標都會有很大的挑戰。這個階段的人才一般最少會對其中的部分指 標有自己解決的辦法。

第四個階段是對網頁搜索係統的設計能力和架構能力都很強的人才,他們會針對搜索係統的除暴露給用戶的表現部分有很深的理解和自己的解決方案外,還包括跨機 房解決方案,基礎存儲運算在搜索中的應用,高可用和靈活性的相關性實驗支持,高效靈活的數據挖掘平台、接口及解決方案,係統的高度可擴展性和柔性服務能力 等。這類人才在市場上鳳毛麟角,大家都在爭取。

上述是從事搜索十餘年總結的一點經驗,歡迎大家一起探討。

本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/soso_blog/archive/2010/07/01/5706555.aspx

本文由《純淨天空》出品。文章地址: https://vimsky.com/zh-tw/article/108.html,未經允許,請勿轉載。