黃金屋首頁| 總點擊排行| 周點擊排行| 月點擊排行 | 總搜藏排行 繁體中文版| 收藏黃金屋| 設為首頁
 
黃金屋中文,黃金書屋 黃金屋中文,黃金書屋
首 頁 手機版 最新章節 玄幻·奇幻 武俠·仙俠 都市·言情 歷史·軍事 游戲·競技 科幻·靈異 全本·全部 移動版 書架  
  文章查詢:         熱門關鍵字: 道君 大王饒命  神話紀元  飛劍問道  重生似水青春  
黃金屋中文 >> 傳奇1997  >>  目錄 >> 第四十六章 搜索引擎的研發

第四十六章 搜索引擎的研發

作者:狂花非葉  分類: 都市 | 都市生活 | 狂花非葉 | 傳奇1997 | 更多標簽...
 
請記住本站域名: 黃金屋

傳奇1997 第四十六章 搜索引擎的研發

隋波安撫好了左清泉之后,也答應她,等考試周之后,會讓她負責一些相對輕松的工作。

比如公司現在還沒有專門的行政部門。

可以讓她和張軒兩個人先組成CEO辦公室,兼管公司內部行政綜合事務,像法務、公關、后勤、文件報告匯總之類的事情。

這也是一種鍛煉。

可以從這些內部的職能工作,讓他們全面的熟悉和理解公司正規化運作的流程和模式。

等左清泉離開之后,隋波想了想,還是覺得應該去看看王川團隊的研發進展。

隨著這段時間各項目展開,無論是龐勇還是周楓、王川他們都覺得技術力量不夠,又各自從學校里拉了一些同學進入團隊,整個技術團隊擴張的很快。

當時隋波在外地,就讓左清泉去找了趙寧,把公司隔壁的兩間辦公室也都租了下來。

周楓、許朝軍帶領的校內網開發團隊和王川帶領的搜索引擎研發團隊,都從原來的辦公室分了出來,易趣那個辦公室里只留了電商團隊。

新業務的研發團隊分別在兩個新辦公室里閉關。

一推開門,隋波有些驚訝的看到,不大的房間里,中間是一張長桌,長桌上一個緊挨一個的擺放著十幾臺電腦,將長桌擠得滿滿的。

一幫少年們頭發亂糟糟,眼圈發黑,眼睛發光的盯著電腦屏幕,渾然忘我的噼里啪啦敲打著鍵盤。

桌上的電腦之間就算稍微有點空隙,也都擺滿了方便面火腿腸之類的速食品。

要不是那些電腦屏幕上,顯示的一行行代碼,簡直就是一個小型黑網吧的現場!

王川坐在最靠里的一臺電腦前,眉頭緊鎖,盯著屏幕,似乎正在思索什么難題。

別看這個場面,看起來好像是一群泡吧的頹廢網癮少年。

隋波可是清楚,這幫少年們都是計算機天才!

王川直接從學校里拉了不少水木計算機國家集訓隊的隊友來,組成項目團隊攻關搜索引擎!

隋波想了想,回去找左清泉。

讓她找附近的餐廳預訂每天的飯菜,送到公司來,再買幾箱飲料、咖啡、面包餅干之類的小食品,放到幾個研發團隊的辦公室里。

估計不僅王川團隊,龐勇、周楓他們那兒也都一樣。

這幫技術男們敲起代碼來,都是沒日沒夜的。

沒有打擾其他人的工作,他悄悄把王川叫出來,在自己辦公室里,和他專門交流研發情況。

目前搜索引擎項目最大的困難在于,沒有可供參考的對象。

雖然可以參考一些國外的資料和論文,但因為涉及到一些核心技術,是無法通過網絡查找到的,都需要自行開發。

隋波點頭表示同意。

這個時候Google還不存在呢,要到9月份的時候,布林和佩奇才會在加州一個車庫里開始創業。

百度更是沒影的事兒,老李還在搜信里混呢。

現階段,無論是國外的Lycos、AltaVista、Infoseek(搜信),雅虎搜索引擎;還是國內搜狐推出的所謂全中文搜索引擎,都還是以人工分類目錄為主的網站檢索服務。

說是搜索引擎,其實更像是目錄導航網站……

盡管其中一些搜索引擎已經有了網頁關鍵詞檢索、用戶量排序等一些創新,但本質上,還是需要大量的人工編輯的目錄式搜索引擎(Directory Search Engine)。

而隋波希望王川團隊開發的,則是全新的,通過技術程序,自動在互聯網上通過超網頁進行全文檢索的機器人搜索引擎(Robot Search Engine)。

這樣的話,就需要從頭做起,開發一整套完整的技術體系。

其中包括網絡爬蟲(Web Crawler)服務、索引服務、緩存服務、日志服務等幾大模塊,各模塊之間互相影響,構成了整個搜索引擎體系。

從開發量上,技術難度是遠遠大于目錄式檢索技術的。

首先說網絡爬蟲,也稱網絡蜘蛛(Web Spider),這項技術是基于Web的自動化瀏覽程序,通過網頁(URL),爬蟲不斷的通過互聯網中獲得新的網頁數據,下載頁面數據形成后臺數據庫。

可以說,網絡爬蟲抓取數據是搜索引擎工作流程的第一步。

爬蟲的體系架構直接關系到搜索引擎每天數據的采集量,而抓取策略則關系到搜索結果的數據質量,數據的更新策略則關系到系統資源的利用率。

這只是第一步,采集了大量數據信息之后,還需要通過自然語言處理(NLP),將文本信息分解為結構化數據和價值性數據。

這里面就又存在一個問題,目前國外的搜索引擎都是英文分詞,而中文比較特殊,最小單位是字,但具有語義的最小單位是詞。

所以,在中文分詞這一部分,就需要技術團隊單獨進行開發。

通過建立詞庫、采用條件隨機概率分布模型、詞性標注、語義相似度、已存句法分析、情感傾向分析等,通過各種模型判斷,讓程序理解抓取到的關鍵詞中文的語義,才能提高搜索的準確性和查全率。

這還只是其中比較小的開發困難。

比如,搜索引擎的核心就是通過海量數據抓取后的快速檢索,而抓取的數據越多,當龐大的數據存儲在數據庫里,就需要構建快速存取數據的分布式存儲架構。

再比如,為了讓用戶在最短的時間內獲得想要的搜索結果,就需要后臺系統不斷的執行數據抓取和建立索引等操作。

這就需要建立分布式實時計算系統,以及對索引結構的構建……

王川估計也是最近開發中有些郁悶了,一說起來就滔滔不絕。

隋波雖然不太懂他說的一些技術術語,但畢竟前世作為用戶也使用了20多年的搜索引擎,接觸的多了,也了解一些基本的知識。

他安靜的聽著王川不斷的講述團隊面臨的一個個困難,又是怎么想辦法克服的。

不時提問兩句,顯得聽的很認真。

腦子里卻不斷的在回憶,當初Google和百度是有哪些創新的舉措,才一舉成功的?

印象最深的,就是那句“百度更懂中文”,這應該就是剛才王川所提的中文分詞了,這塊王川已經考慮到了。

至于是不是更進一步,先弄個智能輸入法出來?……

現在團隊的研發壓力已經很大了,暫時先略過不提。

還有就是百度快照,不過好像這個功能雖然對用戶而言很有價值,但爭議很大……

還有就是Google獨創的PageRank技術。

這是一種根據網頁之間的結構來評價判斷網頁重要性的排序算法。

想到這里,隋波就提了一下,是否在搜索結果的排序算法上,可以采用這種模式?

從網頁的數量、權威性、主題相關性、網頁內容的匹配性等多個方面,綜合分析,進行搜索結果的排序。

王川聽了以后若有所思:“這個算法我回去研究一下,應該沒問題。”

隋波笑道:“技術上我沒辦法給你太大的幫助,不過我可以從公司激勵政策和后勤上為團隊鼓勁!

你回去和大家說一下,搜索引擎項目的團隊項目獎金定在10萬,而且根據每個人的表現,到時候還有個人獎勵。

我已經讓清泉給你們做好后勤,每天會定時讓樓下餐廳送飯菜過來。

另外給你們弄一個休息間,里面準備好啤酒、咖啡、飲料和小吃,保證供應。

嗯……,再讓她給你們辦公室里配一個沙發,大家累了可以躺下休息一會。

王川,這個項目將會是公司除了電商平臺,最核心的業務,還要你多辛苦了!”

王川點頭,一臉的倔強:“波總,你放心,我有信心把這個搜索引擎搞出來!實際上每當解決一個技術難題,大家的那種快樂都是無法言表的,公司又給我這么大的支持力度,我一定全力以赴!”

隋波拍拍他的肩膀:“我相信你,你也別著急,和團隊成員要勞逸結合,注意休息,別搞壞了身體,我們還有足夠的時間來成長!”


請記住本站域名: 黃金屋

快捷鍵: 上一章("←"或者"P")    下一章("→"或者"N")    回車鍵:返回書頁
上一章  |  傳奇1997目錄  |  下一章
手機網頁版(簡體)     手機網頁版(繁體)
瀏覽記錄

字母索引: A |  B |  C |  D |  E |  F |  G |  H |  J |  K |  L |  M |  N |  P |  Q |  R |  S |  T |  W |  X |  Y |  Z


頁面執行時間: 0.0114258