時間:2010-05-01 點擊: 次 來源:互聯網 作者:佚名 - 小 + 大
索引擎的難點包括如下幾點: 2) 采集的數據還要有一個排重的過程. 只需要采集一個網站更新的數據 3) 對于需要cookie數據的網頁如何采集的問題,部分網站需要通過cookie數據登陸網站 4) 自動通過識別碼的驗證 5) 一些網站對于密集訪問的請求會拒絕,技術上也要進行處理 6) 對于一些特殊網頁的采集問題, 比如flash網頁,一些游戲網頁等,很多網站會讓采集程序陷入其中,采集數萬無效數據,顯然是浪費了采集程序的精力 7) 大數據量的存儲也是個難點,據說Google的存儲是自己開發的架構,沒用任何的數據庫,因為數據庫的查詢效率還是有一定損失. 可以采用數據塊的模式,然后通過散列表的模式連接. 以上主要列出的是后臺采集器的相關技術難點,在前臺檢索、查詢效率等方面仍有許多難點. |
上一篇:淺析一個網站的命運是由何決定的