啊~嗯~用力~啊~啊~~动态图_gogo亚洲肉体艺术照片9090_公厕偷拍直男撒尿全集_女攻男受肉文

全國服務熱線:400-080-4418

您現在的位置是:首頁 > 新聞資訊 > 網站建設常識

怎樣避免網站頁面被蜘蛛重復的抓取2011/12/25 14:10:27 瀏覽:63

我們要如何避免網站頁面被蜘蛛重復的抓取呢?下面上海網站建設給大家介紹幾點。

   一、通過robots文件來把這個頁面來屏蔽掉,具體做法語法格式:

  Disallow: /page/ #限制抓取Wordpress分頁如查你的網站有需要也可以把下面的語句一并寫上,避免出現過多的重復頁面。 * Disallow: /category/*/page/* #限制抓取分類的分頁 * Disallow:/tag/ #限制抓取標簽頁面 * Disallow: */trackback/ #限制抓取Trackback內容 * Disallow:/category/* #限制抓取所有分類列表 什么是蜘蛛,也叫爬蟲,其實是一段程序。這個程序的功能是,沿著你的網站的URL一層層的讀取一些信息,做簡單處理后,然后返饋給后臺服務器進行集中處理。我們必需了解蜘蛛的喜好,對上海網站優化才能做到更好。接下來我們談談蜘蛛的工作過程。

  二、蜘蛛的時間

  網站的內容經常變化的,不是更新就是改模板。蜘蛛也是不斷地更新和抓取網頁的內容,蜘蛛的開發者會為爬蟲設定一個更新周期,讓其按照指定的時間去掃描網站,查看對比出哪些頁面是需要進行更新工作的,諸如:主頁的標題是否有更改,哪些頁面是網站新增頁面,哪些頁面是已經過期失效的死鏈接等等。一個功能強太的搜索引擎的更新周期是不斷優化的,因為搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。不過如果更新周期過長,便會使搜索引擎的搜索精確性和完整性降低,會有一些新生成的網頁搜索不到;若更新周期太過于短,則技術實現難度加大,而且會對帶寬、服務器的資源造成浪費,所以網站做好后期的網站維護很重要。

  三、蜘蛛遇到動態頁面

  蜘蛛在處理動態網頁信息是面臨的難題。動態網頁,是指由程序自動生成的頁面。現在互聯網發達程序開發腳本語言越來越多,自然開發出來的動態網頁類型也越來越多,如jspaspphp等等一些語言。蜘蛛很難處理這些腳本語言生成的網頁。優化人員在優化的時候,總是強調盡量不要采用JS代碼,蜘蛛要完善處理這些語言,需要有自己的腳本程序。在進行網站優化,減少一些不必要的腳本代碼,以便蜘蛛爬行抓取,少導致page頁面的重復抓取!

  四、蜘蛛不重復抓取策略

  網站的網頁數量非常大,蜘蛛進行抓取是一個很大的工程,網頁的抓取需要費非常多線路帶寬、硬件資源、時間資源等等。如果經常對同一個網頁重復抓取不但會大大的降低了系統的效率,還造成精確度不高等問題。通常的搜索引擎系統都設計了不重復進行上海網頁設計抓取的策略,這是為了保證在一定時間段內只對同一個網頁進行一次抓取。

服務網絡

關于我們

網至普專注于網站建設/網站優化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創造更大的價值,讓客戶更省心!立足上海,服務全國。服務:上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無錫等地

查看更多 >>

聯系我們

Copyright 2008 © 上海網至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網安備 31011402007386號


關于我們 | 聯系我們 | 網站建設

返回頂部