西安力洋網站建設

西安力洋網絡
  • 怎么建設一個符合優化的網站

  • 發布者:本站 發布時間:2018/8/21 9:41:13
  • 如何正確識別 Baiduspider 移動 ua

    另外需要強調的是,對于 robots 封禁,如果封禁的 agent 是 Baiduspider,會對 PC 和移動同時生效。即,無論是 PC 還是移動 Baiduspider,都不會對封禁對象進行抓取。之所以要強調這一點,是發現有些代碼適配站點(同一個 url,PC ua 打開的時候是 PC 頁,移動 ua 打開的時候是移動頁),想通過設置 robots 的 agent 封禁達到只讓移動 Baiduspider 抓取的目的,但由于 PC 和移動 Baiduspider 的 agent 都是 Baiduspider, 這種方法是非常不可取的。

    如何識別百度蜘蛛

    百度蜘蛛對于站長來說可謂上賓,可是我們曾經遇到站長這樣提問:我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?其實站長可以通過 DNS 反查 IP 的方式判斷某只 spider 是否來自百度搜索引擎。根據平臺不同驗證方法不同,如 linux/windows/os 三種平臺下的驗證方法分別如下:

    1. 在 linux 平臺下,您可以使用 host ip 命令反解 ip 來判斷是否來自 Baiduspider 的抓取。Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。 

    2. 在 windows 平臺或者 IBM OS/2 平臺下,您可以使用 nslookup ip 命令反解 ip 來 判斷是否來自 Baiduspider 的抓取。打開命令處理器 輸入 nslookup xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 來判斷是否來自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。

    3. 在 mac os 平臺下,您可以使用 dig 命令反解 ip 來 判斷是否來自 Baiduspider 的抓取。打開命令處理器 輸入 dig xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 來判斷是否來自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。

    Baiduspider IP 是多少

    即便很多站長知道了如何判斷百度蜘蛛,仍然會不斷地問 “百度蜘蛛 IP 是多少”。我們理解站長的意思,是想將百度蜘蛛所在 IP 加入白名單,只準白名單下 IP 對網站進行抓取,避免被采集等行為。

    但我們不建議站長這樣做。雖然百度蜘蛛的確有一個 IP 池,真實 IP 在這個 IP 池內切換,但是我們無法保證這個 IP 池整體不會發生變化。所以,我們建議站長勤看日志,發現惡意蜘蛛后放入黑名單,以保證百度的正常抓取。

    同時,我們再次強調,通過 IP 來分辨百度蜘蛛的屬性是非常可笑的事情,所謂的 “沙盒蜘蛛”“降權蜘蛛” 等等是從來都不存在的。

    robots 寫法

    robots 是站點與 spider 溝通的重要渠道,站點通過 robots 文件聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用 robots.txt 文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立 robots.txt 文件。

    robots 文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以 CR,CR/NL, or NL 作為結束符),每一條記錄的格式如下所示: <field>:<optional space><value><optionalspace>

    在該文件中可以使用#進行注解,具體使用方法和 UNIX 中的慣例一樣。該文件中的記錄通常以一行或多行 User-agent 開始,后面加上若干 Disallow 和 Allow 行 , 詳細情況如下:

    最后需要說明的是:百度會嚴格遵守 robots 的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對 robots 中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則 robots 協議無法生效。

    robots 需求用法對應表

    上面說了那么多理論,有沒有簡單對照表格告訴我,怎樣的需求場景下應該怎樣撰寫 robots 文件?有的:

    除 robots 外其它禁止百度收錄的方法

    Meta robots 標簽是頁面 head 部分標簽的一種,也是一種用于禁止搜索引擎索引頁面內容的指令。目前百度僅支持 nofollow 和 noarchive

    使用 robots 巧妙避免蜘蛛黑洞

    對于百度搜索引擎來說,蜘蛛黑洞特指網站通過極低的成本制造出大量參數過多、內容類同但 url 不同的動態 URL ,就像一個無限循環的 “黑洞 “,將 spider 困住。spider 浪費了大量資源抓取的卻是無效網頁。

    如很多網站都有篩選功能,通過篩選功能產生的網頁經常會被搜索引擎大量抓取,而這其中很大一部分是檢索價值低質的頁面。如 “500-1000 之間價格的租房”,首先網站(包括現實中)上基本沒有相關資源,其次站內用戶和搜索引擎用戶都沒有這種檢索習慣。這種網頁被搜索引擎大量抓取,只能是占用網站寶貴的抓取配額,那么該如何避免這種情況呢?

    1. 我們以北京美團網為例,看看美團網是如何利用 robots 巧妙避免這種蜘蛛黑洞的:
    2. 對于普通的篩選結果頁,使用了靜態鏈接,如:
      http://bj.meituan.com/category/zizhucan/weigongcun
    3. 同樣是條件篩選結果頁,當用戶選擇不同排序條件后,會生成帶有不同參數的動態鏈接,而且即使是同一種排序條件(如:都是按銷量降序排列),生成的參數也都是不同的。如:
      http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
      對于美團網來說,只讓搜索引擎抓取篩選結果頁就可以了,而各種帶參數的結果排序頁面則通過 robots 規則拒絕提供給搜索引擎。在 robots.txt 的文件用法中有這樣一條規則:Disallow: /? ,即禁止搜索引擎訪問網站中所有的動態頁面。美團網恰是通過這種方式,對 spider 優先展示高質量頁面、屏蔽了低質量頁面,為 spider 提供了更友好的網站結構,避免了黑洞的形成。

    禁止百度圖片搜索收錄某些圖片的方法

    目前百度圖片搜索也使用了與百度網頁搜索相同的 spider,如果想禁止 Baiduspider 抓取網站上所有圖片、禁止或允許 Baiduspider 抓取網站上的某種特定格式的圖片文件可以通過設置 robots 實現:
    | | | --- | --- 禁止 Baiduspider 抓取網站上所有圖片 , 僅允許抓取網頁,禁止抓取任何圖片。| User-agent: Baiduspider Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.gif$; Disallow: /.jpg$; Disallow: /*.bmp$;

    僅允許 Baiduspider 抓取網頁和 .gif 格式圖片 , 允許抓取網頁和 gif 格式圖片,不允許抓取其他格式圖片| User-agent: Baiduspider; Allow: /.gif$; Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.jpg$; Disallow: /*.bmp$;

    僅禁止 Baiduspider 抓取 .jpg 格式圖片|User-agent: Baiduspider;Disallow: /*.jpg$

    503 狀態碼的使用場景及與 404 的區別

    Html 狀態碼也是網站與 spider 進行交流的渠道之一,會告訴 spider 網頁目前的狀態,spider 再來決定下一步該怎么做——抓 or 不抓 or 下次再來看看。對于 200 狀態碼大家已經很熟了,那么我們來介紹幾種常見的失效網頁使用的狀態碼:

    一些網站把未建好的頁面放到線上,并且這些頁面在被百度抓取的時候返回碼是 404,于是頁面被百度抓取后會被當成死鏈直接刪除。但是這個頁面在第二天或者過幾天就會建好,并上線到網站內展現出來,但是由于之前已經被百度當做死鏈刪除,所以要再次等這些鏈接被發現,然后抓取才能展現,這樣的操作最終會導致一些頁面在一段時間內不會在百度出現。比如某個大型門戶網站爆出大量新聞時效性很強的專題未被百度及時收錄的問題,經檢查驗證后發現就是因為頁面未建成就放置在線上,并返回 404 狀態碼,被百度當成死鏈刪除,造成收錄和流量損失。

    對于這樣的問題,建議網站使用 503 返回碼,這樣百度的抓取器接到 503 返回碼后,會在隔一段時間再去訪問這個地址,在您的頁面建好上線后,就又能被重新抓取,保證頁面及時被抓取和索引,避免未建好的內容設為 404 后帶來不必要的收錄和流量損失。

    其它建議和總結:

    1. 如果百度 spider 對您的站點抓取壓力過大,請盡量不要使用 404,同樣建議返回 503。這樣百度 spider 會過段時間再來嘗試抓取這個鏈接,如果那個時間站點空閑,那它就會被成功抓取了
    2. 如果站點臨時關閉或者頁面暫未建好上線,當網頁不能打開時以及沒有建好時,不要立即返回 404,建議使用 503 狀態。503 可以告知百度 spider 該頁面臨時不可訪問,請過段時間再重試。

    連通率為 0 的前因后果及預防補救措施

    在百度 site 站點時,遇到 “連通率為 0” 說明 Baiduspider 在訪問站點時發現了問題,該問題非常嚴重,如果 Baiduspider 持續一天時間無法訪問有可能給站點帶來災難性的損失。

    一、何謂連通率

    既然為率,那么就是一個統計相關概念。我們不妨可以這樣理解一個網站的連通率:百度蜘蛛在抓取網站頁面的時候計算的一個概率,比如它抓取某網站中的 N 個頁面,這 N 個頁面都能打開并被蜘蛛成功抓取,這樣的連通率就是 N/N=100%,反之蜘蛛抓取 N 個頁面有 M 個頁面能成功抓取,連通率就是 M/N

    這里先說明幾個常識:

    1. 不是網站被某算法懲罰而導致連通率為 0,也不是網站流量下降而導致連通率數值很低;
    2. 連通率代表著百度蜘蛛獲取網站數據的情況,如果連通率數值很低或為 0,那么可能連維持網站的正常收錄等都成問題;
    3. 假如網站被判定連通不了,那么如果讓一個連通不了的站點在百度中獲取排名,就會大大影響搜索用戶的體驗,于是百度就會采取對該站點有效引流的索引清除操作,一些站長就會發現自己的網站索引量突然大幅度下降,甚至索引被短暫清 0 了,接著就是網站百度搜索流量大幅度下降,這種突發性的事件又會造成站長們的揣測,以為自己的網站被百度懲罰了,其實站長們先應該注意的是站點的連通情況。

    二、提取核心詞

    上述概念中,我們需要注意的幾個詞有:” 百度蜘蛛”; ” 在抓取”; ”N 個頁面”; ”M 個頁面”; ” 都能打開并被成功抓取”。

    三、連通率很低或為 0 時

    我們抓住上述 5 個提取出的核心詞進行分析。

    (一)百度蜘蛛

    1. 謹防百度蜘蛛訪問被操控或禁止
    2. 由于百度蜘蛛的抓取量等原因對一些服務器造成壓力,而這些網絡商或網站運營方從某利益角度考慮,無意或有意的屏蔽百度蜘蛛,導致部分或全部百度蜘蛛 ip 獲取不到網站數據;
    3. 一些網站運營方或網絡商對蜘蛛進行區別對待,比如國外蜘蛛 ip、山東蜘蛛 ip、北京蜘蛛 ip 等返回不同的數據,移花接木的手段層出不窮,而這個過程很可能造成百度蜘蛛的異常行為或異常狀態返回;

    所以我們首先要確保百度蜘蛛的訪問有沒有被操控或禁止。

    1. 預防措施
    2. 完善聯系方式獲得百度站長工具消息提醒
       雖然一些網站異常情況會收到百度站長工具消息提醒,然而我想告訴大家不是所有自己站點異常都可以寄希望于消息提醒的,自己心里要知道連發郵件都可能出現收不到的情況,更何況各種復雜的異常情況,因此不要出問題了只會問 “為什么站長工具沒有給我發消息”。

    3. 利用抓取異常和抓取頻次工具觀察抓取情況
      ↓抓取異常工具的網址異常情況

    ↓抓取頻次工具的抓取統計情況



    ↓每個工具頁面的右側下方都有使用說明,如下


    (3)抓取診斷工具是重中之重


    為了保證網站對百度蜘蛛的穩定訪問性能,日常我們需要養成定期抓取診斷的習慣,另外抓取診斷不是說光看看狀態是否 “抓取成功” 就行了。有下面幾步進行:


    特別說明:有很多站長就光注意抓取成功,卻不知網站 ip 可能并非自己的實際 ip,被網絡商搞到哪里去了都不知道,還可能每隔一段時間都變。當發現 ip 有問題,及時跟網絡商溝通,并在網站 ip 旁點擊 “報錯” 按鈕,百度會更新網站 ip,但是切記不要 ip 變化頻繁。此外當然還可能出現實際抓取網址、頭部信息、網頁源碼等都不是自己本來設置的。

    (二)在抓取

    這是反映百度蜘蛛在抓取時的狀態,百度的工具顯示的數值肯定都是抓取后計算出來的數據,因此任何工具的連通率數據必定存在延遲性,另外這個計算過程也存在一定可能的錯誤,所以我們看到任何工具中關于連通率的數據,不要說 “我網站用抓取診斷等工具檢查訪問情況都好好的,為什么連通率還是 0”,因此除了上述建議的多抓取診斷測試外,自己可以加些監控網站連接狀態的措施,筆者本人就曾經接收了不少關于網站連接不通的提醒。這時我會及時跟網絡商溝通,然后及時用抓取診斷檢查蜘蛛的情況。

    (三)N 個頁面與 M 個頁面

    這 N、M 個頁面,可能百度蜘蛛很湊巧就趕上高峰的時候或者一些假死頁面(執行時間較長,超過蜘蛛的耐心),那么 M 這個數值就會很低,統計概率的東西大家都懂的,那么這時網站的連通率依舊很低或為 0。因此若連通率為 0,我們還可以知道自己應該注意查看訪問日志,及時清理死鏈,或者并發連接數增大,或者增加內存等等。

    (四)都能打開并被成功抓取

    這里主要注意 DNS 和空間的穩定性。

    1. DNS 的問題 參考當心 dns 服務器不穩導致站點被屏

    提醒大家注意的是現在不少云類 ns 服務器,這個過程中由于處理機制問題,包括回源障礙等等,較容易造成這個問題。另外國內大型服務商提供,比如你使用了 dnspod,并不代表你的 dns 就應該是 ok 的。有的站長存在著對大型服務商的錯誤認識,如 “新網的 dns 就是不可靠的,我都用百度云加速”。我們要明白廉價的東西質量都有一定局限性,所以需要自己檢查 dns 解析情況,具體上網找找相關資料或平臺,看看 dns 解析出的 ip 以及解析延遲情況等等。

    1. 空間的穩定性 很多人都會用超級 ping 了,這個不多說了。但是我還要告訴大家有下面兩點需要注意:
    2. A、不良的網絡商會對不同用戶 ip 進行不同處理,自己可以用 vpn 等工具觀察下不同地區 ip 段的網站訪問情況與返回內容;
    3. B、空間的資源不足,內存、并發連接等等,當訪問量很少的時候,自己察覺不出,需要提高訪問量,增加連接時間。因此使用一些監控工具時,發現監控工具訪問測試量巨大,或者被人刷流量時,你應該慶幸,而不是著急拒絕,因為你可以了解到自己的空間承壓能力。

    四、連通率問題處理完畢后

    如果你的網站索引由于連通率而非懲罰原因被清理了,處理完畢問題,可以在抓取頻次工具中提交增加抓取頻次的請求,將抓取頻次增加到一定額度(建議自己查看工具中對抓取頻次的說明后再根據網站實際情況調整),然后增加自己的網站數據更新頻率與質量,加強與百度的數據溝通(如 url 提交、sitemap 等等),很快就能恢復。相關工具展示如下(每個工具頁面的右側下方都有相關說明鏈接,可以點擊去了解使用注意事項):

    1. 抓取頻次中的頻次調整工具:

    2. 鏈接提交工具:

    3. 鏈接提交工具中的主動推送、sitemap、手動提交方式:

    https 站點如何做才能對百度友好

    2015 年 5 月 25 日,百度站長平臺發布公告,宣布全面放開對 https 站點的收錄,https 站點不再需要做任何額外工作即可被百度抓收。采用了本文之前建議的 https 站點可以關閉 http 版,或者將 http 頁面跳轉到對應的 https 頁面。

    百度搜索引擎目前不主動抓取 https 網頁,導致大部分 https 網頁無法收錄。但是如果網站一定要使用 https 加密協議的話該如何做到對百度搜索引擎友好呢。其實很簡單:

    1. 為需要被百度搜索引擎收錄的 https 頁面制作 http 可訪問版。

    2. 通過 user-agent 判斷來訪者,將 Baiduspider 定向到 http 頁面,普通用戶通過百度搜索引擎訪問該頁面時,通過 301 重定向至相應的 https 頁面。如圖所示,上圖為百度收錄的 http 版本,下圖為用戶點擊后會自動跳入 https 版本。

    1. http 版本不是只為首頁制作,其它重要頁面也需要制作 http 版本,且互相鏈接,切不要出現這種情況:首頁 http 頁面上的鏈接依然鏈向 https 頁面,導致 Baiduspider 無法繼續抓取——我們曾經遇到這種情況,導致整個網點我們只能收錄一個首頁。如下面這個做法就是錯誤的:http://www.abc.com/ 鏈向 https://www.adc.com/bbs/

    2. 可以將部分不需要加密的內容,如資訊等使用二級域名承載。比如支付寶站點,核心加密內容放在 https 上,可以讓 Baiduspider 直接抓取的內容都放置在二級域名上。

    站點切換 https 不會對流量產生負面影響

    禁止百度保留快照的代碼:noarchive

    很多站點出于隱私的考慮不希望百度保留快照,網上也在討論如何禁止百度保留快照的方法。其實百度早已對此有過說明,但藏在一篇不起眼的文章中不引人注目,導致依然非常多的人不清楚該如何操作。上周恰好又有人問到這個問題,特意進行說明。

    要防止所有搜索引擎顯示您網站的快照,請將此元標記置入網頁的

    部分:<meta name="robots" content="noarchive">

    要允許其他搜索引擎顯示快照,但僅防止百度顯示,請使用以下標記:<meta name="Baiduspider" content="noarchive">

    注:此標記只是禁止百度顯示該網頁的快照,并不會影響網頁建入索引,同時垃圾網頁也不可能依靠此手段逃避百度的判罰。

    買賣鏈接對站點的危害

    眾所周知,搜索引擎會對站點獲得鏈接的數量和質量進行分析,從而做出對網站的評價,最終影響站點在搜索結果中的表現。在搜索引擎看來,站點的鏈接質量比數量更為重要,然而愈演愈烈的鏈接買賣風潮,已經開始威脅到搜索引擎的公正性。為此百度質量團隊推出了綠蘿算法對買賣鏈接行為進行打擊。

    搜索引擎認為站點每發出一個鏈接指向另一個站點,都是一次投票行為,請您珍惜每一次投票的權力,而不是將這個權力出售,更不應該打包賣給鏈接中介公司。如果搜索引索發現站點有出售鏈接的行為,則會影響到站點在搜索引擎系統中的整體表現。對于廣告類的鏈接,請您使用nofollow屬性進行設置。除不出售鏈接外,您還應該關注建站程序的安全更新,及時安裝補丁程序;經常對網站發出的鏈接進行檢查,看是否有多余的、非主觀意愿存在的鏈接,以免站點在不知情的情況下被黑帽SEO添加鏈接。

    建議您不要企圖求助于黑帽SEO和鏈接中介公司,他們很有可能使用極不正當的手段令站點在短時間內獲得一定效果,但是搜索引擎有專門的程序去識別各種手段和行為,一旦被發現,站點會無法得到預期的效果,甚至被搜索引擎懲罰處理。最后,希望各位站長放眼于長遠的未來,不要為眼前的蠅頭小利所迷惑。將精力放在在自身內容和品牌建設上,拓展更多良性發展的盈利模式。

    內鏈建設的大忌

    在《百度搜索引擎工作原理》課程中我們提到過,Baiduspider需要知道站點里哪個頁面更重要,其中一個渠道就是內鏈。那么內鏈建設有哪些大忌呢:

    死循環鏈接:死循環鏈接是搜索引擎蜘蛛最郁悶的事情了,往往會把搜索引擎蜘蛛卡在一個角落中,無限的循環而走不出來,不僅白白浪費蜘蛛體力,也會占用網站大量爬取頻率,造成有價值的網頁抓取不全。比如萬年歷等非常實用的工具網站,很多時候這些工具你都可以無限的點擊,每次點擊都產生一個新的url,如果你沒有屏蔽蜘蛛爬取這些內容,那么蜘蛛有可能會被帶入到一個無限循環的境地,這樣的做法對任何一個搜索引擎都是不友好的。
    還有一種就是動態、帶“?”號的url。這是由于動態網站的一個動態文件(如.php)可以產生上萬個或者無數個鏈接,如果部分php文件內部又再次鏈向自己。蜘蛛進去就很難再爬出來。

    鏈接404后不消除內鏈入口:頁面404后,除了需要向百度站長平臺提交外,應該盡量關閉其在網站內部的入口,一來死鏈對用戶的傷害是極大的,二來避免令蜘蛛產生錯覺,認為你網站死鏈嚴重。

    只有入鏈沒有出鏈:有些人認為網頁上的出鏈太多會分散頁面本身的得分,所以在重要頁面上不設計出鏈,實際這與百度的認知是相悖的,百度認為一個優質的網站結構應該像一張網,所有頁面都會與其他頁面產生鏈接,蜘蛛會順著一個頁面遍歷所以頁面。只有入鏈而沒有出鏈的結構對蜘蛛來說是不友好的。當然,整個網站僅一兩個網頁只有入鏈沒有出鏈是無所謂的,但數量千萬不要多。

    無返回上級目錄的鏈接:我們提倡盡量在每個頁面上使用面包屑導航,以告訴搜索引擎頁面內容與首頁的關系及距離;同時對于用戶來說,面包屑導航也是延長用戶平均訪問時長的重要工具。只有內容而沒有返回上級目錄的頁面就像一本永遠無法訪問目錄的書,聽起來是不是怪怪的?

    錯誤的錨文本:內鏈的作用并不僅僅是頁面權值傳遞和內部投票,百度還會通過錨文本輔助判斷網頁的內容,錯誤的錨文本很可能會誤導百度對于相關性的計算,對搜索排序產生負面影響。同時對于只能通過錨文本來判斷是否要點擊打開新網頁的用戶來說,無疑也是一種傷害。

    網站應該拒絕哪些外鏈

    百度搜索引擎雖然降低了對超鏈的依賴,但依然沒有放棄對不同質量鏈接的識別,制定了一套針對優質外鏈、普通外鏈、垃圾外鏈、作弊外鏈的識別原則和方法。在繼續信任優質外鏈的同時,加大對作弊外鏈的打擊,同時對部分作弊外鏈的受益站點進行打擊。為了避免被百度搜索引擎懷疑為超鏈作弊,建議站長定期檢查站點的外鏈情況,發現異常及時通過百度站長平臺的拒絕外鏈工具進行自我保護。同時如果你之前有過購買鏈接、群發外鏈的行為,可以通過拒絕外鏈工具進行修正。

    那么除了要拒絕被黑網頁發出的鏈接、買來的鏈接外,還有哪些鏈接應該被拒絕呢。

    使用拒絕外鏈工具還有一些注意事項:

    網站改版該如何通知百度

    為了改變站點運營效果,部分站長會選擇對網站進行改版。百度站長平臺站在搜索引擎的角度給站長朋友一些建議:首先站長們應該明確,網站只要發生大大的變化(如換域名、子目錄改版為二級域名等),流量就會受到損失;其次,百度站長平臺會幫助站長盡量將損失降到最低。請站長依次走完以下步驟以減少損失。

    網站換空間(IP)該如何通知百度

    在與站長朋友私下交流中,站長表示:最怕改版,最怕換空間換IP,每次都是萬不得已身不由己。改版還好些,有改版工具可以使用。換了空間和IP都不知道怎么通知百度。其實,登錄百度站長平臺,使用抓取診斷工具,換空間和IP真的不是愁事。
    抓取診斷工具會檢查站點與百度的連接是否暢通,若站長發現IP信息還是老舊的,可以通過“報錯”通知百度搜索引擎更新IP,如下圖所示:


    重要提示:由于spider精力有限,如遇報錯后網站IP依舊沒有變化,站長可進行多次嘗試,直至達到預期。

    UGC站點如何進行防護工作

    由于大多數UGC建站系統存在漏洞,攻克技術成本較低,且群發軟件價格低廉,容易被作弊者利用,近期我們發現大量UGC站點被群發的垃圾信息困擾。這些垃圾群發內容無孔不入,除論壇、博客等傳統的UGC站點受到困擾外,現已蔓延到微博、SNS、B2B商情頁、公司黃頁、分類信息、視頻站、網盤等更多領域內,甚至連新興的分享社區也受到了影響。從以前的論壇帖子、博客日志,擴展到供求信息頁、視頻頁、用戶資料頁,這些任何由用戶填寫和生成內容的地方,都會被作弊者發掘利用,形成大量的UGC性質的垃圾頁面。

    搜索引擎在發現UGC性質的垃圾頁面后必將做出相應應對,但對真正操作群發的作弊者很難有效的打擊,所以作弊者容易利用UGC站點極低成本且自身安全這些特點,做出更多危害網站、危害用戶、危害搜索引擎的行為。若網站自身管理不嚴控制不力,很容易成為垃圾內容的溫床;有些網站為了短期流量而對垃圾內容置之不理,這無異于飲鴆止渴。網站不應僅僅是平臺的提供者,更應該是內容的管理者,積極維護網站自身質量非常重要。若網站任由垃圾內容滋長,不僅會影響網站的用戶體驗,同時也會破壞網站口碑和自身品牌建設,造成正常用戶流失,嚴重時,還會使搜索引擎降低對網站的評價。

    對于作弊者來說,在UGC站點上發布垃圾內容的目的就是被搜索引擎收錄,如果不能讓垃圾頁面在網站和搜索引擎上消失,他們依然會持續不斷地產生更多垃圾內容。百度站長平臺希望和站長一起打擊垃圾頁面,幫助網站良性發展,共同維護互聯網生態環境。

    一,UGC垃圾典型case

    二,UGC管理員該怎么做

    網站安全之防止被黑

    這里所說的被黑,指黑客通過網站漏洞篡改網頁內容、為網站惡意添加許多垃圾頁面,內容往往與博彩、游戲等熱門關鍵詞有關,然后利于網站在搜索引擎中的天然優勢騙取更多流量。互聯網上所有網站其實都存在被黑的可能,尤其是已在搜索引擎中獲得較好表現的站點更要注意,千萬不要讓被黑令自己的心血付之東流。

    一,如何判斷網站被黑

    先通過外界對網站進行觀察,如果有如下現象,那您的網站可能被黑了

    二,進一步驗證網站是否被黑

    通過上述方法站長懷疑自己的網站被黑了,那么該如何對黑出來的內容進行排查呢?

    【重要提示】若直接訪問網站時一切正常,但在百度的搜索結果展現了異常的快照內容,這可能是黑客做了特殊處理,只讓百度蜘蛛抓取到異常的頁面,以此來增加隱蔽性,讓站長難以發現;同理,若直接訪問網站正常,但從百度搜索結果頁進行訪問時,出現了異常頁面,這是黑客針對百度來源(refer)做了特殊處理

    三,網站被黑怎么辦

    網站安全之域名被劫持

    2014年5月14日,前瞻網官方微博發布公告,宣布域名被盜損失過億。在黑客遍行的今天,域名被盜被劫持幾乎每天都在發生。百度搜索引擎希望站長在關注收錄、流量、變現的同時,多多關注域名安全,畢竟域名安全是生存之本。在之前與站長接觸中,發現站長都有如下心理:域名控制權完全在服務商,我們處于被動的一方。那么站長就真的什么都不用做、什么都無法做了么?

    一,域名被劫持的嚴重后果

    1,域名被解析到其它地址,用戶無法正常訪問,網站流量受損 2,通過泛解析生成大量子域名,共同指向其它地址(往往是惡意垃圾網站) 3,域名被解析到惡意釣魚網站,導致用戶財產損失 4,當域名被劫持后的內容干擾搜索結果時,為保障用戶的使用體驗和安全,百度搜索引擎會暫時關閉對域名的收錄和展示,待嚴格審核確認后才會再度放開

    二,如何降低域名被劫持風險,減少損失

    三,域名被劫持后該怎么做

    其他

    關于網站建設,其實還有很多零碎的問題要注意,所以在這里單啟一篇,日后再根據反饋不斷補充完善。

    二級域名和子目錄,哪個更有利于SEO

    一,二級域名的特點

    搜索引擎往往將二級域名當作一個獨立的網站看待,同時會視情況將主域名的評價傳遞一部分給二級域名。使用二級域名會使同domain下站點變多,但是每個站點的體量變小。二級域名的SEO特點是:

    二,子目錄的特點

    將不同內容通過子目錄的情況放在同一個網站下,會使網站體量變得越來越大,可以使網站積累更多的投票:

    三,二級域名與子目錄的選擇

    選擇使用二級域名還是子目錄來分配網站內容,對網站在搜索引擎中的表現會有較大的影響,為此百度站長平臺建議:

    多域名同內容的常見問題

    網站在生存發展中會遇到很多問題,會因為各種原因產生不同的域名,而這些域名的內容卻都是相同的。百度一直在說拒絕重復內容,那么,多域名同內容是否會對SEO產生負影響呢?我們收集了眾多站長對多域名同內容的問題后,請百度spider專家做了統一解答,現公布出來供各站長參考。

    問:多個域名指向同一個域名算是作弊么?
    答:如果某公司從品牌保護或長遠發展角度出發,注冊了多個域名,且多域名301重定向指向一個常用域名,那此行為本身不屬于作弊。但是如果進行301重定向的多域名本身有作弊行為,那么被指向的域名有可能受到牽連。

    問:多個域名同內容是否有利于提高排名?
    答:此舉非常不利于提高排名,因為多個域名會分散原本應該屬于單獨域名的外鏈進而影響權重,不利于單獨域名獲得更好的排名。

    問:我們先推個測試域名,走上正軌后再啟用正式域名,會有什么影響嗎?
    答:如果兩個域名的內容完全一樣,對正式域名的收錄可能會有影響。搜索引擎會認為這兩個網站重復,在已經收錄了前者的前提下,會對后者限制收錄。的確曾經有某理財網站先搞一個臨時域名在搜索引擎試水,結果等正牌域名上線后卻遲遲得不到收錄的事情發生。

    問:如果公司已經有多個域名是相同內容該怎么處理?
    答:先確認一個好記易懂的域名作為“唯一域名”,進行重點宣傳推介,其余的域名也千萬不能放任自流,尤其是當測試域名已經有了較好的收錄和排位時,可以設置301重定向,指向唯一域名。同時登錄百度站長平臺對新舊網站進行驗證,然后在網站改版工具中進行相應的操作,可以讓“唯一域名”繼承原域名已獲得的權重。
    網站改版工具地址&幫助說明

    轉載自:http://zhanzhang.baidu.com/college/courseinfo?id=150

  • 返回列表
    相關閱讀
    更多
    深度挖掘網站的商用價值,化繁為簡的設計,為企業找到直接有效的解決方案
    +86 (029) 88765320
    +86 15829904657
    地址:西安市未央區文景路11號
    星舍大廈5F P.C:7100001
    boss@178365.net
    在線咨詢: 985224206
    中國互聯網協會成員單位
    西安力洋之星網絡技術有限公司 | 版權所有
    Copyright 2008-2020 Liyang.Inc All Rights Reserved.
    Liyang.Inc
    亚洲 欧洲 综合 另类视频