期筆者對(duì)大約50多位剛從事或已經(jīng)從事1-2年的seoer做了個(gè)小調(diào)查,其中包括很多面試者,真正在工作中能分析到日志的seoer比例非常非常的少,在問到訪問日志在seo所起到的作用,很多seoer都直搖頭,或者僅僅知道一些皮毛并未親手操作過,其主要原因還是在公司平臺(tái)中并未有機(jī)會(huì)去實(shí)踐,下面筆者分享下自己對(duì)網(wǎng)站原始訪問日志的認(rèn)識(shí):
什么是訪問日志
網(wǎng)站訪問日志是記錄web服務(wù)器接收處理請(qǐng)求以及運(yùn)行時(shí)錯(cuò)誤等各種原始信息的以.log結(jié)尾的文件,確切的講,應(yīng)該是服務(wù)器日志。它的作用是讓我們seoer可以清楚的得知用戶在什么IP、什么時(shí)間、用什么操作系統(tǒng)、什么瀏覽器、什么分辨率顯示器的情況下訪問了你網(wǎng)站的哪個(gè)頁面,是否訪問成功。
什么時(shí)候我們需要去分析日志及日志特征
我們會(huì)天天都去分析日志嗎?不會(huì)的,因?yàn)槿罩痉治霰容^枯燥,一般都是每月或者半月分析一次。這種分析屬于日常分析,如果您的網(wǎng)站一直都比較正常那可以每月分析一次,或者可以簡單的分析一次。
其實(shí)日志更多是在網(wǎng)站出現(xiàn)異常的時(shí)候,會(huì)觀察半個(gè)月日志,集中分析蜘蛛的動(dòng)向。比如會(huì)分析是不是網(wǎng)站404,robots設(shè)置異;蛘邟祚R等問題造成蜘蛛消失,逐兒去查找解決問題。
下面是從筆者日常分析的日志中取的一條訪問記錄:
119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
119.254.22.200 為用戶訪問ip
10/Apr/2012:00:04:54 +0800 為訪問日期 -時(shí)區(qū)
GET /bbjk/index.html HTTP/1.0 根據(jù)HTTP/1.1 協(xié)議 抓取(域名下)/bbjk/index.html 這個(gè)頁面(GET表示服務(wù)器動(dòng)作)
200 服務(wù)器響應(yīng)狀態(tài)碼
25269 為頁面字節(jié)數(shù)。
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 為搜狗蜘蛛特征。
注意:任何蜘蛛都僅僅為網(wǎng)站的普通用戶。不要以為蜘蛛非常的強(qiáng)大,很多人還認(rèn)為網(wǎng)站若禁止登錄查看內(nèi)容,蜘蛛都能爬取登陸后的頁面內(nèi)容,這是不可能的。除非網(wǎng)站做了蜘蛛專屬手段。
怎么去分析網(wǎng)站訪問日志
曾記得在幾年前,筆者剛接觸seo的時(shí)候,工具稀少的年代,筆記一直都喜歡手工
去分析訪問日志,當(dāng)然手工分析很費(fèi)時(shí)費(fèi)力,再這里只講解下筆者最喜歡手工分析日志中的幾點(diǎn)。
筆者現(xiàn)在手工分析一般都集中在研究每日蜘蛛在網(wǎng)站上爬行規(guī)律與網(wǎng)站更新數(shù)據(jù)之間的關(guān)系。當(dāng)然每個(gè)網(wǎng)站需根據(jù)自己來觀察,最后會(huì)有一個(gè)非常完美的規(guī)律。
筆者會(huì)把每日的蜘蛛訪問時(shí)間按時(shí)間段排序統(tǒng)計(jì)成報(bào)表,
比如:2012-4-18 1-2點(diǎn)爬行5次
2-3點(diǎn)爬行3次
3-4點(diǎn)爬行10次
如果你細(xì)心的話可以做個(gè)走勢圖就非常直觀。這種統(tǒng)計(jì)一般都是在網(wǎng)站剛建立后和網(wǎng)站出異常后加強(qiáng)分析日志,日常運(yùn)營中,更多注重的是分析出蜘蛛每日的爬行規(guī)律然后定時(shí)的放出充量文章,增加收錄。
手工分析日志都是比較枯燥的,有時(shí)會(huì)影響心情,不過現(xiàn)在工具繁盛的年代,我們也借助工具來達(dá)到事半功倍。
筆者比較推薦的是光年日志分析工具。該工具非常簡單,筆者不在此演示,有興趣的自己百度,它的優(yōu)點(diǎn)在于能在生成的報(bào)告中清晰的告訴我們蜘蛛爬行異常,與頁面抓取痕跡。比如404. 唯一遺憾的是目前筆者還未找到一款工具帶有分析蜘蛛爬行規(guī)律生成走勢圖的工具。
注意:在日志分析中,很多時(shí)候我們都是想從日志中尋找到問題,以便改進(jìn)我們的自身的問題,所以需要特別關(guān)注404,301等狀態(tài)碼。
真假蜘蛛辨別
為什么會(huì)出現(xiàn)真假蜘蛛,主要是因?yàn)楝F(xiàn)在信息繁盛,很多采集工具為不讓對(duì)方發(fā)現(xiàn)自己的痕跡都模擬蜘蛛的痕跡來下載數(shù)據(jù)源。所以會(huì)造成很多seoer誤認(rèn)為蜘蛛大量的抓取頁面卻發(fā)現(xiàn)收錄并未增加的現(xiàn)象。下面筆者告訴大家比較容易辨認(rèn)真假蜘蛛和一些特別注意的地方。
1, 真蜘蛛
220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
這是筆者某網(wǎng)站的日志片段,我拿出ip,在win系統(tǒng)下cmd登錄dos框下輸入nslookup 220.181.108.96 查看回顯:
如上圖,若是百度蜘蛛,他會(huì)直接回顯百度的域名。
2, 假蜘蛛
假蜘蛛比較經(jīng)典的就是chinaz的查詢工具了,他就是模擬百度蜘蛛的,他的ip為125.90.88.96 我們反查后并未出現(xiàn)百度域名。有興趣的可以nslookup 125.90.88.96下,筆者就不截圖了。
一般假蜘蛛的存在形式為:XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
看著跟真的一樣,唯獨(dú)ip就是貓膩!
3, 特殊情況的蜘蛛
1) cdn加速后,造成ip混亂。
此類情況出現(xiàn)一般是網(wǎng)站在做了cdn加速后,再去查看apache服務(wù)器的訪問日志的時(shí)候發(fā)現(xiàn)很多蜘蛛的痕跡ip都非常的類似,如果按照百度官方出的辨別手法nslookup ip 后肯定為匿名,因?yàn)檫@些ip都是cdn節(jié)點(diǎn)ip,所以會(huì)造成誤解。若開啟cdn后,蜘蛛實(shí)際訪問次數(shù)一般都<=日志中蜘蛛總數(shù)值。
2) 百度匿名蜘蛛的存在性討論。
匿名蜘蛛?百度工程師lee一直強(qiáng)調(diào)百度蜘蛛是不會(huì)匿名去訪問網(wǎng)站的,但筆者從網(wǎng)上查閱資料,加上筆者某個(gè)站的數(shù)據(jù)推測,筆者認(rèn)為會(huì)有兩種情況:
第一種:假如真的存在匿名蜘蛛,這很明顯與lee的話有悖。所以這點(diǎn)我們可以去辯證的去理解,假如存在,匿名蜘蛛會(huì)做什么,很多seoer包括筆者都猜測可能會(huì)存在用此類蜘蛛去驗(yàn)證網(wǎng)站是否對(duì)蜘蛛與用戶做了不同的待遇。所以此種情況,做賊就不要心虛嘛,老老實(shí)實(shí)做站吧。
第二種:可能是百度的上班族們?cè)诠驹L問了你的網(wǎng)站,百度員工也是人,他們也有七情六欲,或許你的網(wǎng)站被他們某人發(fā)現(xiàn)了,訪問了你的網(wǎng)站后,從而留下了百度ip,造成了誤解。(其實(shí)百度很多部門都是一直在做收集客戶資料的,比如網(wǎng)盟部門)
注意:對(duì)于真假蜘蛛的辨別一定要多方面考慮,切勿只拿ip來判斷就斷定真?zhèn)巍?/p>
本文來自廊坊膠體磨www.m.revolutionemedia.com