對(duì)于所有的ICP來(lái)說(shuō),除了保證網(wǎng)站穩(wěn)定正常運(yùn)行以外,一個(gè)重要的問(wèn)題就是網(wǎng)站訪問(wèn)量的統(tǒng)計(jì)和分析報(bào)表,這對(duì)于了解和監(jiān)控網(wǎng)站的運(yùn)行狀態(tài),對(duì)提高各個(gè)網(wǎng)站的服務(wù)能力和服務(wù)水平是必不可少的 。通過(guò)對(duì)Web服務(wù)器的日志文件進(jìn)行分析和統(tǒng)計(jì),能夠有效掌握系統(tǒng)運(yùn)行情況以及網(wǎng)站內(nèi)容的受訪問(wèn)情況、加強(qiáng)對(duì)整個(gè)網(wǎng)站及其內(nèi)容的維護(hù)與管理 。本文對(duì)Web服務(wù)器日志分析的原理和技術(shù)進(jìn)行討論 。
一、 前言
隨著Internet上Web服務(wù)的發(fā)展,幾乎各個(gè)政府部門(mén)、公司、大專院校、科研院所等都在構(gòu)建或正在建設(shè)自己的網(wǎng)站 。而與此同時(shí),在構(gòu)建網(wǎng)站建設(shè)中各個(gè)單位都會(huì)遇到各種各樣的問(wèn)題,那么對(duì)web服務(wù)器的運(yùn)行和訪問(wèn)情況進(jìn)行詳細(xì)和周全的分析對(duì)于了解網(wǎng)站運(yùn)行情況,發(fā)現(xiàn)網(wǎng)站存在的不足,促進(jìn)網(wǎng)站的更好發(fā)展重要性是不言而喻的 。
管理Web網(wǎng)站不只是監(jiān)視Web的速度和Web的內(nèi)容傳送,它要求不僅僅關(guān)注服務(wù)器每天的吞吐量,還要了解對(duì)這些Web網(wǎng)站的外來(lái)訪問(wèn),了解網(wǎng)站各頁(yè)面的訪問(wèn)情況,根據(jù)各頁(yè)面的點(diǎn)擊頻率來(lái)改善網(wǎng)頁(yè)的內(nèi)容和質(zhì)量、提高內(nèi)容的可讀性,跟蹤包含有商業(yè)交易的步驟以及管理Web網(wǎng)站“幕后的數(shù)據(jù)等 。
為了更好地提供WWW服務(wù),監(jiān)控WEB服務(wù)器的運(yùn)行情況、了解網(wǎng)站內(nèi)容的詳細(xì)訪問(wèn)狀況就越來(lái)越顯得重要和迫切了 。而這些要求都可以通過(guò)對(duì)web服務(wù)器的日志文件的統(tǒng)計(jì)和分析來(lái)做到 。
二、WEB日志分析的原理
網(wǎng)站服務(wù)器日志記錄了web服務(wù)器接收處理請(qǐng)求以及運(yùn)行時(shí)錯(cuò)誤等各種原始信息 。通過(guò)對(duì)日志進(jìn)行統(tǒng)計(jì)、分析、綜合,就能有效地掌握服務(wù)器的運(yùn)行狀況,發(fā)現(xiàn)和排除錯(cuò)誤原因、了解客戶訪問(wèn)分布等,更好的加強(qiáng)系統(tǒng)的維護(hù)和管理 。
在WWW服務(wù)模型是非常簡(jiǎn)單的(見(jiàn)圖1):
1) 客戶端(瀏覽器)和web服務(wù)器建立tcp連接,連接建立以后,向web 服務(wù)器發(fā)出訪問(wèn)請(qǐng)求(如:get),根據(jù)HTTP協(xié)議該請(qǐng)求中包含了客戶端的IP地址、瀏覽器的類型、請(qǐng)求的URL等一系列信息 。
2) web服務(wù)器收到請(qǐng)求后,將客戶端要求的頁(yè)面內(nèi)容返回到客戶端 。如果出現(xiàn)錯(cuò)誤,那么返回錯(cuò)誤代碼 。
3) 服務(wù)器端將訪問(wèn)信息和錯(cuò)誤信息紀(jì)錄到日志文件里 。下面是客戶端發(fā)送給web服務(wù)器請(qǐng)求的數(shù)據(jù)報(bào)的內(nèi)容:
GET /engineer/ideal/list.htm HTTP/1.1
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/vnd.ms-powerpoint, application/vnd.ms-excel, application/msword, */*
Referer: http://www.linuxaid.com.cn/engineer/ideal/
Accept-Language: zh-cn
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)
Host: www.linuxaid.com.cn
Connection: Keep-Alive
可以看到,在客戶機(jī)的請(qǐng)求里包含了很多有用的信息,例如:客戶端類型等等 。而web服務(wù)器就會(huì)將請(qǐng)求的web頁(yè)內(nèi)容發(fā)送返回給客戶機(jī) 。
目前最常用的web服務(wù)器有Apache、Netscape enterprise server、MS IIS等 。而目前互聯(lián)網(wǎng)上最常用的web服務(wù)器就是apache,因此我們這里的討論都以Linux+apache環(huán)境討論,其他的應(yīng)用環(huán)境類似 。對(duì)于Apache來(lái)說(shuō),支持多種日志文件格式,最常見(jiàn)的是common和combined兩種模式,其中combined方式比common方式的日志的信息要多Referer(該請(qǐng)求來(lái)自于哪里,例如來(lái)自于yahoo的搜索引擎)和User-agent(用戶客戶端類型,如mozilla或IE) 。我們這里討論combined類型 。下面是common類型的日志示例:
218.242.102.121 - - [06/Dec/2002:00:00:000000] "GET /2/face/shnew/ad/via20020915logo.gif HTTP/1.1" 304 0 "http://www.mpsoft.net/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)"
61.139.226.47 - - [06/Dec/2002:00:00:000000] "GET /cgi-bin/guanggaotmp.cgi?1 HTTP/1.1" 200 178 "http://www3.beareyes.com.cn/1/index.php" "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)"
推薦閱讀
- 常見(jiàn)WEB服務(wù)器軟件
- 如何架設(shè)流媒體服務(wù)器
- apache+mysql+php+ssl服務(wù)器之安裝
- apache Tomcat 服務(wù)器配置
- 四 Windows 2003服務(wù)器安全加固方案
- 三 服務(wù)器之戰(zhàn) Linux終結(jié)微軟霸權(quán)
- 二 服務(wù)器之戰(zhàn) Linux終結(jié)微軟霸權(quán)
- 一 Linux之戰(zhàn) Linux終結(jié)微軟霸權(quán)
- 二 Windows2003自帶服務(wù)也能架設(shè)共享服務(wù)器
- 一 Windows2003自帶服務(wù)也能架設(shè)共享服務(wù)器
