日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

海量游戲日志收集與分析,日志分析

海量日志分析有這幾個關(guān)鍵問題zd:1、采集海量日志(對技術(shù)、性能是考驗)2、采集后的數(shù)據(jù)結(jié)構(gòu)化及存儲(后期完成高復(fù)雜度的分析)3、最后才是海量日志數(shù)據(jù)的搜索分析實現(xiàn)海量日志分析,目前采用較多的方式是日志易、ELK等 。目前市場上日志分析平臺有幾家做的比較好:splunk、日志易、袋鼠云,關(guān)于具體到哪家好,應(yīng)該說是各有優(yōu)勢吧 。
海量日志分析怎么處理?

海量游戲日志收集與分析,日志分析


海量日志分析有這幾個關(guān)鍵問題zd:1、采集海量日志(對技術(shù)、性能是考驗)2、采集后的數(shù)據(jù)結(jié)構(gòu)化及存儲(后期完成高復(fù)雜度的分析)3、最后才是海量日志數(shù)據(jù)的搜索分析實現(xiàn)海量日志分析,目前采用較多的方式是日志易、ELK等 。兩者的區(qū)別點在于一個屬于商業(yè)化產(chǎn)品(簡單配置、操作方便、功能強大、靈活等),ELK產(chǎn)品則是開源(免費、需要部署多個產(chǎn)品、需要二次開發(fā)、耗費人工成本) 。
網(wǎng)站日志分析都可以得到什么數(shù)據(jù)?
海量游戲日志收集與分析,日志分析


網(wǎng)站日志該分析哪些數(shù)據(jù)呢?從基礎(chǔ)信息、目錄抓取、時間段抓取、IP抓取、狀態(tài)碼這幾點來分析:第一、基礎(chǔ)信息下載一個網(wǎng)站日志文件工具獲取基礎(chǔ)信息:總抓取量、停留時間(h)及訪問次數(shù);通過這三個基礎(chǔ)信息可以算出:平均每次抓取頁數(shù)、單頁抓取停留時間,然后再用MSSQL提取蜘蛛唯一抓取量,根據(jù)以上的數(shù)據(jù)算出爬蟲重復(fù)抓取率:平均每次抓取頁數(shù)=總抓取量/訪問次數(shù)單頁抓取停留時間=停留時間*3600/總抓取量爬蟲重復(fù)抓取率=100%—唯一抓取量/總抓取量統(tǒng)計出一段時間的數(shù)據(jù),可以看出整體趨勢是什么樣的,這樣就可以發(fā)現(xiàn)問題,才能夠調(diào)整網(wǎng)站的整體策略 。
下面用一個站長的日志基礎(chǔ)信息為例:日志基礎(chǔ)信息從日志的基本信息,我們需要看它的整體趨勢來調(diào)整,哪些地方需要加強 。網(wǎng)站日志文件該分析哪些數(shù)據(jù)總抓取量從這個整體走勢來看出,爬蟲的抓取總量整體是在下降的,這個就需要我們進行一些相應(yīng)的調(diào)整 。網(wǎng)站日志文件該分析哪些數(shù)據(jù)蜘蛛重復(fù)抓取率整體來看,網(wǎng)站重復(fù)抓取率是有點上升的,這個就需要一些細節(jié),多一些為抓取的入口和使用一些robots及nofollow技巧 。
單面停留時間爬蟲單面的停留時間,曾經(jīng)有看到過一篇軟文,網(wǎng)頁加載速度是如何影響SEO流量的;提高網(wǎng)頁加載速度,減少爬蟲單面停留時間,可以為爬蟲的總抓取做出貢獻,進而增加網(wǎng)站收錄,從而提高網(wǎng)站整體流量 。在16號至20號左右服務(wù)器出現(xiàn)一些問題,之后進行調(diào)整后,速度明顯變快,單頁停留時間也相應(yīng)的下來了 。而對此進行相應(yīng)調(diào)整如下:從本月整理來看,爬蟲的抓取量是下降的,重復(fù)抓取率是上升的 。
綜合分析,需要從站內(nèi)鏈接和站外的鏈接進行調(diào)整 。站內(nèi)的鏈接盡量的帶錨文本,如果不能帶的話,可以推薦其他頁面的超鏈接,讓蜘蛛盡可能的深層次的抓取 。站外鏈接的話,需要多方面的發(fā)布 。目前平臺太少了,如果深圳新聞網(wǎng)、商國互聯(lián)等站點出現(xiàn)一絲差錯的話,我們站點將受到嚴重影響 。站外平臺要廣,發(fā)布的鏈接要多樣話,不能直發(fā)首頁的,欄目及文章頁面需要加大力度 。
目前,來講站外平臺太少,將近10w的外部鏈接,集中在幾個平臺上 。第二、目錄抓取用MSSQL提取出爬蟲抓取的目錄,分析每日目錄抓取量 。可以很清晰的看到每個目錄的抓取情況,另外可以對比之前的優(yōu)化策略,優(yōu)化是否合理,重點的欄目優(yōu)化是不是預(yù)期的效果 。爬蟲抓取的目錄綠色:主做欄目 黃色:抓取較差 粉色:抓取很差 深藍色:需要禁止欄目網(wǎng)站日志文件該分析哪些數(shù)據(jù)目錄整體趨勢可以看到整體的趨勢并沒有太大變化,只有兩個欄目的抓取是有較大變動的 。

推薦閱讀