日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

solaris系統(tǒng)panics故障實例與解決

這是一臺運行地震反演軟件的sun ultra80工作站,去年一段時間以來系統(tǒng)頻繁宕機多達(dá)21次,每次自動重啟時,用戶反演作業(yè)常常因未來及存盤遭受數(shù)據(jù)丟失,只能重做 。尤其去年七、八月份,有時系統(tǒng)一天不定時自動重啟多次,用戶根本無法在本機上工作,許可證也無法取用,直接影響了用戶使用反演軟件進(jìn)行的科研生產(chǎn)工作 。
該問題自解決以來,經(jīng)過多次不斷的跟蹤及回訪,故障不復(fù)再現(xiàn),今將這一故障現(xiàn)象進(jìn)行歸納總結(jié),供各位網(wǎng)友參考,希望從中得到幫助 。

一、故障現(xiàn)象及分析
該工作站的不定時自動重啟有著比較特殊的現(xiàn)象:沒有規(guī)律、沒有預(yù)兆 。對用戶的影響也是最致命的---不僅是作業(yè)失敗,甚至?xí)?dǎo)致數(shù)據(jù)庫被破壞 。針對這一系統(tǒng)故障現(xiàn)象進(jìn)行了認(rèn)真的分析,通過查找錯誤日志,找出了系統(tǒng)報出的“Panics”錯誤 。當(dāng)系統(tǒng)自動重啟時,/etc/rc2.d/S75savecore 實用程序會把這些信息卸載到文件系統(tǒng)/var/crash/`hostname`/目錄下,便于系統(tǒng)管理員進(jìn)行故障分析和故障定位,21次Panics錯系統(tǒng)自動產(chǎn)生的文件如下:
-rw-r--r-- 1 root root 634041 Feb 3 03:20 Unix.0
………………………
-rw-r--r-- 1 root root 620121 Aug 7 12:35 unix.16
………………………
-rw-r--r-- 1 root root 622218 Aug 12 09:25 unix.21

-rw-r--r-- 1 root root 181395456 Feb 3 03:20 vmcore.0
………………………
-rw-r--r-- 1 root root 237830144 Aug 7 12:35 vmcore.16
………………………
-rw-r--r-- 1 root root 168732916 Aug 12 09:25 vmcore.21

二、Panics錯誤類型分析
依據(jù)系統(tǒng)提供的技術(shù)資料,Panics錯誤具有兩種典型的錯誤類型:
第一類:系統(tǒng)自動重啟(reboot)
這類錯誤是指系統(tǒng)在執(zhí)行過程中遇到一條非法指令無法繼續(xù)執(zhí)行下去,為避免錯誤的擴大而采取的保護(hù)措施,這種非法指令的訪問可由來自于主板、內(nèi)存、顯卡等很多因素,也可能是系統(tǒng)對某一硬件支持存在BUG;若硬件自身沒問題,有時操作系統(tǒng)存在某些缺陷,也會導(dǎo)致此類故障的發(fā)生 。
第二類:系統(tǒng)掛起(system hang)
這類錯誤現(xiàn)象是系統(tǒng)不接受任何指令,大多屬于用戶應(yīng)用程序存在錯誤而耗盡了系統(tǒng)資源所致 。
從故障現(xiàn)象分析我們判斷,該機器呈現(xiàn)的故障屬于第一類情況 。

三、故障的研究與解決
通過對系統(tǒng)內(nèi)核故障卸載的文件unix.16 和 vmcore.16分析研究,解決了裝有地震反演Jason軟件的sun工作站系統(tǒng)運行不穩(wěn)定問題 。
針對系統(tǒng)重啟(reboot)故障,為了找出有效的故障處理方法,我們認(rèn)為應(yīng)該從分析系統(tǒng)發(fā)生故障所卸載的錯誤信息入手,利用系統(tǒng)中提供的調(diào)試工具,(如:adb、crash等)進(jìn)行錯誤分析,根本無法找出解決問題的方法 。最終在sunsolve網(wǎng)站上找到一個用于分析Panics錯誤所產(chǎn)生的DUMP文件的軟件---Act(Automated Crash Analysis Tool) 。

1 act 軟件的安裝配置
該軟件的安裝會在/etc/rc2.d中產(chǎn)生S76ACT_dumpscript腳本配置文件,便于日后跟蹤分析 。
詳細(xì)安裝過程(略)
2 運行Act軟件進(jìn)行代碼分析,并將分析結(jié)果存放于act.16文件中
# cd /var/crash/`hostname`
# /opt/CTEact/bin/act –n unix.16 –d vmcore.16 > act.16
3 對軟件的結(jié)果進(jìn)行分析,提取故障信息關(guān)鍵字
# more act.16
該文件信息很多,摘錄其中的部分信息為:
System booted at: 2003 Aug 7 01:09:37 GMT
System crashed at: 2003 Aug 7 12:33:14 GMT
Crash dump started at: 2003 Aug 7 12:34:54 GMT
panic: BAD TRAP: type=%x rp=%p addr=%p mmu_fsr=%x occurred in module“%s”due to %s
SunSolve search string: ### SUNSOLVE ###
[ifb_kernel_dma_cmd_data trap type 31 (data mmu miss)](其中ifb為3D顯卡邏輯設(shè)備名)
從軟件分析結(jié)果中提取出故障關(guān)鍵字: [ifb_kernel_dma_cmd_data trap type 31 (data mmu miss)],得到的結(jié)論是:目前的SunOS 5.8 Generic_108528-11 kernel版本對X Window 及3D顯卡的支持仍存在bug,該工作站使用的顯卡是Elite3D Graphics和Expert3D Graphics,由此得出故障處理的方法是對這臺工作站下載最新補?。╬atch)以解決對顯卡的支持問題 。

推薦閱讀