學(xué)習(xí)啦 > 學(xué)習(xí)電腦 > 電腦故障 > 電腦故障現(xiàn)象 > 死機 >

Linux系統(tǒng)死機時解決方法

時間: 加城1195 分享

  宕機,指操作系統(tǒng)無法從一個嚴(yán)重系統(tǒng)錯誤中恢復(fù)過來,或系統(tǒng)硬件層面出問題,以致系統(tǒng)長時間無響應(yīng),而不得不重新啟動計算機的現(xiàn)象。對于Linux系統(tǒng),經(jīng)常遇到的問題是系統(tǒng)可以正常運行一段時間,然后死機。如果不好再現(xiàn)問題,那么只有根據(jù)死機現(xiàn)場遺留的東西來進行分析了。

  方法步驟

  如果系統(tǒng)沒有死干凈,比如磁盤中斷和文件系統(tǒng)是好的,那么也許能有日志信息保留在文件中,不過這樣的好運氣我是從來沒有遇到過的。如果鍵盤中斷還能響應(yīng) (按下Num Lock,可以看見鍵盤小燈亮滅),那么運氣就算是足夠好了,這時可以祭出 sysrq 大法,同時按下 Alt-Sysrq-T 獲得進程系統(tǒng)堆棧信息,按下 Alt-Sysrq-M 獲得內(nèi)存分配信息,按下 Alt-Sysrq-W 獲得當(dāng)前寄存器信息。

  linux/Documentation/sysrq.txt。另外,最好關(guān)閉終端的自動 blank 功能,這樣系統(tǒng)死的時候至少能從屏幕上看到一些信息。設(shè)置方法是:

  # echo 1 > /proc/sys/kernel/sysrq

  # setterm -blank

  這兩個設(shè)置最好加到系統(tǒng)啟動腳本中 (比如 /etc/rc.d/rc.local),保證每次啟動都能得到運行。

  如果很不幸,鍵盤也死悄悄了,(更為不幸的是,這種情況很常見),那么也不是只有等死一個辦法,這時可以用串口終端 (serial console)將系統(tǒng)信息發(fā)送

  到另一臺系統(tǒng)上,這樣可以通過對這些信息分析來定位問題。設(shè)置方法如下:

  準(zhǔn)備工作

  1. 一臺被監(jiān)視的服務(wù)器,一臺進行監(jiān)視工作的PC。

  2. 一根串口直連線。

  配置

  1. 在服務(wù)器上,加入一個新的 grub 項目,增加核心參數(shù) "console=ttyS0 console=tty1",如:

  kernel /boot/vmlinuz-2.4.21-9.30AXsmp ro root=LABEL=/1 console=ttyS0

  console=tty1

  2. 在服務(wù)器上,修改 /etc/sysconfig/syslog,加入 klogd 選項 "-c 7",保證更多內(nèi)核信息得到輸出。如:

  KLOGD_OPTIONS="-x -c 7"

  3. 重新啟動服務(wù)器

  4. 用串口直連線連接兩臺機器,測試:

  1) 在PC上運行 "cat /dev/ttyS0",在服務(wù)器上運行 "echo hi > /dev/ttyS0",看在 PC 上是否有 "hi" 輸出。

  2) 在PC上運行 "cat /dev/ttyS0",在服務(wù)器上運行 "echo w > /proc/sysrq-trigger",看 PC 上是否有相應(yīng)內(nèi)核信息輸出。

  3) 在PC上運行 "cat /dev/ttyS0",在服務(wù)器上運行 "modprobe loop",看 PC 上是否有相應(yīng)內(nèi)核信息輸出。

  5. 如果測試通過,那么在 PC 上運行:cat /dev/ttyS0 | tee /tmp/result

  另外,也可以用 Windows 超級終端獲得串口信息。

  that's it.

  此外,一些核心支持 LKCD, netdump 等調(diào)試功能,也可以一試。

  剩下的,就只有靠經(jīng)驗和運氣了,一般造成 Linux 系統(tǒng)死機的原因有:

  系統(tǒng)硬件問題 (SCSI 卡,主板,RAID 卡,網(wǎng)卡,硬盤...)

  外圍硬件問題 (終端切換器,網(wǎng)絡(luò)...)

  軟件問題

  驅(qū)動 bug (去找更新的驅(qū)動試試)

  核心系統(tǒng) bug (去 LKML 上看看,或換個核心試試)

  系統(tǒng)設(shè)置

  最后,google一把。有時候你可以直接輸入 "Linux 系統(tǒng)死機怎么辦?"

  PE6650 經(jīng)常死機",看有沒有人遇到過和你同樣的問題。即使沒有找到,也是一個有助于分析問題的信息,至少說明你的系統(tǒng)可能有和其他人不同之處。

  調(diào)查 Linux 系統(tǒng)死機問題,這既是科學(xué)又是藝術(shù),牽扯到眾多的硬件軟件知識和經(jīng)驗,是一個不斷學(xué)習(xí)的過程

  補充:預(yù)防死機的小技巧

  1、不要在同個硬盤安裝多個操作系統(tǒng)

  2、不要一次性打開多個網(wǎng)頁瀏覽

  3、在關(guān)閉電腦時,不要直接按電源按鈕,否則會導(dǎo)致文件丟失,下次使用不能正常開機導(dǎo)致死機

  4、別讓CPU、顯卡超頻,電腦溫度過高

  5、及時清理機箱內(nèi)的灰塵

  6、更換電腦硬件配置時,一定要插牢固

  7、不要使用來歷不明的軟件和光盤,以免傳染病毒

  8、對系統(tǒng)文件或重要文件,最好使用隱含屬性,以免因誤操作而刪除或覆蓋這些文件

  9、在安裝應(yīng)用軟件時,若提示是否覆蓋當(dāng)前文件,一定不要覆蓋,通常當(dāng)前的系統(tǒng)文件是最好的

  10、在運行大型應(yīng)用軟件時,不要在運行狀態(tài)下退出以前運行的程序,否則會引起整個Windows崩潰

  相關(guān)閱讀:死機宕機實例介紹

  自2015年3月11日下午5點起,據(jù)蘋果用戶反應(yīng)AppStore、Mac AppStore、iTunesStore均為宕機狀態(tài),iTunes Connect無法登陸,iBooks商店沒有響應(yīng)。此外,iOS和Mac的應(yīng)用商店也出現(xiàn)了大面積癱瘓。并顯示為“所有用戶不可用”。此次服務(wù)中斷時間長達11個小時,甚為罕見。蘋果公司在一份電子郵件聲明中表示,服務(wù)中斷是由于內(nèi)部系統(tǒng)錯誤引起的。

  2014年1月21日,大量QQ用戶反映,騰訊的第三方登錄出現(xiàn)故障,不少第三方服務(wù)使用QQ都登錄不上。不僅是第三方登錄,QQ郵箱也無法正常使用。這次受影響范圍很大,騰訊的第三方登錄服務(wù)器出現(xiàn)了宕機。

  2010年6月30日消息,據(jù)國外媒體報道,亞馬遜網(wǎng)站周二出現(xiàn)大范圍宕機,持續(xù)時間超過3小時,在此期間用戶只能瀏覽空白和部分產(chǎn)品頁面。


Linux系統(tǒng)“死機”時解決方法相關(guān)文章:

1.Linux操作系統(tǒng)死機處理方法有哪些

2.電腦啟動centos時就死機如何解決

3.linux shell退出命令

4.Mac虛擬機內(nèi)存不足的解決辦法

5.臺式電腦啟動不久后死機怎么辦

4024301