सिस्टम क्रैश का कारण कैसे निर्धारित करें?

10

मेरा सर्वर सप्ताह में एक बार दुर्घटनाग्रस्त हो जाता है और किसी भी प्रकार का सुराग नहीं छोड़ता है कि यह क्या कारण है। मैंने जाँच की है /var/log/messagesऔर यह बस कुछ बिंदु पर रिकॉर्डिंग बंद कर देता है और कंप्यूटर पोस्ट की सूचना पर शुरू होता है जब मैं एक हार्ड रिबूट करता हूं।

क्या कोई ऐसी चीज है जिसकी मैं जांच कर सकता हूं या सॉफ्टवेयर स्थापित कर सकता हूं जो इसका कारण निर्धारित कर सकता है?

मैं CentOS 7 चला रहा हूं।

यहाँ केवल त्रुटि / मेरी समस्या है /var/log/dmesg: https://paste.netcoding.net/cosisiloji.log

[    3.606936] md: Waiting for all devices to be available before autodetect
[    3.606984] md: If you don't use raid, use raid=noautodetect
[    3.607085] md: Autodetecting RAID arrays.
[    3.608309] md: Scanned 6 and added 6 devices.
[    3.608362] md: autorun ...
[    3.608412] md: considering sdc2 ...
[    3.608464] md:  adding sdc2 ...
[    3.608516] md: sdc1 has different UUID to sdc2
[    3.608570] md:  adding sdb2 ...
[    3.608620] md: sdb1 has different UUID to sdc2
[    3.608674] md:  adding sda2 ...
[    3.608726] md: sda1 has different UUID to sdc2
[    3.608944] md: created md2
[    3.608997] md: bind<sda2>
[    3.609058] md: bind<sdb2>
[    3.609116] md: bind<sdc2>
[    3.609175] md: running: <sdc2><sdb2><sda2>
[    3.609548] md/raid1:md2: active with 3 out of 3 mirrors
[    3.609623] md2: detected capacity change from 0 to 98520989696
[    3.609685] md: considering sdc1 ...
[    3.609737] md:  adding sdc1 ...
[    3.609789] md:  adding sdb1 ...
[    3.609841] md:  adding sda1 ...
[    3.610005] md: created md1
[    3.610055] md: bind<sda1>
[    3.610117] md: bind<sdb1>
[    3.610175] md: bind<sdc1>
[    3.610233] md: running: <sdc1><sdb1><sda1>
[    3.610714] md/raid1:md1: not clean -- starting background reconstruction
[    3.610773] md/raid1:md1: active with 3 out of 3 mirrors
[    3.610854] md1: detected capacity change from 0 to 20970405888
[    3.610917] md: ... autorun DONE.
[    3.610999] md: resync of RAID array md1
[    3.611054] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[    3.611119] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for resync.
[    3.611180] md: using 128k window, over a total of 20478912k.
[    3.611244]  md1: unknown partition table
[    3.624786] EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
[    3.627095] EXT2-fs (md1): error: couldn't mount because of unsupported optional features (244)
[    3.630284] EXT4-fs (md1): INFO: recovery required on readonly filesystem
[    3.630341] EXT4-fs (md1): write access will be enabled during recovery
[    3.819411] EXT4-fs (md1): orphan cleanup on readonly fs
[    3.836922] EXT4-fs (md1): 24 orphan inodes deleted
[    3.836975] EXT4-fs (md1): recovery complete
[    3.840557] EXT4-fs (md1): mounted filesystem with ordered data mode. Opts: (null)

linux centos server-crashes

— ब्रायन ग्राहम
स्रोत

6

यदि आपने crashkernel/kdumpस्थापित और सक्षम किया है, तो आपको crashउपयोगिता का उपयोग करके आसानी से दुर्घटनाग्रस्त कर्नेल की जांच करने में सक्षम होना चाहिए । उदाहरण के लिए, मान लें कि आपने कर्नेल डंप को क्रैश कर दिया है, इसके नीचे सहेजे गए हैं /var/crash: crash /var/crash/2009-07-17-10\:36/vmcore /usr/lib/debug/lib/modules/uname -r /vmlinux।

एक दृश्य प्रदान करें यहाँ और यहाँ जोड़ा जानकारी के लिए।

— shodanshok
स्रोत

मैंने क्रैश को /dev/md1 not foundचलाने grub2-probeऔर इंस्टॉल करने और क्रैशकबर्न / kdump को कॉन्फ़िगर करते समय त्रुटि की मरम्मत की है और अगर यह फिर से क्रैश होता है तो वापस रिपोर्ट करेगा।

— ब्रायन ग्राहम

5

आप dmesg फ़ाइल को देख सकते हैं /var/log/dmesg, जो कर्नेल संदेशों को लॉग कर रहा है। संदेश लॉग बस सेवा और अनुप्रयोग संदेश लॉगिंग है और यदि आपके पास कर्नेल त्रुटि है, तो सेवाएं और अनुप्रयोग बस चलना बंद हो जाएंगे, लेकिन कर्नेल त्रुटि अभी भी dmesg में लॉग इन है।

— TooCloudy
स्रोत

मैंने dmesg और dmesg.old की जाँच की, दोनों में केवल स्टार्टअप जानकारी (लगभग 4.8 सेकंड) है। केवल "समस्या" मैं देख सकता हूं कि स्टार्टअप डिस्क या छापे ड्राइव में कुछ गड़बड़ है, लेकिन सिस्टम इसे ठीक करता है और परवाह किए बिना काम करता है। लिंक के लिए मुख्य पोस्ट की जाँच करें।

— ब्रायन ग्राहम

2

बायोस मेमोरी टेस्ट
bios हार्ड ड्राइव टेस्ट
स्मार्ट ड्राइव लॉग की जाँच करें smartctl /dev/sda -a
स्मार्ट ड्राइव परीक्षण
dmesg -wHएक खिड़की में दौड़ना छोड़ दें

— जिम यू
स्रोत

मैंने सभी 3 ड्राइवों पर स्मार्ट ड्राइव परीक्षण चलाए हैं, वे अनियंत्रित हैं। मेरे पास dmesg -wHएक विंडो में चल रहा है (मुझे लगता है जब तक यह फिर से क्रैश नहीं हो जाता, और एसएसएच पर दुर्घटना के बाद भी आउटपुट पढ़ सकता है)। मेरे पास मशीन तक भौतिक पहुंच नहीं है, क्या मैं अपने मेजबान को बायोस मेमोरी और हार्ड ड्राइव परीक्षण चलाने के लिए कहता हूं?

— ब्रायन ग्राहम