अप्रत्याशित लिनक्स सर्वर की जांच कैसे करें?


16

4 xSSD के साथ एक नए Xeon 55XX सर्वर में डेबियन 6 के साथ 10 छापे पर, मैंने सर्वर के बनने के दो सप्ताह के भीतर 2 रैंडम शट डाउन का अनुभव किया है। बंद होने से पहले बैंडविड्थ लॉग को देखते हुए कुछ भी असामान्य नहीं दिखता है। सर्वर लोड आमतौर पर बहुत कम (लगभग 1) होता है और यह बहुत दूर तक ढह जाता है। ऐसा लगता है कि सर्वर डाउन होने पर कोई बिजली की निकासी नहीं होगी।

मुझे पता है कि मैं / var / log को देखता हूं लेकिन यह निश्चित नहीं है कि मुझे कौन से लॉग की जांच करनी चाहिए और मुझे क्या देखना चाहिए। इसलिए अपने संकेतों की सराहना करें।


क्या आपको पता था कि क्या समस्या थी?
चेरोविम

जवाबों:


11

सबसे पहले, मुझे पूछना चाहिए: "शटडाउन"? क्या आपका मतलब है कि मशीन रिबूट करती है या वास्तव में रुकती है? यदि यह रुक जाता है, तो यह या तो गलत है (शायद BIOS में) या कुछ सक्रिय रूप से मशीन को बंद कर रहा है (यानी init 0)।

यदि नहीं, तो आपका प्राथमिक उम्मीदवार / var / log / syslog और /var/log/kern.log होगा क्योंकि आपकी समस्या एक कर्नेल पैनिक या सॉफ़्टवेयर-ट्रिगर हार्डवेयर-गलती की तरह लगती है। बेशक, अगर सर्वर कुछ सेवा चलाता है (उदाहरण के लिए अपाचे) आपको एक सुराग भी दे सकता है।

अक्सर, इस तरह की स्थितियों में, लॉग प्रविष्टियां उत्पन्न होती हैं, लेकिन क्योंकि मशीन में कठिनाइयाँ होती हैं, इसलिए यह प्रविष्टियों को डिस्क पर लिखने का प्रबंधन नहीं करेगा। यदि बॉक्स कोलोकेटेड है, तो संभावना है कि यह कोलो पार्टनर द्वारा एक सीरियल कंसोल से जुड़ा है। यह वह जगह है जहां मैं देखूंगा अगर मुझे उपरोक्त लॉग में कुछ भी संदिग्ध नहीं मिला।

यदि मशीन एक सीरियल कंसोल से जुड़ी नहीं है और लॉग में कुछ भी नहीं है, तो आप नेटवर्क पर एक अलग बॉक्स में syslog भेजने पर विचार करना चाह सकते हैं। शायद नेटवर्क इंटरफ़ेस थोड़ा अधिक समय तक जीवित रहता है, और लॉग संदेश को syslog सर्वर पर पढ़ा जा सकता है। Rsyslog या syslog-ng पर एक नज़र डालें।

अपडेट करें:

मैं नीचे @Johann से सहमत हूं। रुकने का सबसे संभावित कारण प्रोसेसर तापमान वॉचडॉग है। Lmsensors या smartctl (आमतौर पर सबसे आसान) के माध्यम से बॉक्स में तापमान की जाँच / साजिश रचने का प्रयास करें। मुझे लगता है कि समय के साथ बड़ी संख्या में चर का ट्रैक रखने में सामूहिक अद्वितीय है। यह IPMI और lm-Sensors और hddtemp दोनों कर सकता है। इसके अलावा, कुछ BIOS: es लॉग तापमान ठहराव की घटनाओं।


मशीन बंद हो गई, और मैंने इसे मैन्युअल रूप से शुरू करने के लिए समर्थन मांगने के बाद जीवन में वापस आ गया।
अल्फिश

यदि तापमान समस्या है, तो स्पॉट ट्रेंड के लिए समय-समय पर तापमान-डेटा को ट्रैक करने के लिए मुनिन स्थापित करें।
pkhamre

तापमान मुद्दों के लिए +1। डेटासेंटर में मेरे एक सर्वर पर एक ही बात थी - पता चलता है कि वे सीपीयू प्रशंसकों में से एक को कनेक्ट करना भूल गए थे जब उन्होंने सिस्टम बनाया था।
अनुदान

9

पहले, आप जांचना चाहते हैं /var/log/syslog। यदि आप सुनिश्चित नहीं हैं कि क्या देखना है, तो आप शब्दों की तलाश करके शुरू कर सकते हैं error, panicऔर warning

grep -i error /var/log/syslog

यदि आपके पास सिस्टम ग्राफ उपलब्ध हैं (जैसे मुनिन)। उन्हें जांचें और असामान्य पैटर्न देखें। यदि आपके पास मुनिन स्थापित नहीं है, तो इसे स्थापित करने का विचार हो सकता है ( apt-get install munin munin-node)

आपको किसी भी दिलचस्प संदेश के लिए रूट-मेल की भी जांच करनी चाहिए जो आपके सिस्टम क्रैश से संबंधित हो सकते हैं।

अन्य logfiles आप जाँच करना चाहिए आवेदन त्रुटि-लॉग है। जैसे /var/log/apache2/error.logया अनुकरणीय। उनमें आपको समस्या के लिए अग्रणी जानकारी हो सकती है।


6

मेरे अनुभव में, एक "अप्रत्याशित पड़ाव" लगभग हमेशा ओवरहीटिंग के कारण होता है। Lm_sensors के माध्यम से अपने तापमान और प्रशंसक गति की जांच करें और सुनिश्चित करें कि वे अच्छे हैं।

हाल ही में हमारे पास एक ही पैटर्न था: मैन्युअल रूप से समर्थन शुरू करने के एक घंटे बाद एक सर्वर रुका। इस घंटे के बाद सीपीयू तापमान BIOS (iirc 60 या 70 ° C) में कॉन्फ़िगर थ्रेशोल्ड से टकराया और सिस्टम को रोक दिया। ये सभी परेशानियां जहां एक टूटे हुए सीपीयू फैन की वजह से होती हैं। पंखे को बदलने के बाद सब कुछ सामान्य हो गया।


2

/ Var / log निर्देशिका (और यह उपनिर्देशिका) में लॉग फ़ाइलों की एक संख्या है, सहित

/var/log/boot

तथा

/var/log/boot.log

उपरोक्त फ़ाइलों के साथ प्रारंभ करें।


और "क्या" के लिए देखो?
पियरे.विरेंस

यह विफलता के प्रकार पर निर्भर करता है। ज्यादातर मामलों में, मूल कारण एक कर्नेल क्रैश है, एक बिजली की विफलता या सीपीयू शटडाउन से प्रेरित है, जिसका अर्थ है कि लॉग फ़ाइलों में प्रविष्टि लिखने और डिस्क पर इसे फ्लश करने के लिए कोई नहीं है, इसलिए वहां कोई संदेश नहीं होगा ।
asdmin

1

बंद किए गए ट्रिगर को बंद करने के 2 तरीके हैं, पहले हार्डवेयर में किसी भी मुद्दे के लिए आउट-ऑफ-बैंड प्रबंधन कंसोल की जांच करें, मैं एसएनएमपी को कॉन्फ़िगर करने और ईमेल प्राप्त करने या किसी भी अलर्ट के लिए निगरानी सॉफ्टवेयर में जाल जोड़ने का सुझाव दूंगा।

फिर ऑपरेटिंग सिस्टम के माध्यम से, आप /var/log/messages(RedHat आधारित डिस्ट्रोस) या /var/log/syslog(डेबियन आधारित डिस्ट्रोस) की जांच कर सकते हैं ।


0

डिस्क सबसिस्टम पर्याप्त जटिल होता है जब कोई समस्या होती है, तो इसकी वजह से आपको अपनी लॉग फ़ाइलों में कुछ भी नहीं मिलेगा।

सीरियल कंसोल पर लॉग इन करने का प्रयास करें। इसके लिए कुछ केबल बिछाने और लाइनों को लेने के लिए एक अन्य प्रणाली की आवश्यकता होती है, लेकिन आपके पास वास्तव में समस्या को पकड़ने का बेहतर मौका है।

बेशक, यदि आपके नोड में Oracle की ALOM / ILOM के समान अंतर्निहित प्रबंधन प्रणाली है, तो आप संभावित समस्याओं की जाँच भी कर सकते हैं और वहाँ फाइलों को लॉग इन कर सकते हैं।


-1

आप पा सकते हैं कि क्या सिस्टम इस तथ्य के बारे में जानता है कि यह अगले आदेशों के साथ नीचे जा रहा था

sudo last -1x reboot
sudo last -1x shutdown

यदि कोई जानकारी => नहीं है, तो यह सत्ता या कुछ और बाहरी हो सकता है

यदि आपके पास रिबूट / शटडाउन समय के आसपास लॉग में जानकारी => खोज है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.