लिनक्स मशीन को डीबग करना फ्रीज


9

मेरे पास 15 समान लिनक्स आरएच 4.7 64-बिट सीवर हैं। वे क्लस्टर डेटाबेस चलाते हैं (क्लस्टर अनुप्रयोग स्तर है)। इस अवसर पर (हर महीने या तो) एक यादृच्छिक बॉक्स (हालांकि ऐसा नहीं है) जमा देता है।

मैं बॉक्स और पिंग कार्यों को पिंग कर सकता हूं। अगर मैं बॉक्स में ssh करने की कोशिश करूँ तो मुझे:

ssh_exchange_identification: Connection closed by remote host

SSH ठीक से स्थापित किया गया है।

जब मैं सर्वर रूम में जाता हूं, और कंसोल पर सीधे लॉगिन करने की कोशिश करता हूं, तो मैं कंसोल को Alt+ के साथ स्विच Fnकर सकता हूं, मैं एक उपयोगकर्ता नाम दर्ज कर सकता हूं, और वर्ण शो दिखा सकते हैं, लेकिन दबाने के बाद Enter, कुछ भी नहीं होता है। मैंने 8 घंटे इंतजार किया और यह नहीं बदला।

मैंने दूरस्थ होस्ट में सब कुछ लॉग करने के लिए syslog सेट किया, और उन लॉग में कुछ भी नहीं है। जब मैं मशीन को रिबूट करता हूं, तो यह बिना किसी समस्या के काम करता है। मैंने HW परीक्षण चलाए हैं - सब कुछ ठीक है, और लॉग में कुछ भी नहीं है। NAGIOS के साथ मशीनों की निगरानी भी की जाती है, और फ्रीज करने से पहले कोई असामान्य भार या गतिविधि नहीं होती है।

मैंने विचारों से भाग लिया है; मैं और क्या कर सकता / सकती हूं?


आपने कौन से हार्डवेयर परीक्षण चलाए? आपने किन उपकरणों का उपयोग किया?
tshepang

HW HP समर्थक है, मैंने RAID स्थिति को सामान्य स्मार्ट टूल काम नहीं करने के लिए उनके उपयोग का उपयोग किया है, और मैंने मेमोरी की जांच करने के लिए यादगार का उपयोग किया है। मुझे यह समस्या कई महीनों से है, और इसका कभी भी एक ही सर्वर नहीं है।
लुका मारिंको

RedHat समर्थन क्या सुझाव देता है?
RedGrittyBrick

लुका कंसोल पर, कुछ भी नहीं बस प्रवेश करने के बाद होता है उपयोगकर्ता नाम और दर्ज मार, या यह पासवर्ड पूछेगा करता है और बाद कि नहीं जवाब?
15

यदि आपने समस्या हल कर ली है, तो कृपया यह बताने के लिए अपने प्रश्न को संपादित करें कि वास्तव में क्या गलत था और आपने दूसरों को देखने के लिए क्या किया।
थोरबजोरन रेव एंडरसन

जवाबों:


6

ऐसा लगता है कि आपका कर्नेल किसी तरह से घबरा गया है जैसे कि sshd सर्वर कुंजियों को नहीं भेज सकता है। संभवतः, कर्नेल को इस तरह से मिटा दिया गया था कि नेटवर्क स्टैक अभी भी ऊपर था, लेकिन vfs परत अनुपलब्ध था।

जब मैंने आरएचईएल 4 सिस्टम पर समान समस्याओं का अनुभव किया, तो मैंने क्रैश डंप और कर्नेल पैनिक जानकारी को पकड़ने के लिए नेटडंप और नेटकॉन कंसोल सेवाएं और एक समर्पित नेटडंप और सिसलॉग सर्वर की स्थापना की । मैं भी कर्नेल.पैनसिक sctctl को 10 पर सेट करता हूं। इस तरह, जब सिस्टम पैनिक करता है, तो आपको कर्नेल ट्रेस और उस सिस्टम पर मेमोरी की एक प्रति मिलती है, जिस पर आप 'क्रैश' उपयोगिता के साथ विश्लेषण कर सकते हैं।

आप निश्चित रूप से मेजबानों के लिए एक धारावाहिक कंसोल स्थापित करने से लाभान्वित होंगे, इसलिए आप कंसोल को पुट और संभावित रूप से जादू सिसक की चाबियाँ मार सकते हैं। इसके अलावा, यदि आप नेटवर्किंग सेट अप करने के लिए तैयार हैं और आपके पास हार्डवेयर है जो इसका समर्थन करता है, तो आप IPMI का उपयोग पॉवरऑफ़, पावरऑन, रीस्टार्ट और हार्डवेयर को क्वेरी करने के लिए कर सकते हैं।

(इसकी कीमत क्या है, आरएचईएल 5 में केक्सेक / केडम्प के साथ समान कार्यक्षमता है, केवल दुर्घटना डंप स्थानीय रूप से संग्रहीत है)


नमस्ते, मेरे पास सीधे (केवीएम के माध्यम से) कंसोल है, और वहां कुछ भी नहीं था। मैं अपने उपयोगकर्ता नाम में आभासी टर्मिनलों के बीच स्विच कर सकता था, लेकिन यह है, यह भी ctr + alt + del काम नहीं करता था, लेकिन कंसोल से होना चाहिए।
लुका मरिंको

इसके अलावा सर्वरों में एचपी का आईएलओ है, मैं उन्हें रिबूट कर सकता हूं और रिमोट से एचडब्ल्यू की धारा देख सकता हूं। वहाँ कोई त्रुटि नहीं थी
लुका मारिंको

क्या आपने उस दौरान syslogs की जाँच की थी? यह एक घिनौना कर्नेल की तरह लगता है। मुझे अपने लिनक्स सर्वरों पर केवीएम पर भरोसा नहीं है, बहुत बार कर्नेल घबराहट कंसोल पर दिखाई नहीं देती है, या यह दूषित है या बस अंतिम युगल लाइनें हैं, यही कारण है कि मैं एक सीरियल कंसोल पसंद करता हूं।
jsbillings

1
यह कर्नेल घबराहट की तरह नहीं लगता है। कंसोल स्विचिंग अभी भी काम करता है और लॉगिन प्रोग्राम अभी भी सक्रिय है।
mattdm

हाँ, मैं केंद्रीय syslog सर्वर पर पुनर्निर्देशित syslog था। लॉग में कुछ भी असामान्य नहीं है।
लुका मारिनको

3

मैं डोनट्स को शर्त लगाऊंगा कि आप स्मृति से बाहर चल रहे हैं। सिस्टम एक पड़ाव के लिए पीस रहा है क्योंकि यह पता लगाने की कोशिश करता है कि कहां से कुछ प्राप्त करना है। यह इतनी जल्दी हो सकता है कि आपकी निगरानी इसे पकड़ न पाए। मैं स्मृति के उपयोग के रिमोट लॉगिंग सहित निगरानी को बढ़ाता हूं। OOM संदेशों के लिए लॉग में भी जाँच करें।

(आप बस कुछ ssh विंडोज़ ओपन रनिंग टॉप चाहते हैं।)


3

मेरे लिए ऐसा लगता है कि सिस्टम संसाधनों से बाहर है, इसलिए ssh के सर्वर साइड द्वारा आवश्यक प्रक्रिया को आवंटित नहीं किया जा सकता है।

वास्तविक अड़चन अलग-अलग हो सकती है - प्रक्रियाओं से बाहर या स्मृति से बाहर - और सुनिश्चित करने का एकमात्र तरीका यह है कि लॉग और कंसोल को देखने के लिए कि क्या कुछ भी वहां मौजूद है। आप पहले से शुरू किए गए ssh-jobs का परिदृश्य सेट करना चाहते हैं - प्रत्येक मशीन में से एक - बस अगली बार तैयार होने के लिए ऐसा होता है।

यदि यह वास्तव में खराब है, तो आप अधिक अंतर्निहित कमांड के साथ एक और शेल शुरू करने पर विचार कर सकते हैं ताकि आप अतिरिक्त प्रक्रिया शुरू किए बिना अधिक जांच कर सकें क्योंकि यह संभव नहीं हो सकता है। इसके अलावा "टेल-एफ / वर् / लॉग / *" बहुत उपयोगी हो सकता है।

सौभाग्य।


0

एकमात्र बार जब मैंने कुछ समान देखा था, जहां KVM स्विच का उपयोग किया गया था और सर्वरों पर स्विच करने के लिए एक कीबोर्ड हॉट-की (जैसे alt + n) का उपयोग किया गया था। यह हर बार नहीं हुआ और यह सर्वर को प्रभावित होने से दूर रखा गया था - इसलिए यह तुरंत ध्यान देने योग्य नहीं था। यदि सर्वर के बीच स्विच करने के लिए KVM स्विच पर एक भौतिक बटन का उपयोग किया जाता है तो कोई लॉक-अप नहीं होगा। यदि हॉट-की का उपयोग अक्सर किया जाता था, तो कभी-कभी एक सर्वर नए लॉगिन की अनुमति नहीं देता। मौजूदा SSH सत्र अप्रभावित थे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.