जब कोई अछूता यूनिक्स सर्वर बेस्सर होने लगता है तो आप सबसे पहले क्या देखते हैं?


10

तो आप इस करीने से सेटअप यूनिक्स सर्वर है और यह सुपर फास्ट है और प्रफुल्लित करता है और सब कुछ महीनों के लिए महान है, और अचानक सभी प्रकार की अजीब त्रुटियां विभिन्न सेवाओं के लिए दिखाना शुरू कर देती हैं और उनमें से कोई भी अपने दम पर बहुत कुछ नहीं बनाता है। , एक साथ बहुत कम।

मशीन में अपना ssh सत्र मिलते ही आपको कौन सी सस्ती चीजें देखनी चाहिए?

मुझे विशेष रूप से उन आघात कथाओं में दिलचस्पी है जो गैर-स्पष्ट आदेशों और दुर्लभ स्थितियों को उजागर करती हैं, लेकिन मुझे लगता है कि स्पष्ट रूप से व्यक्ति से दूसरे व्यक्ति में भिन्नता है, इसलिए हम बस उन सभी को स्वतंत्र रूप से सूचीबद्ध कर सकते हैं।

जवाबों:


19

पहला आदेश: क्या यह उत्तरदायी है?

यदि आप लॉग इन नहीं कर सकते हैं, तो बड़ी समस्याएं हैं। यह आमतौर पर दो स्वादों में आता है: हार्डवेयर विफलता और सॉफ्टवेयर विफलता। दोनों संभावित रूप से विनाशकारी हैं। डीएफए त्रुटियों को रोकने के लिए, पहले सामान्य हार्डवेयर स्वास्थ्य की जांच करें - एक साधारण नज़र-ओवर आमतौर पर पर्याप्त होगा।

दूसरा आदेश: क्या अच्छे स्वास्थ्य और व्यवस्था में सिस्टम की अंतर्निहित संरचनाएं हैं?

सिस्टम के "गोल्डन ट्रायड" की जाँच करें:

  • पर्याप्त सीपीयू समय प्रसंस्करण के लिए स्वतंत्र है
  • भंडारण के लिए पर्याप्त डिस्क स्थान मुफ्त है
  • वर्कलोड के लिए पर्याप्त मेमोरी मुफ्त है

पिछले कुछ दशकों में, त्रय ने "क्वाड" में विस्तार किया है जिसमें संचार (नेटवर्किंग) शामिल है:

  • कनेक्टिविटी कार्यात्मक, उत्तरदायी और क्षमता है

तीसरा आदेश: मुद्दे की गंभीरता क्या है?

क्या कार्यक्रम या सेवाएं प्रभावित होती हैं? गंभीरता के घटते क्रम में, क्या यह प्रणालीगत (सिस्टम-वाइड), क्लस्टर किए गए (कार्यक्रमों का एक समूह), या पृथक (एक विशिष्ट कार्यक्रम) है? कार्यक्रमों के क्लस्टर आमतौर पर ट्रिपिंग कर रहे हैं क्योंकि एक विशिष्ट अंतर्निहित सेवा विफल या अनुत्तरदायी हो गई है। प्रणालीगत मुद्दे कभी-कभी इस से संबंधित होते हैं (डीएनएस या आईपी संघर्षों के बारे में सोचते हैं) लेकिन यह जानना कि आमतौर पर कुंजी कहां है।

चौथा आदेश: क्या नैदानिक ​​उपकरण समस्या से संबंधित उपयोगी डेटा प्रदान कर रहे हैं? अब जब आपके पास सिस्टम के स्वास्थ्य (दूसरे क्रम) के बारे में जानकारी है और इसके कौन से हिस्से मुद्दों (तीसरे क्रम) का सामना कर रहे हैं, तो यह समस्या को कम करने के लिए आसान बनाना चाहिए।

त्रुटि संदेश या लॉग फ़ाइलें इस यात्रा पर एक सामान्य तरीका होना चाहिए।

CPU समस्याएँ:

  • loadav
  • ऊपर
  • strace

डिस्क स्थान / आईओ मुद्दे:

  • df
  • डु
  • lsof
  • iostat
  • vmstat

मेमोरी समस्याएँ:

  • नि: शुल्क

कनेक्टिविटी समस्याएँ:

  • पिंग
  • मार्ग (और arp और rarp और मित्र)
  • iptables, ipchains, ipfw (उन BSD लोगों के लिए)
  • ट्रेसरआउट या mtr
  • मेजबानों, nslookup, या खुदाई
  • netstat

सबसे आम शिकायत (जो मैं सुनता हूं):

ईमेल बहुत तेज़ी से वितरित नहीं कर रहा है (प्राप्तकर्ता द्वारा रसीद भेजने से एक मिनट से अधिक) या, ईमेल भेजने के मेरे प्रयास को अस्वीकार कर रहा है। यह आमतौर पर एक स्पैम-तूफान के दौरान पोस्टफिक्स किकिंग में रेट लिमिटर के नीचे आता है, जो आंतरिक वितरण को स्वीकार करने की क्षमता को प्रभावित करता है।

एक वास्तविक जीवन का उदाहरण:

हालांकि, यह मामला हमेशा नहीं होता है। एक बार, सेवा पुनरारंभ होने के बावजूद समस्या बनी रही; इसलिए 3 मिनट के बाद चारों ओर देखना शुरू करने का समय था। सीपीयू व्यस्त था, लेकिन 100% से कम, फिर भी लोड केवल 2 कोर के एक बॉक्स पर 15 तक बढ़ गया था, और उच्च जाने की धमकी दे रहा था। शीर्ष कमांड ने खुलासा किया कि मेल स्कैनर के साथ-साथ मेल सिस्टम ओवरड्राइव में था, लेकिन देखने के लिए कोई भी ऐवीज चाइल्ड प्रोसेस नहीं थे। वह सुराग था - मेल कतार कमांड (मेलक) ने कुछ 150 + बिना किसी संदेश के दिखाया, जिसमें से 80% से अधिक स्पैम थेअंतिम 20 मिनट में। चाइल्ड ईमेल स्कैनर प्रक्रियाओं (बैकलॉग प्रोसेस में मदद करने के लिए) की संख्या में वृद्धि करते हुए, रेट लिमिटर (जो स्पैम स्टॉर्म की इंटेक रेट को कम करता है) के लिए एक त्वरित समायोजन, इसके बाद सेवा पुनरारंभ, समस्या का समाधान और सिस्टम सक्षम था कम समय में प्रसव पूरा करने के लिए।

समस्या का कारण यह था कि अमावि माता-पिता की प्रक्रिया मृत हो गई थी, और बच्चे की प्रक्रियाओं ने आखिरकार अपना पाठ्यक्रम चला दिया था (वे मेमोरी लीक को रोकने के लिए इतने सारे स्कैन के बाद स्व-समाप्त हो गए थे)। इसलिए पोस्टफ़िक्स में एसएमटीपी प्रक्रियाएँ थीं ... संपर्क करने की कोशिश ... पतली हवा ... जो आवश्यक था स्पैम / वायरस स्कैनिंग करने के लिए। मैं जिस डिस्ट्रो का उपयोग कर रहा था उसके आउट-ऑफ-डेट पैकेज थे जिन्हें कभी भी अपडेट नहीं किया जाएगा; चूंकि स्थापना को एक या एक वर्ष में प्रतिस्थापित किया जाना था, इसलिए मैंने मैन्युअल रूप से इंस्टॉल को नवीनतम संस्करण में "ओवररोड" किया, जिसमें कई बग फिक्स शामिल थे। मैं के बाद से एक ही समस्या नहीं थी।


5

आमतौर पर "अंतिम" के बाद "कौन"

मैंने कई बार मशीनों पर मुद्दों का ढेर "अछूता" की बहुत ढीली परिभाषा के कारण किया है - अक्सर किसी ने किया है :)


4

खैर, मैं शुरू करूँगा।

यह एक बार मुझे एक बार, मैंने हजारों अलग-अलग चीजों की कोशिश करते हुए घंटों बिताया, यहां सेवाओं को अक्षम करना, रिबूट करना, आदि क्या समस्या थी? पूरी तरह से डिस्क स्थान से बाहर।

इसलिए, यहां पहली बात यह है कि जब मैं अचानक परेशान सर्वर को डीबग करता हूं:

df -h

मैं अब कभी नहीं भूल सकता। इसने मुझे बहुत सारे व्यर्थ प्रयासों से बचाया। सोचा था कि साझा करूंगा।



1

यदि आप कर सकते हैं तो मैं हमेशा सभी एनआईसी को बंद करने की कोशिश करूंगा, प्रबंधन को एक बार।


1

किसी भी त्रुटि के लिए dmesg की जाँच करना - मैं आमतौर पर एक के साथ शुरू करता हूं dmesg | tail, क्योंकि संभावना है कि चीजें अभी भी गलत हो रही हैं और सर्वर अभी भी वह करने की कोशिश कर रहा है जो त्रुटि पैदा कर रहा है।


0

पहली चीज जो मैं देख रहा हूं वह है 'टॉप' (क्या कोई अजीब प्रक्रिया है? जो मेमोरी या सीपीयू टाइम को हॉग करते हैं।)

अगर वहाँ कुछ भी नहीं मुड़ता है, तो मैं 'कौन' की जाँच करूँगा कि कोई और किसी कारण से मेरी मशीन पर है या नहीं।

हो सकता है कि एक फाइल सिस्टम बिगड़ गया हो; 'cat / etc / mtab' और फिर 'fstab' को यह सुनिश्चित करने के लिए कॉल करें कि सब कुछ बूट पर सही आएगा।

यह सुनिश्चित करने के लिए अपटाइम चेक करें कि बॉक्स पर उपयोगकर्ताओं के # उचित है (केवल आप ही होना चाहिए) और फिर var / log / schem.log के माध्यम से स्किम करें कि क्या वहां कुछ भी गड़बड़ है या नहीं।

ये कैच-ऑल हैं। आपके बॉक्स को फेंकने वाली त्रुटियों के आधार पर, आपको विशिष्ट प्रक्रियाओं की जांच करने की आवश्यकता हो सकती है जो परेशानी का कारण बन रही हैं।


0

शीर्ष df -h और ALWAYS चेक / var / लॉग यह सुनिश्चित करने के लिए कि विभाजन नहीं भरा है। कि कुछ समय में मुझ पर कुल पिघल गया है।


0

df -ha

यह जांचने के लिए कि क्या हार्डड्राइव भरा हुआ है और किसी को चेतावनी नहीं मिली है

htop या शीर्ष

स्मृति और सीपीयू उपयोग की जांच असामान्य रूप से उच्च नहीं है।

वैकल्पिक रूप से अगर बॉक्स जवाब नहीं दे रहा है तो मैं vm- वेयर क्लाइंट में जाता हूं और वहां से cpu / ram चेक करता हूं।


0

होस्ट पर कुछ ( जैसे ) सर चलाना लगभग अनिवार्य है। सीपीयू, नेटवर्क, मेमोरी और डिस्क I / O (दूसरों के बीच) के ऐतिहासिक स्नैपशॉट प्राप्त करने में सक्षम होने की उपयोगिता को नहीं समझा जा सकता है।

कई बार ऐसा हुआ है कि मैं पिछले 24 घंटों में मेजबान क्या कर रहा था, इसकी जांच करके एक गलती का निदान करने में सक्षम हूं, और जब चीजें गड़बड़ होने लगीं।


0

लिनक्स पर, मैं आमतौर पर dmesg और / var / log / संदेश या / var / log / syslog चेक करता हूं। dmesg इंगित करेगा कि क्या यह अचानक हार्डवेयर दोष है; सिस्टम लॉग में काफी अन्य समस्याएं दिखाई देंगी।


0

मुझे लगता है मैं पहली बात यह है कि एक डिस्क स्थान की जाँच है (जैसा कि दूसरों ने उल्लेख किया है)। यदि साधारण जांच "आम" समस्या को प्रकट नहीं करती है, तो मैं आगे की जांच करूंगा।

एक चीज जो मुझे करना पसंद है वह है सिस्टम का स्नैपशॉट कैप्चर करना। मैं इन चीजों को देखने के लिए बाद में कुछ भी कर सकता हूं जिसने मेरी आंख को पकड़ लिया है।

lsof > /tmp/lsof.tmp &
ps auxfw > /tmp/ps.tmp &
netstat -anp > /tmp/netstat.tmp &

वहाँ से यह 101 की समस्या निवारण है, लेकिन मैं इसे सहेजे गए लॉग को grep करने के लिए थोड़ी तेज़ी से पाता हूं और अगर मैं लॉग इन करने के दौरान स्थिति साफ़ करता हूं तो मुझे कुछ करना है या परिवर्तनों को देखना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.