पहला आदेश: क्या यह उत्तरदायी है?
यदि आप लॉग इन नहीं कर सकते हैं, तो बड़ी समस्याएं हैं। यह आमतौर पर दो स्वादों में आता है: हार्डवेयर विफलता और सॉफ्टवेयर विफलता। दोनों संभावित रूप से विनाशकारी हैं। डीएफए त्रुटियों को रोकने के लिए, पहले सामान्य हार्डवेयर स्वास्थ्य की जांच करें - एक साधारण नज़र-ओवर आमतौर पर पर्याप्त होगा।
दूसरा आदेश: क्या अच्छे स्वास्थ्य और व्यवस्था में सिस्टम की अंतर्निहित संरचनाएं हैं?
सिस्टम के "गोल्डन ट्रायड" की जाँच करें:
- पर्याप्त सीपीयू समय प्रसंस्करण के लिए स्वतंत्र है
- भंडारण के लिए पर्याप्त डिस्क स्थान मुफ्त है
- वर्कलोड के लिए पर्याप्त मेमोरी मुफ्त है
पिछले कुछ दशकों में, त्रय ने "क्वाड" में विस्तार किया है जिसमें संचार (नेटवर्किंग) शामिल है:
- कनेक्टिविटी कार्यात्मक, उत्तरदायी और क्षमता है
तीसरा आदेश: मुद्दे की गंभीरता क्या है?
क्या कार्यक्रम या सेवाएं प्रभावित होती हैं? गंभीरता के घटते क्रम में, क्या यह प्रणालीगत (सिस्टम-वाइड), क्लस्टर किए गए (कार्यक्रमों का एक समूह), या पृथक (एक विशिष्ट कार्यक्रम) है? कार्यक्रमों के क्लस्टर आमतौर पर ट्रिपिंग कर रहे हैं क्योंकि एक विशिष्ट अंतर्निहित सेवा विफल या अनुत्तरदायी हो गई है। प्रणालीगत मुद्दे कभी-कभी इस से संबंधित होते हैं (डीएनएस या आईपी संघर्षों के बारे में सोचते हैं) लेकिन यह जानना कि आमतौर पर कुंजी कहां है।
चौथा आदेश: क्या नैदानिक उपकरण समस्या से संबंधित उपयोगी डेटा प्रदान कर रहे हैं?
अब जब आपके पास सिस्टम के स्वास्थ्य (दूसरे क्रम) के बारे में जानकारी है और इसके कौन से हिस्से मुद्दों (तीसरे क्रम) का सामना कर रहे हैं, तो यह समस्या को कम करने के लिए आसान बनाना चाहिए।
त्रुटि संदेश या लॉग फ़ाइलें इस यात्रा पर एक सामान्य तरीका होना चाहिए।
CPU समस्याएँ:
डिस्क स्थान / आईओ मुद्दे:
मेमोरी समस्याएँ:
कनेक्टिविटी समस्याएँ:
- पिंग
- मार्ग (और arp और rarp और मित्र)
- iptables, ipchains, ipfw (उन BSD लोगों के लिए)
- ट्रेसरआउट या mtr
- मेजबानों, nslookup, या खुदाई
- netstat
सबसे आम शिकायत (जो मैं सुनता हूं):
ईमेल बहुत तेज़ी से वितरित नहीं कर रहा है (प्राप्तकर्ता द्वारा रसीद भेजने से एक मिनट से अधिक) या, ईमेल भेजने के मेरे प्रयास को अस्वीकार कर रहा है। यह आमतौर पर एक स्पैम-तूफान के दौरान पोस्टफिक्स किकिंग में रेट लिमिटर के नीचे आता है, जो आंतरिक वितरण को स्वीकार करने की क्षमता को प्रभावित करता है।
एक वास्तविक जीवन का उदाहरण:
हालांकि, यह मामला हमेशा नहीं होता है। एक बार, सेवा पुनरारंभ होने के बावजूद समस्या बनी रही; इसलिए 3 मिनट के बाद चारों ओर देखना शुरू करने का समय था। सीपीयू व्यस्त था, लेकिन 100% से कम, फिर भी लोड केवल 2 कोर के एक बॉक्स पर 15 तक बढ़ गया था, और उच्च जाने की धमकी दे रहा था। शीर्ष कमांड ने खुलासा किया कि मेल स्कैनर के साथ-साथ मेल सिस्टम ओवरड्राइव में था, लेकिन देखने के लिए कोई भी ऐवीज चाइल्ड प्रोसेस नहीं थे। वह सुराग था - मेल कतार कमांड (मेलक) ने कुछ 150 + बिना किसी संदेश के दिखाया, जिसमें से 80% से अधिक स्पैम थेअंतिम 20 मिनट में। चाइल्ड ईमेल स्कैनर प्रक्रियाओं (बैकलॉग प्रोसेस में मदद करने के लिए) की संख्या में वृद्धि करते हुए, रेट लिमिटर (जो स्पैम स्टॉर्म की इंटेक रेट को कम करता है) के लिए एक त्वरित समायोजन, इसके बाद सेवा पुनरारंभ, समस्या का समाधान और सिस्टम सक्षम था कम समय में प्रसव पूरा करने के लिए।
समस्या का कारण यह था कि अमावि माता-पिता की प्रक्रिया मृत हो गई थी, और बच्चे की प्रक्रियाओं ने आखिरकार अपना पाठ्यक्रम चला दिया था (वे मेमोरी लीक को रोकने के लिए इतने सारे स्कैन के बाद स्व-समाप्त हो गए थे)। इसलिए पोस्टफ़िक्स में एसएमटीपी प्रक्रियाएँ थीं ... संपर्क करने की कोशिश ... पतली हवा ... जो आवश्यक था स्पैम / वायरस स्कैनिंग करने के लिए। मैं जिस डिस्ट्रो का उपयोग कर रहा था उसके आउट-ऑफ-डेट पैकेज थे जिन्हें कभी भी अपडेट नहीं किया जाएगा; चूंकि स्थापना को एक या एक वर्ष में प्रतिस्थापित किया जाना था, इसलिए मैंने मैन्युअल रूप से इंस्टॉल को नवीनतम संस्करण में "ओवररोड" किया, जिसमें कई बग फिक्स शामिल थे। मैं के बाद से एक ही समस्या नहीं थी।