जब कोई अछूता यूनिक्स सर्वर बेस्सर होने लगता है तो आप सबसे पहले क्या देखते हैं?

10

तो आप इस करीने से सेटअप यूनिक्स सर्वर है और यह सुपर फास्ट है और प्रफुल्लित करता है और सब कुछ महीनों के लिए महान है, और अचानक सभी प्रकार की अजीब त्रुटियां विभिन्न सेवाओं के लिए दिखाना शुरू कर देती हैं और उनमें से कोई भी अपने दम पर बहुत कुछ नहीं बनाता है। , एक साथ बहुत कम।

मशीन में अपना ssh सत्र मिलते ही आपको कौन सी सस्ती चीजें देखनी चाहिए?

मुझे विशेष रूप से उन आघात कथाओं में दिलचस्पी है जो गैर-स्पष्ट आदेशों और दुर्लभ स्थितियों को उजागर करती हैं, लेकिन मुझे लगता है कि स्पष्ट रूप से व्यक्ति से दूसरे व्यक्ति में भिन्नता है, इसलिए हम बस उन सभी को स्वतंत्र रूप से सूचीबद्ध कर सकते हैं।

— kch
स्रोत

19

पहला आदेश: क्या यह उत्तरदायी है?

यदि आप लॉग इन नहीं कर सकते हैं, तो बड़ी समस्याएं हैं। यह आमतौर पर दो स्वादों में आता है: हार्डवेयर विफलता और सॉफ्टवेयर विफलता। दोनों संभावित रूप से विनाशकारी हैं। डीएफए त्रुटियों को रोकने के लिए, पहले सामान्य हार्डवेयर स्वास्थ्य की जांच करें - एक साधारण नज़र-ओवर आमतौर पर पर्याप्त होगा।

दूसरा आदेश: क्या अच्छे स्वास्थ्य और व्यवस्था में सिस्टम की अंतर्निहित संरचनाएं हैं?

सिस्टम के "गोल्डन ट्रायड" की जाँच करें:

पर्याप्त सीपीयू समय प्रसंस्करण के लिए स्वतंत्र है
भंडारण के लिए पर्याप्त डिस्क स्थान मुफ्त है
वर्कलोड के लिए पर्याप्त मेमोरी मुफ्त है

पिछले कुछ दशकों में, त्रय ने "क्वाड" में विस्तार किया है जिसमें संचार (नेटवर्किंग) शामिल है:

कनेक्टिविटी कार्यात्मक, उत्तरदायी और क्षमता है

तीसरा आदेश: मुद्दे की गंभीरता क्या है?

क्या कार्यक्रम या सेवाएं प्रभावित होती हैं? गंभीरता के घटते क्रम में, क्या यह प्रणालीगत (सिस्टम-वाइड), क्लस्टर किए गए (कार्यक्रमों का एक समूह), या पृथक (एक विशिष्ट कार्यक्रम) है? कार्यक्रमों के क्लस्टर आमतौर पर ट्रिपिंग कर रहे हैं क्योंकि एक विशिष्ट अंतर्निहित सेवा विफल या अनुत्तरदायी हो गई है। प्रणालीगत मुद्दे कभी-कभी इस से संबंधित होते हैं (डीएनएस या आईपी संघर्षों के बारे में सोचते हैं) लेकिन यह जानना कि आमतौर पर कुंजी कहां है।

चौथा आदेश: क्या नैदानिक उपकरण समस्या से संबंधित उपयोगी डेटा प्रदान कर रहे हैं? अब जब आपके पास सिस्टम के स्वास्थ्य (दूसरे क्रम) के बारे में जानकारी है और इसके कौन से हिस्से मुद्दों (तीसरे क्रम) का सामना कर रहे हैं, तो यह समस्या को कम करने के लिए आसान बनाना चाहिए।

त्रुटि संदेश या लॉग फ़ाइलें इस यात्रा पर एक सामान्य तरीका होना चाहिए।

CPU समस्याएँ:

loadav
ऊपर
strace

डिस्क स्थान / आईओ मुद्दे:

df
डु
lsof
iostat
vmstat

मेमोरी समस्याएँ:

नि: शुल्क

कनेक्टिविटी समस्याएँ:

पिंग
मार्ग (और arp और rarp और मित्र)
iptables, ipchains, ipfw (उन BSD लोगों के लिए)
ट्रेसरआउट या mtr
मेजबानों, nslookup, या खुदाई
netstat

सबसे आम शिकायत (जो मैं सुनता हूं):

ईमेल बहुत तेज़ी से वितरित नहीं कर रहा है (प्राप्तकर्ता द्वारा रसीद भेजने से एक मिनट से अधिक) या, ईमेल भेजने के मेरे प्रयास को अस्वीकार कर रहा है। यह आमतौर पर एक स्पैम-तूफान के दौरान पोस्टफिक्स किकिंग में रेट लिमिटर के नीचे आता है, जो आंतरिक वितरण को स्वीकार करने की क्षमता को प्रभावित करता है।

एक वास्तविक जीवन का उदाहरण:

हालांकि, यह मामला हमेशा नहीं होता है। एक बार, सेवा पुनरारंभ होने के बावजूद समस्या बनी रही; इसलिए 3 मिनट के बाद चारों ओर देखना शुरू करने का समय था। सीपीयू व्यस्त था, लेकिन 100% से कम, फिर भी लोड केवल 2 कोर के एक बॉक्स पर 15 तक बढ़ गया था, और उच्च जाने की धमकी दे रहा था। शीर्ष कमांड ने खुलासा किया कि मेल स्कैनर के साथ-साथ मेल सिस्टम ओवरड्राइव में था, लेकिन देखने के लिए कोई भी ऐवीज चाइल्ड प्रोसेस नहीं थे। वह सुराग था - मेल कतार कमांड (मेलक) ने कुछ 150 + बिना किसी संदेश के दिखाया, जिसमें से 80% से अधिक स्पैम थेअंतिम 20 मिनट में। चाइल्ड ईमेल स्कैनर प्रक्रियाओं (बैकलॉग प्रोसेस में मदद करने के लिए) की संख्या में वृद्धि करते हुए, रेट लिमिटर (जो स्पैम स्टॉर्म की इंटेक रेट को कम करता है) के लिए एक त्वरित समायोजन, इसके बाद सेवा पुनरारंभ, समस्या का समाधान और सिस्टम सक्षम था कम समय में प्रसव पूरा करने के लिए।

समस्या का कारण यह था कि अमावि माता-पिता की प्रक्रिया मृत हो गई थी, और बच्चे की प्रक्रियाओं ने आखिरकार अपना पाठ्यक्रम चला दिया था (वे मेमोरी लीक को रोकने के लिए इतने सारे स्कैन के बाद स्व-समाप्त हो गए थे)। इसलिए पोस्टफ़िक्स में एसएमटीपी प्रक्रियाएँ थीं ... संपर्क करने की कोशिश ... पतली हवा ... जो आवश्यक था स्पैम / वायरस स्कैनिंग करने के लिए। मैं जिस डिस्ट्रो का उपयोग कर रहा था उसके आउट-ऑफ-डेट पैकेज थे जिन्हें कभी भी अपडेट नहीं किया जाएगा; चूंकि स्थापना को एक या एक वर्ष में प्रतिस्थापित किया जाना था, इसलिए मैंने मैन्युअल रूप से इंस्टॉल को नवीनतम संस्करण में "ओवररोड" किया, जिसमें कई बग फिक्स शामिल थे। मैं के बाद से एक ही समस्या नहीं थी।

— एवरी पायने
स्रोत

5

आमतौर पर "अंतिम" के बाद "कौन"

मैंने कई बार मशीनों पर मुद्दों का ढेर "अछूता" की बहुत ढीली परिभाषा के कारण किया है - अक्सर किसी ने किया है :)

— मार्क रेगेन्सबर्ग
स्रोत

4

खैर, मैं शुरू करूँगा।

यह एक बार मुझे एक बार, मैंने हजारों अलग-अलग चीजों की कोशिश करते हुए घंटों बिताया, यहां सेवाओं को अक्षम करना, रिबूट करना, आदि क्या समस्या थी? पूरी तरह से डिस्क स्थान से बाहर।

इसलिए, यहां पहली बात यह है कि जब मैं अचानक परेशान सर्वर को डीबग करता हूं:

df -h

मैं अब कभी नहीं भूल सकता। इसने मुझे बहुत सारे व्यर्थ प्रयासों से बचाया। सोचा था कि साझा करूंगा।

— kch
स्रोत

2

शीर्ष (या htop)

— ओली
स्रोत

1

या सोलारिस पर prstat।

— kch

1

यदि आप कर सकते हैं तो मैं हमेशा सभी एनआईसी को बंद करने की कोशिश करूंगा, प्रबंधन को एक बार।

— Chopper3
स्रोत

1

किसी भी त्रुटि के लिए dmesg की जाँच करना - मैं आमतौर पर एक के साथ शुरू करता हूं dmesg | tail, क्योंकि संभावना है कि चीजें अभी भी गलत हो रही हैं और सर्वर अभी भी वह करने की कोशिश कर रहा है जो त्रुटि पैदा कर रहा है।

— एंडी
स्रोत

0

पहली चीज जो मैं देख रहा हूं वह है 'टॉप' (क्या कोई अजीब प्रक्रिया है? जो मेमोरी या सीपीयू टाइम को हॉग करते हैं।)

अगर वहाँ कुछ भी नहीं मुड़ता है, तो मैं 'कौन' की जाँच करूँगा कि कोई और किसी कारण से मेरी मशीन पर है या नहीं।

हो सकता है कि एक फाइल सिस्टम बिगड़ गया हो; 'cat / etc / mtab' और फिर 'fstab' को यह सुनिश्चित करने के लिए कॉल करें कि सब कुछ बूट पर सही आएगा।

यह सुनिश्चित करने के लिए अपटाइम चेक करें कि बॉक्स पर उपयोगकर्ताओं के # उचित है (केवल आप ही होना चाहिए) और फिर var / log / schem.log के माध्यम से स्किम करें कि क्या वहां कुछ भी गड़बड़ है या नहीं।

ये कैच-ऑल हैं। आपके बॉक्स को फेंकने वाली त्रुटियों के आधार पर, आपको विशिष्ट प्रक्रियाओं की जांच करने की आवश्यकता हो सकती है जो परेशानी का कारण बन रही हैं।

— ParoX
स्रोत

0

शीर्ष df -h और ALWAYS चेक / var / लॉग यह सुनिश्चित करने के लिए कि विभाजन नहीं भरा है। कि कुछ समय में मुझ पर कुल पिघल गया है।

— Nolte
स्रोत

0

df -ha

यह जांचने के लिए कि क्या हार्डड्राइव भरा हुआ है और किसी को चेतावनी नहीं मिली है

htop या शीर्ष

स्मृति और सीपीयू उपयोग की जांच असामान्य रूप से उच्च नहीं है।

वैकल्पिक रूप से अगर बॉक्स जवाब नहीं दे रहा है तो मैं vm- वेयर क्लाइंट में जाता हूं और वहां से cpu / ram चेक करता हूं।

— Omegatron
स्रोत

0

होस्ट पर कुछ ( जैसे ) सर चलाना लगभग अनिवार्य है। सीपीयू, नेटवर्क, मेमोरी और डिस्क I / O (दूसरों के बीच) के ऐतिहासिक स्नैपशॉट प्राप्त करने में सक्षम होने की उपयोगिता को नहीं समझा जा सकता है।

कई बार ऐसा हुआ है कि मैं पिछले 24 घंटों में मेजबान क्या कर रहा था, इसकी जांच करके एक गलती का निदान करने में सक्षम हूं, और जब चीजें गड़बड़ होने लगीं।

— गैविन मैकटगार्ट
स्रोत

0

लिनक्स पर, मैं आमतौर पर dmesg और / var / log / संदेश या / var / log / syslog चेक करता हूं। dmesg इंगित करेगा कि क्या यह अचानक हार्डवेयर दोष है; सिस्टम लॉग में काफी अन्य समस्याएं दिखाई देंगी।

— pjc50
स्रोत

0

मुझे लगता है मैं पहली बात यह है कि एक डिस्क स्थान की जाँच है (जैसा कि दूसरों ने उल्लेख किया है)। यदि साधारण जांच "आम" समस्या को प्रकट नहीं करती है, तो मैं आगे की जांच करूंगा।

एक चीज जो मुझे करना पसंद है वह है सिस्टम का स्नैपशॉट कैप्चर करना। मैं इन चीजों को देखने के लिए बाद में कुछ भी कर सकता हूं जिसने मेरी आंख को पकड़ लिया है।

lsof > /tmp/lsof.tmp &
ps auxfw > /tmp/ps.tmp &
netstat -anp > /tmp/netstat.tmp &

वहाँ से यह 101 की समस्या निवारण है, लेकिन मैं इसे सहेजे गए लॉग को grep करने के लिए थोड़ी तेज़ी से पाता हूं और अगर मैं लॉग इन करने के दौरान स्थिति साफ़ करता हूं तो मुझे कुछ करना है या परिवर्तनों को देखना है।

— एडी
स्रोत