मुझे आपके द्वारा किए गए सिस्टम व्यवस्थापक दुर्घटनाओं की मनोरंजक कहानियों की तलाश है। सीईओ का ईमेल हटाना, गलत हार्ड ड्राइव को फॉर्मेट करना आदि।
मैं एक उत्तर के रूप में अपनी कहानी जोड़ूंगा।
मुझे आपके द्वारा किए गए सिस्टम व्यवस्थापक दुर्घटनाओं की मनोरंजक कहानियों की तलाश है। सीईओ का ईमेल हटाना, गलत हार्ड ड्राइव को फॉर्मेट करना आदि।
मैं एक उत्तर के रूप में अपनी कहानी जोड़ूंगा।
जवाबों:
मुझे लाइनक्स "किल्लल" कमांड के बीच अंतर का पता लगाने में मज़ा आया (सभी प्रक्रियाओं को निर्दिष्ट नाम से मेल खाता है, लाश को रोकने के लिए उपयोगी है) और सोलारिस "किंडल" कमांड (सभी प्रक्रियाओं को मारता है और सिस्टम को रोक देता है, उत्पादन सर्वर को रोकने के लिए उपयोगी है) पीक आवर्स के बीच में और अपने सभी सहकर्मियों को एक सप्ताह के लिए आपको हँसाने के लिए)।
hostname -f
लिनक्स पर लिनक्स पर पूरी तरह से योग्य डोमेन नाम प्रिंट करता है। सोलारिस पर, यह होस्टनाम को सेट करता है -f
।
मैं हमारे कॉर्पोरेट वेब प्रॉक्सी का प्रभारी था जो उस समय नेटस्केप का उत्पाद था। चारों ओर व्यवस्थापक रूपों में खेलते हुए (यह एक वेब आधारित इंटरफ़ेस था) एक बड़ा था (और मैं कसम खाता हूं कि यह लाल था) बटन ने कहा कि डिलीट यूजर डेटाबेस । कोई बात नहीं, मैंने सोचा। आइए देखें कि जब मैं हिट करता हूं तो यह मुझे क्या विकल्प देता है। यदि कोई विकल्प नहीं है तो निश्चित रूप से एक पुष्टिकरण संकेत होगा।
हाँ, कोई पुष्टि नहीं। कोई विकल्प नहीं। कोई और अधिक उपयोगकर्ता।
इसलिए, श्री सोलारिस सिसडमिन के पास गया और कहा कि मुझे टेप से एक पुनर्स्थापना की सख्त जरूरत थी, जिसका उन्होंने जवाब दिया, "मैं उस बॉक्स को वापस नहीं करता।"
"उह, फिर से आओ," मैं पीछे हट गया।
"मैं उस बॉक्स को वापस नहीं करता। यह बैकअप रोटेशन में जोड़ने के लिए मेरी चीजों की सूची में है, लेकिन मैंने अभी तक इसके आसपास नहीं देखा है।"
"यह सर्वर लगभग 8 महीने तक उत्पादन में रहा है!" मैं चीख उठी।
श्रग , उन्होंने जवाब दिया। "माफ़ करना।"
कई साल पहले मैंने जिस कंपनी के लिए काम किया था, उसके पास एक क्लाइंट था जो अपने NT 4.0 सर्वर के रात्रिकालीन बैकअप को Jaz ड्राइव (एक उच्च क्षमता वाली ज़िप डिस्क की तरह) चलाता था ।
हमने एक बैच फ़ाइल स्थापित की, जो रातों-रात एक निर्धारित कार्य के रूप में चली। हर सुबह वे ड्राइव से आखिरी रात की डिस्क एकत्र करते हैं, और शाम को निकलने से पहले वे अगली डिस्क को अनुक्रम में सम्मिलित करते हैं।
वैसे भी, बैच फ़ाइल कुछ इस तरह दिखती थी (जैज़ ड्राइव एफ थी:) ...
@echo off
F:
deltree /y *.*
xcopy <important files> F:
वैसे भी, एक रात वे डिस्क डालना भूल गए। F: ड्राइव में परिवर्तन F: विफल (ड्राइव में कोई डिस्क नहीं), और बैच फ़ाइल चलती रही। बैच फ़ाइल के लिए डिफ़ॉल्ट कार्यशील निर्देशिका? सी:। पहली बार मैंने एक बैकअप रूटीन देखा है जो सर्वर को नष्ट कर रहा था।
मैंने उस दिन sysadminning (और अपवाद से निपटने) के बारे में कुछ सीखा।
जिम।
पुनश्च: ठीक है? "डेल्ट्री / वाई एफ: \ *। *"।
root @ dbhost # / / -name core -exec rm -f {} \;
मैं: "आप अंदर नहीं जा सकते? ठीक है। डीबी नाम क्या है?"
Cu: "कोर।"
मैं: "ओह।"
मैं उस तरह से प्यार करता हूं जिस तरह से हर कोई अपनी कहानी को "जब मैं छोटा / हरा था" के साथ अर्हता प्राप्त करता हूं जैसे कि वे फिर कभी नहीं करेंगे। दुर्घटनाएं भी सबसे अनुभवी पेशेवरों के लिए हो सकती हैं।
मेरा खुद का सबसे बुरा पल इतना बुरा है कि मुझे अभी भी इसके बारे में सोचने के लिए तालियाँ मिलती हैं ...
हम एक था SAN इस पर उत्पादन डेटा के साथ। कंपनी के लिए महत्वपूर्ण। मेरे "संरक्षक" ने कुछ डिस्क स्थान को मुक्त करने के लिए एक विभाजन का विस्तार करने का निर्णय लिया। क्या आप देख सकते हैं कि यह कहाँ जा रहा है? उन्होंने कहा कि SAN सॉफ्टवेयर इसे लाइव कर सकता है, उत्पादन घंटों में और कोई भी नोटिस नहीं करेगा। अलार्म की घंटी बजनी चाहिए थी, लेकिन स्पष्ट रूप से चुप थे। उन्होंने कहा कि उन्होंने बिना किसी समस्या के "समय से पहले लोड" किया। लेकिन यहाँ बात है - उसने मुझे बटन पर क्लिक करने के लिए कहा कि "क्या आप सुनिश्चित हैं?" जैसा कि मैं कंपनी के लिए नया था, मुझे लगा कि यह लड़का जानता है कि वह किस बारे में बात कर रहा था। बड़ी गलती। अच्छी खबर यह थी कि LUN बढ़ गया। बुरी खबर थी ... अच्छी तरह से मुझे पता था कि बुरी खबर थी जब मैंने विंडोज बॉक्स पर डिस्क लिखना त्रुटियों को देखना शुरू कर दिया था।
मुझे खुशी है कि मैंने भूरे रंग की पैंट पहन रखी थी।
हमें यह बताना था कि लंच के समय 1TB डेटा क्यों गायब हो गया था। वह सचमुच बहुत बुरा दिन था।
यह वास्तव में एक अच्छा सिद्धांत है - इससे पहले कि आप कुछ ऐसा करें जिसके बारे में आपको संदेह है, कल्पना करें कि यदि कुछ गलत हो जाता है, तो प्रबंधन को समझाने के लिए। यदि आप अपने कार्यों को समझाने के लिए एक अच्छे उत्तर के बारे में नहीं सोच सकते हैं तो ऐसा न करें।
नागियोस ने हमें एक सुबह पिंग किया जब व्यापारिक घंटे कहने लगे कि यह एक गैर-महत्वपूर्ण सर्वर से कनेक्ट नहीं हो सकता है। ठीक है, सर्वर रूम में वृद्धि। यह एक पुराना सर्वर है, एक डेल 1650 जिसे '02 में खरीदा गया था, और हम जानते थे कि 1650 में हार्डवेयर की समस्या रही है। PFY पावर बटन को दबा देता है। कुछ भी तो नहीं। इसे फिर से मारो, और इसे पांच सेकंड के लिए 'बल पर शक्ति' के लिए पकड़ो ... जो BMC की त्रुटि सुरक्षा को ओवरराइड करता है, क्योंकि DRAC के बिना हवाई जहाज़ के पहिये पर शक्ति होने के बिना BMC लॉग की जांच करने का कोई तरीका नहीं है।
मशीन POST शुरू करती है, और फिर फिर से मर जाती है। मैं इसके ऊपर खड़ा हूं और जा रहा हूं, "मुझे धुएं की गंध आती है।" हम सर्वर को रेल पर खींचते हैं, और बिजली की आपूर्ति में से एक गर्म महसूस करता है, इसलिए पीएफवाई इसे खींचता है और बॉक्स को वापस बंद करने वाला है। मैं कहता हूं, "नहीं, यह बिजली की आपूर्ति वाला धुआं नहीं है, यह मदरबोर्ड का धुआं है।"
हम मामले को फिर से खोलते हैं और जलती हुई गंध के स्रोत की तलाश करते हैं। एक प्रारंभ करनेवाला कुंडल और एक संधारित्र बाहर कुछ बदल जाता है, जो मदरबोर्ड पर वोल्टेज नियामक को उड़ा देता है, और पिघला हुआ तांबा और संधारित्र गूप को सब कुछ भर देता है, सामान की एक गुच्छा को छोटा करता है और मूल रूप से एक बड़ा गड़बड़ करता है।
मेरे लिए सबसे बुरा हिस्सा यह पहचान रहा था कि एक जले हुए मदरबोर्ड की गंध और एक जले हुए बिजली की आपूर्ति के बीच के अंतर को पहचानने के लिए मैंने पर्याप्त हार्डवेयर का धूम्रपान किया है।
तीन दिन पहले (गंभीरता से) मुझे दूरस्थ रूप से एक स्कूल सर्वर में लॉग इन किया गया था, जो कि Windows Server 2008 फ़ाइल सर्वर पर सर्विस पैक 2 स्थापित करता है।
मैंने देर रात के लिए आवश्यक रिबूट को शेड्यूल करने का फैसला किया, जब शिक्षकों को अपने अंत-वर्ष के रिपोर्ट कार्ड को पूरा करने पर लॉग इन नहीं किया जाएगा। मैंने कुछ टाइप किया:
23:59 बजे "शटडाउन -r -t 0"
... जो ठीक काम किया होगा।
लेकिन फिर मैंने खुद को दूसरा अनुमान लगाया। क्या मेरा 'शटडाउन' वाक्यविन्यास सही था? मैंने टाइपिंग मदद का उपयोग करके देखने का प्रयास किया
शटडाउन / एच
... और तुरन्त मेरा RDP कनेक्शन खो गया। पैनिकिंग, मैंने सिंटैक्स के लिए Google को हिट किया। एक त्वरित खोज से पता चला कि शटडाउन के सर्वर 2008 संस्करण में एक / एच स्विच शामिल है, जो (जैसा कि आप अनुमान लगा सकते हैं) मशीन को हाइबरनेट करता है।
शिक्षकों ने मुझे रिपोर्ट करने के लिए मिनटों के भीतर फोन करना शुरू कर दिया कि वे अब उन रिपोर्ट कार्डों को खोल या सहेज नहीं सकते, जो वे काम कर रहे थे। चूँकि मैं ऑफसाइट था और सर्वर रूम लॉक था, इसलिए मुझे स्कूल के प्रिंसिपल को सीधे फोन करना पड़ा और मशीन को फिर से चालू करने की प्रक्रिया से चलना पड़ा।
आज मैं माफी के रूप में सभी के लिए घर का बना कुकीज़ लाया।
/?
पहले!
man shutdown
। मुझे पता है कि मैं समस्याओं के कारण नहीं जा रहा हूँ man
!
पिछली नौकरी में, हमारे पास एक महान घरेलू सिस्टम था जो मेल के हर एक टुकड़े को लॉग इन करता था और संग्रहित करता था, जो कंपनी के भीतर प्रवेश किया, छोड़ दिया या बना रहा।
अपने पूरे मेलबॉक्स को हटा दें? कोई दिक्कत नहीं है! मेल के एक टुकड़े की तलाश में जो किसी ने आपको एक सप्ताह / महीना / वर्ष पहले भेजा था लेकिन आपको याद नहीं है कि किसने इसे भेजा था या विषय क्या था? कोई दिक्कत नहीं है! हम आपके लिए एक विशेष फ़ोल्डर में फरवरी से सब कुछ फिर से करेंगे।
कुछ बिंदु पर, कंपनी के सीईओ को संदेह के तहत एक प्रतियोगी और एक आंतरिक विक्रेता के बीच जाने वाले मेल की निगरानी करने की आवश्यकता थी। इसलिए हम हर रात एक स्क्रिप्ट की स्थापना करते हैं और पिछले दिन से संबंधित मेल को सीईओ को भेजते हैं। कोई दिक्कत नहीं है!
लगभग एक महीने बाद एक डबल-प्लस तत्काल समस्या का शब्द उच्च पर से आया। लगता है कि सीईओ $ OTHERCOMPANY को भेजे गए मेल की सूची के माध्यम से पढ़ रहे थे, वह इस एक पर आया:
To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)
स्वाभाविक रूप से, सीईओ एक महत्वपूर्ण व्यक्ति और सभी होने के नाते, वह आउटलुक में उन सभी "सेंड रीड रिसीप्ट" संवादों पर क्लिक करने में बहुत व्यस्त थे और अपने क्लाइंट को सिर्फ उन सभी को भेजने के लिए कॉन्फ़िगर किया था। मॉनिटरिंग फिल्टर द्वारा पकड़े गए संदेशों में से एक में एक पठन-प्राप्ति अनुरोध सेट था। लगता है कि आउटलुक ने क्या किया? निश्चित रूप से 'गुप्त' निगरानी पर रोक लगा दी।
हमारा अगला काम: आउटगोइंग रीड रिसिप्ट्स को सीईओ से उस कंपनी में ब्लॉक करने के लिए मेल फिल्टर में नियम जोड़ना। हाँ, यह सबसे आसान तरीका था। :)
अहह, मेरा लगभग 10 साल पहले था, जब मैं अभी भी अपने पैरों को गीला कर रहा था। मुझे सभी प्रोग्रामर कंप्यूटर पर बैटरी बैकअप स्थापित करने की खुशी थी। वे पावर आउटेज की चेतावनी देने और ठीक से बंद करने के लिए लोड किए गए सॉफ़्टवेयर भी चाहते थे।
इसलिए मैंने इसे अपने कंप्यूटर पर स्थापित किया और सबसे पहले सभी चीजों का परीक्षण किया और यह सुनिश्चित किया कि यह सब काम कर सके। इसलिए मैं पावर कॉर्ड को डिस्कनेक्ट करता हूं और संदेश मेरी स्क्रीन पर आता है। "बाहरी शक्ति खो गई, सिस्टम शटडाउन शुरू हुआ"।
तो मैंने सोचा, अरे शांत, यह काम किया। लेकिन कुछ अजीब कारण के लिए, मुझे याद भी नहीं है, इसने उस संदेश को एक नेटवर्क संदेश के रूप में भेजा ताकि कंपनी में सभी 200+ कंप्यूटरों को वह संदेश मिले, जहां 100+ उपयोगकर्ता जहां प्रोग्रामर हैं।
हाँ, मास फ्रीक के बारे में बात करो !!
मैंने थोड़ी देर के लिए अपना सिर उस जगह पर रख दिया!
मैं अक्सर मशीन नाम सेवा, IP पते और रूट पासवर्ड को रीसेट करने के लिए Solaris मशीनों पर "sys-unconfig" कमांड का उपयोग करता हूं। मैं एक उपयोगकर्ता प्रणाली पर था और मैंने बिल्डिंग इंस्टाल सर्वर में लॉग इन किया और कुछ ऊपर (रूट के रूप में) देखा, फिर यह भूल गया कि मैंने दूसरी मशीन (गैर वर्णनात्मक "#" प्रॉम्प्ट) में लॉग इन किया था। मैंने "sys-unconfig" कमांड चलाया।
# sys-unconfig
WARNING
This program will unconfigure your system. It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.
This program will also halt the system.
Do you want to continue (y/n) ? y
Connection closed
#
वह "कनेक्शन बंद" संदेश धीरे-धीरे घबराहट में बदल गया ... जब मैंने उस कमांड को चलाया तो मैं किस मशीन में लॉग इन था।
इसका सबसे बुरा हिस्सा वह कठिन समय नहीं था जो मेरे सहकर्मियों ने मुझे दिया था, यह था कि मैंने एक महीने बाद वही काम किया।
मुझे बहुत अच्छा मिला है। बेशक, यह एक sysadmin के रूप में मेरे समय से पहले था, लेकिन फिर भी तकनीक से संबंधित तो मुझे लगा कि मैं इसे जोड़ूंगा।
दिन में वापस, मैं USAF के लिए एक satcom / wideband तकनीक के रूप में काम कर रहा था। हाल ही में तकनीकी स्कूल में स्नातक होने के बाद, मैंने खुद को दक्षिण कोरिया में तैनात पाया। स्टेशन पर पहुंचने के कुछ ही समय बाद "बड़े लोगों" के साथ दक्षिण की यात्रा करने का एक अवसर पैदा हुआ, जो कुछ समय के लिए वहां रहे और वास्तव में कुछ वास्तविक दुनिया ((`उत्पादन ') उपकरण पर काम करते हैं।
मैं चालक दल के साथ नीचे चला गया और एक उत्सुक, युवा तकनीक के रूप में, थोड़ा सा चूम रहा था, एक वास्तविक उपकरण पर मेरा हाथ होने की संभावना पर काफी उत्साहित था जो LIVE सैन्य आवाज और डेटा ट्रैफ़िक से गुजर रहा था।
मुझे धीरे से शुरू करने के लिए, उन्होंने मुझे एक मैनुअल सौंप दिया, निवारक रखरखाव अनुभाग की ओर मुड़ गए और मुझे कई बड़े डिजिटल मल्टीप्लेक्सर्स से भरे चार रैक की दिशा में इशारा किया। उपकरण काफी आसान था, हम उसी उपकरण को तकनीकी स्कूल में कवर करेंगे।
मैनुअल पढ़ने का पहला पृष्ठ; "डिटिगल मल्टीप्लेक्सर को बिजली लागू करें। दोनों रियर स्विच को चालू स्थिति में करें और उपकरण को पावर-अप करने के लिए प्रतीक्षा करें, फिर परीक्षण शुरू करें।" मैंने देखा, और वहां पहले से ही बिजली लागू थी!
मैं सुनिश्चित करने के लिए एक प्रश्न में था। आगे बढ़ने का पता नहीं, मैंने अपना सर्वश्रेष्ठ शॉट दिया, `उम्म्म्म .. किन्धा हियर हियर’ लुक सीनियर।
उसने मेरी ओर देखा और हँसा, "नहीं, नहीं, यह ठीक है। तुम चेकलिस्ट के उस हिस्से को अनदेखा कर सकते हो।" फिर, जैसा कि उसने मेरे चेहरे पर नज़र डाली, (जब से हमें स्कूल में पढ़ाया गया है, कभी किसी चेकलिस्ट के किसी भी हिस्से को नजरअंदाज नहीं किया गया था, और यह निश्चित मृत्यु और विनाश था अगर कोई ऐसा करना चाहता था) तो उसने उस पर एक गंभीर नज़र डाली चेहरा और कहा, "केवल उस हिस्से को अनदेखा करें! शेष इसे का पालन करें, पत्र को!"
कर्तव्यनिष्ठा से, मैं बहु-चरणीय पीएम निर्देशों के माध्यम से चला, एक क्लैम के रूप में खुश और गर्व था कि वे इस तरह की कम रैंकिंग, (यद्यपि स्मार्ट) तकनीक को इस महत्वपूर्ण कार्य को करने दे रहे थे।
इन विशाल मल्टीप्लेक्सर्स पर पाँचवें और छठे निवारक रखरखाव चेकलिस्ट के बीच मैंने अपने चारों ओर गतिविधि का एक बढ़ा हुआ स्तर देखना शुरू किया। फ़ोन बज रहे थे, लोग तेज़ी से आगे बढ़ रहे थे। विचित्र रूप का आदान-प्रदान हो रहा था।
अंत में, लोगों का एक समूह मेरे पास दौड़ा, जिसमें से एक वरिष्ठ टेक ने मुझे नीचे लाया।
"अरे! हम डेटा ट्रैफ़िक में बहुत बड़े बदलाव देख रहे हैं, और हमने उन रैक को वापस अलग कर दिया है जहाँ आप काम कर रहे हैं! क्या आप कोई अजीब देख रहे हैं ..?"
(उस बिंदु पर वह एक और समस्या निवारणकर्ता द्वारा काट दिया गया था, जिसने मल्टीप्लेक्सर्स के पहले समूह के चारों ओर अपना रास्ता बना लिया था, जो मैं पीएम पर प्रदर्शन कर रहा था।)
"होली नट! वे बंद कर दिया गया है! वह बंद कर दिया जा रहा है!"
संक्षेप में, मैंने देखा कि जब वे जल्दी से मैनुअल में पहले कदम के माध्यम से भागते थे, "दोनों रियर स्विच ऑन ऑन पोजिशन ..." जब सीनियर टेक किया गया था, तो वह मेरे पास आया और अविश्वसनीय रूप से पूछा कि मैं क्या सोच रहा था? उपकरण के महत्वपूर्ण टुकड़ों को बंद करके।
मेरे दिमाग से डरते हुए, मैंने उसे चेकलिस्ट सौंप दी, जिसका मैं पालन कर रहा था, कसम खाकर कि मैं बिल्कुल भी नहीं भटक रहा था। जैसा कि उन्होंने निर्देश दिया था, मैंने इसे 'अक्षर से' का पालन किया था।
थोड़ी देर बाद वह हँसा और इशारा किया कि समस्या कहाँ है।
मैनुअल में, निवारक रखरखाव चेकलिस्ट में अंतिम चरण था:
"अंतिम जांच को रिकॉर्ड करें, फ्रंट पैनल को मिटा दें, सभी धूल और कण को हटा दें, फिर दोनों रियर पावर स्विच को ऑफ स्थिति में बदल दें।"
:)
यह एक तरह से साइज़डमिन दुर्घटना है .. जहाँ तक कभी-कभी सिस्मडिन्स को कभी-कभी पॉइंट ए से पॉइंट बी (जहाँ ए और बी एक लिफ्ट के बिना एक इमारत में सीढ़ियों की कई उड़ानों द्वारा अलग-अलग होते हैं) से बड़ी संख्या में मशीनों को शारीरिक रूप से ढोना पड़ता है। दिन की यात्रा के दौरान, मैं बेसमेंट लोडिंग स्तर से ऊपर आने वाली एक उड़ान के लिए रुकने के लिए किसी के साथ चैट करने के लिए नीचे आ रहा था, पूर्ण आकार के टॉवर w / स्टेशन को खोल दिया, जिसे मैं ओपन बैयरवेल के अंदर की रेलिंग पर देख रहा था। और ... ठीक है, आपने अनुमान लगाया ... उस पर अपनी पकड़ खो दी। यह सीधे कुएं से नीचे गिर गया और जब यह नीचे पहुंचा, एर ... इतना उस के लिए कार्यक्षमता के साथ नहीं! कुल मुक्ति योग्य भागों: राम की दो छड़ें, एक फ्लॉपी ड्राइव और एक आईएसडीएन कार्ड (भगवान हर्मर्ट इंजीनियरिंग लोगों को आशीर्वाद देते हैं!)। बाकी सब कुछ या तो फटा,
भगवान की कृपा से, कोई भी नीचे नहीं चल रहा था, जो, मेरे लिए शुक्र है, मेरे बॉस हालांकि पहले थे, इसलिए मुझे अपनी नौकरी रखने के लिए मिला। एक या एक घंटे के लिए बहुत बीमार महसूस किया।
नैतिक: गुरुत्वाकर्षण हमेशा जीतता है!
मैं किसी के लिए एक प्रणाली को फिर से लोड कर रहा था, और मैनुअल बैकअप प्रक्रिया के दौरान मैंने उससे सवाल पूछा "क्या आपके पास कोई अन्य प्रोग्राम है जो आप उपयोग करते हैं?" और "क्या कंप्यूटर पर आपके लिए कुछ और महत्वपूर्ण है?"
उन्होंने कहा कि "नहीं" कभी-कभी।
मैं आश्वस्त हुआ और ड्राइव को स्वरूपित किया।
लगभग 30 मिनट बाद उसने कहा "ओह माय गॉड" और दोनों हाथ उसके सिर पर रख दिए।
पता चलता है कि वह एक विशेष कार्यक्रम में 10 से अधिक वर्षों के लिए एक पुस्तक स्क्रिप्ट पर काम कर रहा था। यह तब वापस आया जब प्रोग्राम अपने प्रोग्राम फाइलों निर्देशिका में उपयोगकर्ता डेटा को बचाने के लिए उपयोग किया जाता था और मैंने इसे याद किया।
Whhhhooooops।
वह मुझ पर पागल नहीं था, लेकिन यह एक अहसास था।
मेरा व्यक्तिगत पसंदीदा वास्तव में मेरा नहीं है, और मैं बहुत खुश हूँ। यहाँ एक नज़र रखना।
यह मेरे साथ नहीं हुआ, लेकिन ...
मैं एक ऐसी कंपनी में काम कर रहा था जो क्लाइंट द्वारा उपलब्ध कराई गई लिनक्स मशीनों पर चलने वाला सॉफ्टवेयर बनाती थी। हम अनिवार्य रूप से मशीनों को 'टेक ओवर' करेंगे, उन्हें पूरी तरह से हमारे चश्मे से कॉन्फ़िगर करेंगे, और प्रबंधन और निगरानी के सभी काम करेंगे। मूलतः, हम सैकड़ों ग्राहकों के लिए हज़ारों सर्वर का प्रबंधन करते हुए 10-15 सिस्मिन्स की एक टीम थे। गलतियाँ होने के लिए बाध्य थे।
हमारी टीम में से एक ने सर्वर पर कुछ मुद्दों (एक बैकअप, मेरा मानना है) पाया, और फैसला किया कि उसे इस पर fsck चलाना चाहिए। उन्होंने सभी प्रासंगिक सेवाओं को बंद कर दिया, यह सुनिश्चित किया कि सिस्टम में हाल ही में लिया गया बैकअप था, और फिर fsck को चलाया, लेकिन यह शिकायत की कि फाइलसिस्टम माउंट किया गया था। चूंकि हम रिमोट थे और उनका कोई रिमोट एक्सेस (DRAC, ILO, इत्यादि) नहीं था, वह fsck नहीं कर सकते थे, लेकिन उन्हें पूरा यकीन था कि अगर आप सावधान होते तो फाइलसिस्टम माउंटेड के साथ ऐसा करना सुरक्षित था।
उन्होंने अपने रूट विभाजन पर fsck चलाकर खुद ही इसे आजमाने का फैसला किया, जिसके पूर्वानुमान के परिणाम थे - उन्होंने अपने रूट विभाजन को भ्रष्ट कर दिया और अब बूट नहीं कर सके।
उलझन में, वह चला गया और हमारी टीम लीड से बात की। लीड ने कहा कि उन्हें पूरा यकीन था कि आप ऐसा नहीं कर सकते हैं, और टीम के सदस्य ने कहा कि 'ज़रूर! जिसने HIS रूट विभाजन को पूरी तरह से दूषित कर दिया।
अंतिम परिणाम? कोई ग्राहक डेटा नहीं खोया, टीम के सदस्य के परीक्षण के लिए धन्यवाद। कर्मचारी उत्पादकता के दो दिन खो गए थे, लेकिन यह ग्राहक की मशीन पर डेटा की तुलना में बहुत कम था। और रिकॉर्ड के लिए? आप आरोहित ड्राइव पर fsck चला सकते हैं, लेकिन केवल डेटा सत्यापित करने के लिए। इसकी मरम्मत तक नहीं। यही टीम के सदस्य की गलती थी।
-
अपनी खुद की कहानी जोड़ने के लिए, मैं उसी कंपनी में काम कर रहा था, और एक उपयोगकर्ता पासवर्ड रीसेट करने की कोशिश कर रहा था। हमारे सिस्टम ने मुझे उस पासवर्ड को सेट करने से मना कर दिया, जिसकी उसे ज़रूरत थी, क्योंकि इसने पुराने पासवर्ड हैश को ट्रैक किया और आपको पासवर्ड को डुप्लिकेट करने से मना कर दिया। तंत्र सरल था: इसने डेटाबेस में सबसे हालिया हैश के खिलाफ आपके पासवर्ड को मान्य किया।
(और रिकॉर्ड के लिए, इसे पुराना पासवर्ड होना चाहिए क्योंकि यह एक साझा खाता था, और यह सुनिश्चित करना कि हर कोई जानता था कि नया पासवर्ड अव्यावहारिक था)
मैंने केवल उपयोगकर्ताओं के डेटाबेस में जाने और नए रिकॉर्ड को हटाने का फैसला किया ताकि यह पुराने का उपयोग करे। यह सब सिर्फ SQL (Sybase का एक प्राचीन संस्करण चल रहा है) है, इसलिए यह आसान है। सबसे पहले, मुझे रिकॉर्ड खोजने थे:
SELECT * FROM users_passwords WHERE username='someuser';
मुझे वह पुराना रिकॉर्ड मिला, जिसे वह रखना चाहता था; इसके सामने दो और थे। मैंने चालाक बनने का फैसला किया और पुराने रिकॉर्ड की तुलना में कुछ भी नया नहीं किया। परिणाम सेट को देखते हुए, मैंने देखा कि डेटाबेस में पुराना पासवर्ड ID # 28 था, और नए लोग ID #several हजार (बहुत व्यस्त प्रणाली) थे। यह सरल है, सभी पुरानी पंक्तियाँ थीं> 28, ताकि:
DELETE FROM users_passwords WHERE id > 28;
कुछ सरल पंक्ति छंटाई करने और '212,500 पंक्तियाँ प्रभावित' देखने से बुरा कुछ नहीं है। सौभाग्य से, हमारे पास दो मास्टर डेटाबेस सर्वर (उपयोगकर्ता आईडी के साथ) थे, लेकिन Sybase (कम से कम, हमारे संस्करण) ने स्वचालित प्रतिकृति का समर्थन नहीं किया, इसलिए यह स्वचालित रूप से पुराने रिकॉर्ड को मिटा नहीं सका। यह एक मामूली बात थी कि यूज़र्स_पासवर्ड टेबल का एक डंप प्राप्त करें और इसे फिर से आयात करें। फिर भी, एक बहुत बड़ा 'ओह च ** के!' पल।
मेरे पसंदीदा में से एक:
एक सिस्टम पर एक कंप्यूटर और एक स्थानीय लेजर प्रिंटर स्थापित करते समय, मुझे उन दोनों को कंप्यूटर के यूपीएस में प्लग करने का उज्ज्वल विचार था। जब एक डेस्कटॉप यूपीएस में प्लग किया जाता है, तो कभी स्थानीय लेजर प्रिंटर से प्रिंट करने का प्रयास करें? ठीक है, अगर आप नहीं जानते हैं, तो यह सभी एम्पों को खींचने के लिए जाता है ... जो कंप्यूटर को पुनरारंभ करता है ... और प्रिंट नौकरी कभी खत्म नहीं होती है ...!
कभी भी कॉल करें: ' जब भी मैं प्रिंट करता हूं, यह मेरे कंप्यूटर को पुनरारंभ करता है और प्रिंट नहीं करता है !!! '?
ओह!
JFV
ग्राहकों के लाइव संरक्षक डेटाबेस पर WHERE क्लॉज के बिना DELETE स्टेटमेंट।
kill 1
रूट के रूप में टाइप किया गया। init
और उसके सभी बच्चे मर गए। और उनके सभी बच्चे। आदि, उफ़।
मैं टाइप करने के लिए क्या मतलब था kill %1
बाद में मुझे एहसास हुआ कि मैंने जो किया है वह एक बिग ऊन की छँटाई मशीन के कंट्रोल पैनल तक चला गया और इमरजेंसी स्टॉप बटन मारा। इसने मशीन को अपने आप ही बिट्स पर रोक दिया, क्योंकि मैंने उस सॉफ्टवेयर को मार दिया था जिसने इसे नियंत्रित किया था।
हम एक पावर आउटेज के बीच में थे और देखा कि यूपीएस कॉन्फ़िगर लोड के 112% पर चल रहा था। यह उस समय बहुत अधिक समस्या नहीं थी जब हम उस समय जनरेटर पर चल रहे थे।
इसलिए हम उस यूपीएस पर बिजली के उपयोग को कम करने के लिए बैकअप पावर केबल्स को खींचते चले गए (हमारे पास दो थे, एक दूसरे से बहुत बड़ा)। हमें नेटवर्क स्विच मिला, जो सर्वर रूम को चलाता था (यह कंपनी के लिए सभी आंतरिक सर्वरों के साथ सर्वर रूम था, जिसमें ग्राहक दूसरे सर्वर रूम में सर्वर का सामना कर रहा था)। स्विच एक बड़े उद्यम वर्ग का स्विच था जिसमें तीन बिजली की आपूर्ति थी। आपूर्ति एन + 1 थी इसलिए हमें स्विच चलाने के लिए केवल दो की आवश्यकता थी।
हमने एक केबल उठाई और उसे बाहर निकाला। दुर्भाग्य से हमारे लिए अन्य दो को एकल बिजली पट्टी में प्लग किया गया था, जो तुरंत लोड हो गया क्योंकि लोड दो बिजली की आपूर्ति पर चढ़ गया था जिसे इसमें प्लग किया गया था। तब Sysadmin घबरा गया और तीसरे केबल को प्लग कर दिया। स्विच ने आग लगाने की कोशिश की, स्विच का पूरा भार एकल बिजली की आपूर्ति पर डाल दिया। बिजली की आपूर्ति बंद होने के बजाय, यह मेरे चेहरे से 12 इंच नहीं चिंगारियों की बौछार में विस्फोट हो गया, जिससे मुझे सर्वर के रैक में वापस कूदना पड़ा।
वृत्ति में से मैंने बगल में कूदने की कोशिश की, लेकिन दुर्भाग्य से मेरी बाईं ओर एक दीवार थी, और दो मेरा अधिकार एक बहुत बड़ा 6'4 "सुविधाओं वाला आदमी था। मैं कुछ कैसे उसके ऊपर कूदने में कामयाब रहा, या संभवतः उसके माध्यम से उछल रहा था। कॉम्पैक रैक (पतले जाली वाले मोर्चों वाले) रैक में एक पूरी डाल के बिना, और सुविधाओं के आदमी को छूने के बिना।
मेरे कैरियर में कुछ बिंदु पर कंपनी में एक कानूनी जांच मैं हम पर एक आवश्यकता के लिए काम कर रहा था कि सभी ईमेल को "इस दिन" से आगे रखा जाए, जब तक कि अन्यथा न कहा जाए। हमारे विनिमय वातावरण (1TB रात्रिकालीन) के दैनिक पूर्ण बैकअप के भंडारण के लगभग एक वर्ष के बाद हमने अंतरिक्ष से बाहर जाना शुरू कर दिया।
एक्सचेंज व्यवस्थापक ने सुझाव दिया कि हम केवल ईमेल की प्रत्येक 8 वीं प्रति रखते हैं। ऐसा करने के लिए, हमने उन्हें एक्सचेंज डेटाबेस के लायक एक दिन बहाल कर दिया था, उनके द्वारा आवश्यक ईमेल (जांच के लिए चिह्नित किए गए विशिष्ट लोगों) को हटा दें और इसे फिर से संग्रहीत करें। उन्होंने हमारे सभी बैकअप के लिए ईमेल के हर 8 वें दिन ऐसा किया। 8 वें दिन को चुना गया क्योंकि एक्सचेंज में एक पैरामीटर सेट था जहां "हटाए गए आइटम" को 8 दिनों के लिए डेटाबेस में रखा जाता है।
वे प्रत्येक संग्रह को समाप्त करने के बाद, मैं किसी भी बैकअप को वापस ले जाऊंगा और जो वे संग्रहीत थे उससे अधिक पुराने थे।
TSM के पास ऐसा करने का आसान तरीका नहीं है, इसलिए आपको मैन्युअल रूप से बैकअप डेटाबेस से ऑब्जेक्ट को हटाना होगा।
मैंने एक स्क्रिप्ट लिखी थी, जो आज के बीच के अंतर का उपयोग करते हुए, तारीख की गणना के द्वारा और कुछ तारीख से पुराने सभी बैकअप को हटा देगी। किसी दिन मुझे लगभग एक महीने के बैकअप को हटाना पड़ा, सिवाय इसके कि जब मैंने तारीख की गणना की तो मैंने एक टाइपो बनाया और तारीख को 6/10/2007 के बजाय 7/10/2007 दर्ज किया, और स्क्रिप्ट को चलाया। मैंने पूरे एक महीने का अतिरिक्त डेटा नष्ट कर दिया, गलती से जो एक बहुत महत्वपूर्ण मुकदमे का हिस्सा था।
उसके बाद, मैंने पुष्टि करने के लिए स्क्रिप्ट में कुछ कदम जोड़े कि आप डेटा को हटाना चाहते हैं, और आपको दिखाते हैं कि वह क्या हटाने जा रहा था ...
सौभाग्य से, उन्होंने कभी भी किसी भी डेटा का उपयोग नहीं किया जिसे हमने संरक्षित करने के लिए इतनी मेहनत की, और मेरे पास अभी भी मेरा काम है।
एक लंबे दिन या प्रदर्शन ट्रेसिंग और ट्यूनिंग के बाद एक विशाल मेनफ्रेम (आप जानते हैं कि सभी अतिरिक्त बैकअप साइटों से पहले कुछ घंटे लेने वाले जानवर सहमत हो गए हैं कि यह वास्तव में फिर से बूट हो गया है और पूरी तरह से सिंक हो गया है) मैंने अपनी उंगलियों को फैलाया, संतुष्ट शटडाउन टाइप किया। -अब मेरे लैपटॉप प्रॉम्प्ट में, ढक्कन को बंद कर दिया, सीरियलफ्रेम केबल को मेनफ्रेम से बाहर निकाल दिया, जिसमें एक अच्छा ठंडा ग्लास लगने की आशंका थी।
अचानक मुझे मेनफ्रेम के नीचे घूमने की गगनभेदी आवाज सुनाई देती है जबकि मेरा लैपटॉप अभी भी एक्स को खुशी से प्रदर्शित कर रहा था।
मशीन के पूरी तरह से ऑनलाइन ऑनलाइन आने का इंतजार करते हुए मैंने फैसला किया कि मुझे अपने एसीपीआई को अपने लैपटॉप पर काम करने का समय मिल गया है, इसलिए मुझे कभी भी अपने लैपटॉप को बंद करने के लिए लुभाया नहीं जाता है।
यह दुर्घटना नहीं हुई ... लेकिन यह ध्यान देने योग्य है:
मुझे एक नए सर्किट पर बैंडविड्थ परीक्षण करने के लिए एक भारी-भरकम डेटा सेंटर भेजा गया था। मैं सीमांकन कक्ष / आईडीएफ में गया, अपने परीक्षण राउटर के लिए रैक में से एक पर एक स्पॉट पाया, मेरे कनेक्शन किए, और परीक्षण शुरू किए। दुर्भाग्य से, मैं इन-प्रोडक्शन बॉर्डर राउटर को न केवल अगले रैक पर (लगभग उसी स्तर पर) नोटिस करने में पूरी तरह से विफल रहा, बल्कि यह भी कि मेरा टेस्टिंग राउटर जैसा ही मेक और मॉडल भी था।
जब परीक्षण किया गया था, तो मैंने पावर स्विच को ऑफ पोजीशन में दबाने लगा ... (धीमी गति में कल्पना करें ...) और, मैं कसम खाता हूं, जैसे ही मैं दबाव डाल रहा था कि यह मुझ पर हावी हो गया कि मैं जिस राउटर के बारे में था बंद करने के लिए उत्पादन में एक था। मेरा दिल रुक गया और मैं लगभग ... ठीक है, अपनी कल्पना का उपयोग करें।
मैंने डेटा सेंटर के एमडीएफ को स्पूक्ड और पीला दिखाई दिया, लेकिन एक ही समय में खुशी हुई कि मेरे पास अभी भी एक नौकरी है!
मैंने किसी के खाते को गलती से हटा दिया, नामों को मिला दिया गया जिसे हटाने के लिए मुझे संदेह था। ओह
शांत हिस्सा यह है कि वे कभी नहीं जानते थे कि क्या हुआ। उन कॉल को मिला जो वे लॉग इन नहीं कर सके, मेरे द्वारा हटाए गए खाते के बारे में पैसा गिरा।
उनके साथ फोन पर रहते हुए, मैंने जल्दी से उनके खाते को फिर से बनाया, उनके पुराने मेलबॉक्स को फिर से संलग्न किया (शुक्र है कि एक्सचेंज अभी मेलबॉक्स को नष्ट नहीं करता है) और इसे अपनी पुरानी उपयोगकर्ता फ़ाइलों पर वापस इंगित किया।
फिर मैंने उन्हें अपना पासवर्ड भूल जाने के लिए दोषी ठहराया, जो मैंने उनके लिए अभी रीसेट किया था :)
गलती से मेरे Gentoo लिनक्स बॉक्स पर एक गलत जगह पर एक tar.gz फ़ाइल स्थापित की और यह सभी जगह फाइलें छोड़ दी। यह उस समय 1999, 19 के आसपास रहा होगा (नीचे टिप्पणी के लिए धन्यवाद)
गीक होने के नाते, मैंने खुद को प्रत्येक फ़ाइल के माध्यम से मैन्युअल रूप से जाने के काम से स्क्रिप्ट करने की कोशिश करने का फैसला किया।
इसलिए मैंने कोशिश की:
tar - सूची evilevilpackage.tar.gz | xargs rm -rf
मुझे यह नोटिस करने में बहुत समय नहीं लगा कि टार ने उन सभी निर्देशिकाओं को भी सूचीबद्ध किया, जिन्हें प्रोग्राम उपयोग कर रहा था, उनमें '' / usr, / var, / etc '' और कुछ अन्य शामिल थे जिन्हें मैं वास्तव में नहीं चाहता था।
CTRL-C! CTRL-C! CTRL-C! बहुत देर! सब कुछ चला गया, समय पुनर्स्थापित करें। सौभाग्य से बॉक्स में कुछ भी महत्वपूर्ण नहीं था।
अपने पूर्व जीवन के एक छोटे से हिस्से के रूप में मैंने कंपनी के फ़ाइल सर्वर, एक नेटवेयर 4:11 बॉक्स को प्रशासित किया। यह शायद ही कभी किसी भी इनपुट की जरूरत है, लेकिन अगर यह किया, तो आप एक दूरस्थ कंसोल विंडो खोल दिया।
हर समय डॉस का उपयोग करने के लिए उपयोग किया जाता है, जब मैं समाप्त हो गया था, मैं स्वाभाविक रूप से "बाहर निकलें" टाइप करूंगा। नेटवेयर के लिए, "बाहर निकलें" ओएस को बंद करने के लिए कमांड है। सौभाग्य से, यह तब तक आपको बंद नहीं होने देगा, जब तक आप सर्वर को "डाउन" नहीं करते हैं। (इसे नेटवर्क / क्लाइंट के लिए अनुपलब्ध बनाएं) इसलिए जब आप कंसोल में "बाहर निकलें" टाइप करते हैं, तो यह सहायक रूप से कहता है, "आपको पहले टाइप करना होगा" नीचे "इससे पहले कि आप बाहर निकल सकें"
मुझसे पूछें कि मैं कितनी बार कंसोल सत्र और 2 में टाइप किया गया "एक्जिट" टाइप करता हूं: ओबेडिएंटली टाइप "डाउन" और फिर "एग्जिट" ताकि मैं "जो मैं करने की कोशिश कर रहा था" समाप्त कर सके।
और फिर फोन बजना शुरू हो जाता है ....।
जबरदस्त हंसी
एक और कहानी जो नहीं हुई (पेज):
हम हर दिन टेप ड्राइव पर धार्मिक रूप से वृद्धिशील बैकअप कर रहे थे।
हम एक टेप लिखने के लिए हुए थे जिसमें किसी और को जहाज करने के लिए डेटा था। उन्होंने कहा 'हम आपका टेप नहीं पढ़ सकते हैं।' वास्तव में, न तो हम कर सकते थे। या वास्तव में कोई टेप।
हमने एक और टेप ड्राइव खरीदा और अपनी सांस को तब तक रोके रखा जब तक कि हमने इसे स्थापित नहीं कर दिया।
कहानी का नैतिक। हमेशा सुनिश्चित करें कि आप अपने बैकअप का परीक्षण करें।
अंतिम स्थान पर मैंने काम किया, मेरे सहकर्मी ने अपने बच्चों को सर्वर रूम में उनके साथ रखा (क्यों? मेरे पास कोई आईडिया नहीं है)।
उन्होंने यह सुनिश्चित किया कि वे सर्वर से बहुत दूर थे और अपने 5 वर्षीय को समझाया कि वह किसी भी सर्वर को स्पर्श न करें और ESPECIALLY कोई भी पावर स्विच नहीं।
वास्तव में, वह उन्हें दरवाजे के पास सही था ... (क्या आप देख सकते हैं कि यह कहाँ जा रहा है ...?)
लड़का किसी भी सर्वर पॉवर बटन को नहीं छूता था ... नहीं, यह पूरी तरह से समझाने में बहुत आसान होगा। इसके बजाय उसने दरवाजे के पास लगे बिग रेड बट्टन को मारा ... जो बटन को पूरी तरह से शक्ति से दूर कर देता है !!!
फ़ोन लाइनें तुरंत यह सोचकर प्रकाश करना शुरू कर देती हैं कि एक्सचेंज, फ़ाइल सर्वर आदि उपलब्ध क्यों नहीं थे ... कल्पना करें कि वे सीईओ को समझाने की कोशिश कर रहे हैं!
-JFV
मैंने एक बार एपीसी यूपीएस मॉनिटरिंग सॉफ्टवेयर के साथ लड़ाई की थी। एक छोटी सी कंपनी होने के नाते, हमारे पास छोटे-ईश यूपीएस की एक जोड़ी थी और उनकी निगरानी के लिए विभिन्न सर्वर सेटअप थे। अधिकांश सर्वर लिनक्स थे, लेकिन कुछ विंडोज चल रहे थे और इसलिए वे उपयोग किए गए थे क्योंकि एपीसी सॉफ्टवेयर केवल विंडोज है।
हालांकि, उस समय एपीसी सॉफ्टवेयर को यूपीएस मानने के लिए कड़ी-कोडित किया गया था जो कि पीसी को चालू करने की शक्ति प्रदान कर रहा है! इस सर्वर के लिए यह मामला नहीं था, लेकिन मुझे पता चला कि इसे रोकने के लिए बहुत देर हो चुकी है। इसके अलावा, दुर्भाग्य से, लीड प्रोग्रामर कंपनी उत्पाद को एक भागीदार को प्रदर्शित कर रहा था - यह एक वेब-आधारित ऐप था, उसी सर्वर पर चल रहा था जो मैं नहीं चाहता था कि एपीसी सॉफ्टवेयर बंद हो जाए ...
मैं एक नए sysadmin को सेवा प्रबंधक ऐप का दौरा दे रहा था। मैंने कहा "यदि आपको कभी भी इस सेवा को रोकने की आवश्यकता है तो आप इस बटन को क्लिक करेंगे, लेकिन आपको इसे दिन के दौरान कभी नहीं करना चाहिए।" आपको कभी भी विश्वास नहीं होगा कि उसका माउस बटन कितना संवेदनशील था!
दो मिनट बाद सेवा फिर से शुरू हो गई थी, और कोई भी नोटिस नहीं कर रहा था।
एक टॉवर सर्वर पर ट्रिपिंग जो एक रैक के पीछे लगाया गया था और मेरे सिर को नीचे की तरफ मुख्य सिस्को राउटर के पीछे से मार रहा था। इस प्रकार यह खुलासा किया गया है कि कैटेलिस्ट 6500 के मोर्चे पर वास्तव में बिजली की आपूर्ति में कितनी शिथिलता थी ।
हाँ। अब हमें सर्वर रूम के एक हुक पर हार्डहैट मिला है। उस पर मेरे नाम के साथ।