दुर्भाग्य से ऐसा लगता है कि हम इस बात की तह तक नहीं पहुंच पाए कि आवेदन क्या था, लेकिन इस घटना से कुछ मूल्य पाने के लिए , मैं एक संदर्भ उत्तर बनाना चाहता था। यह वीएमवेयर और वर्चुअल लेयर मैनेजमेंट सेंट्रिक है। बहुत सारे प्रवेश अलग हैं, और अतिथि या भंडारण की पहुँच जल्दी से प्राप्त नहीं कर सकते, और यह उनके लिए है :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swf एक वास्तविक आवेदन, जो @MosheKatz पाया के लिए निकटतम मैच हो रहा है।
यदि भविष्य में ऐसा हुआ है, तो जांच इस प्रकार होनी चाहिए:
- आप कुछ नोटिस करते हैं, लेकिन सभी VMs क्रैश नहीं हुए हैं। आपको संदेह है कि यह स्टोरेज इश्यू के कारण है (क्योंकि यह आमतौर पर सबसे संभावित कारण है)
- पहले एक सामान्य कारक को अलग करने का प्रयास करें। क्या सभी दुर्घटनाग्रस्त VMs एक ही डेटास्टोर साझा कर रहे हैं? इस मामले में वे थे, लेकिन कुछ मशीनें ठीक थीं, इसलिए हमने स्पष्ट हार्डवेयर मुद्दों को खारिज कर दिया।
- सभी टूटे हुए वीएम को देखें कि क्या कोई सामान्य कारक (समय, कार्य आदि) था। इस मामले में वहाँ नहीं था।
अन्य असामान्य घटनाओं के लिए जाँच करें। कुछ ने यहां एक झंडा उठाया:
- एनएफएस भंडारण पतले-समर्थित (सरणी स्तर पर) था। इसका मतलब यह है कि यद्यपि। 200GB ESXi होस्ट के लिए प्रस्तुत किया गया है, वास्तव में केवल 100GB उपलब्ध है। केवल सरणी में यह ज्ञान है। हमने पाया कि वीएम की एक संख्या को रोक दिया गया था क्योंकि वे डिस्क स्थान से बाहर चले गए थे। हालांकि हम इसका मूल कारण हो सकते हैं, इसलिए हमारी मुट्ठी की कार्रवाई एक समस्या के रूप में इसे दूर करने के लिए, पीछे के छोर पर अधिक भंडारण आवंटित करना था।
एक बार जब यह हल हो गया (एक साधारण यूआई परिवर्तन), और रुके हुए वीएम सफलतापूर्वक पुनः आरंभ कर रहे थे, हम मूल मुद्दे पर लौट आए। हमने काम कर रहे वीएम से टूटे हुए वीएम से वर्चुअल डिस्क को माउंट किया, और देखा कि डिस्क पर कोई विभाजन तालिका नहीं थी। हमारे पास एक हेक्स दर्शक उपलब्ध नहीं था, इसलिए मान लेना चाहिए कि डिस्क अब खाली थी।
निगरानी प्रणाली एक नए वीएम के लिए सतर्क हो गई जो अभी अप्रतिसादी हो गई थी। यह बहुत अच्छा था, क्योंकि डिस्क स्पेस इश्यू के कारण वीएम के लोड के कुछ मिनट पहले ही अन-रेस्पॉन्सिबल हो गया था, इसलिए यह नया वीएम जल्दी पाया गया, यह अच्छे मॉनिटरिंग एडमिनिस्ट्रेशन का संकेत था।
हमने एक कंसोल खोला और गेस्ट को चेक किया, और ऊपर स्क्रीन-ग्रैब को देखा।
- इस स्तर पर मैं सर्वर फॉल्ट चैट रूम में यह देखने के लिए गया था कि क्या कार्यक्रम की पहचान की जा सकती है, जबकि मेरे स्टोरेज सहयोगी ने सभी वर्चुअल लेयर लॉग और ईवेंट की जाँच की, यह सुनिश्चित करने के लिए कि हमारे क्षेत्र से कोई स्टोरेज ऑपरेशन नहीं चल रहा है।
- वीएम को निलंबित करने के लिए हमें क्या करना चाहिए था, सस्पेंड फ़ाइल को लिखित रूप में प्राप्त करने की अनुमति दें, और डंप का विश्लेषण करके देखें कि क्या रनिंग प्रोग्राम की पहचान की जा सकती है। VM को कोर PDF VMware KB पर निलंबित करें
दिन के अंत में, हम जानते थे और वर्चुअल इंफ्रास्ट्रक्चर टूल ने मेहमान के भीतर रिपोर्ट नहीं किया होगा जैसे कि ऊपर कर रहा था। हम देख सकते थे कि कोई आईएसओ माउंटेड नहीं था, और कोई भी घटना वीएम के खिलाफ लॉग इन नहीं हुई थी। हम देख सकते हैं कि वीएम "हार्ड पॉवर साइकिल नहीं" था, केवल एक नरम पुनरारंभ (यह अंतर्निहित बुनियादी ढांचे के लिए अदृश्य है)। हमें पता था कि यह स्टोरेज साइड नहीं है क्योंकि हमने पहले ही फैसला सुनाया था। हमें संदेह था कि यह स्वचालित नहीं था क्योंकि यह विशिष्ट वीएम पर कुछ घंटों के दौरान हो रहा था। हमने अनुमान लगाया कि यह दुर्भावनापूर्ण नहीं था क्योंकि कंसोल डिस्क वाइप को रिपोर्ट करेगा यदि यह था :)
इसलिए, निष्कर्ष एक उपयोगकर्ता द्वारा शुरू किया गया डिस्क वाइप था। जहाँ तक मेरी जाँच चली, लेकिन मुझे आशा है कि आपको यह उपयोगी लगा।
सबक मिला:
- बैकअप और अपने restores का परीक्षण करें
- सुनिश्चित करें कि सभी उपयोगकर्ता, विशेष रूप से व्यवस्थापक उपयोगकर्ता, जानते हैं कि वे एक पतले प्रावधान वाले वातावरण में काम कर रहे हैं, और उन्हें राइट-आउट डिस्क स्वरूपण (जैसे। 1 का भार लिखना) से बचना चाहिए।
- जगह में एक अच्छी निगरानी प्रणाली है।
- और मेरे लिए एक नया: किसी भी बड़े आभासी वातावरण में, एक उपकरण वीएम तैयार है, यहां तक कि संचालित भी, निदान उपकरण स्थापित होने के साथ; प्रदर्शन, नेटवर्क भंडारण। यदि यह उपलब्ध था, तो हम क्षतिग्रस्त डिस्क पर एक हेक्स डंप लगा सकते थे और प्रदर्शन कर सकते थे कि क्या यह वास्तव में खाली था, या बस एक मलबे को याद कर रहा था। हम यह भी देख सकते थे कि क्या यह 1 के साथ लिखा गया था।