मैं कैसे बता सकता हूं कि ESXi पर कोई डिस्क विफल हो रही है / इन त्रुटियों का क्या मतलब है?


10

मेरे पास VMware ESXi v4.1.0 348481 सर्वर चल रहा है। इसमें हार्डवेयर RAID10 और SATA बैकअप ड्राइव है। मेरे पास एक वीएम चल रहा है जिसमें यह RAID10 डेटास्टोर पर प्राथमिक बूट vmdk है, और SATA बैकअप ड्राइव के डेटास्टोर पर 600 जीबी vmdk है। वीएम फ्रीबीएसडी कर्नेल के साथ डेबियन लाइनक्स चलाता है, और बैकअप ड्राइव के लिए जेडएफएस का उपयोग करता है।

EDIT: ड्राइव सीधे VM से जुड़ी नहीं है । यह VMware डेटास्टोर के रूप में उपयोग किया जाता है, और VM SATA ड्राइव के डेटास्टोर पर एक vmdk है। डेटास्टोर पूर्ण नहीं है (केवल 65% पूर्ण)

मैं SSH का उपयोग कर सर्वर में लॉग इन किया और पाया कि कल रात बैकअप लटका हुआ था, और zfs listया zpool listदोनों लटका हुआ था। इसलिए मैंने ESXi में वर्चुअल कंसोल खोला और यह देखकर दुखी हुआ:

यह स्क्रीनशॉट मुझे दुखी करता है

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

मैंने वीएम को रिबूट करने की कोशिश की और मुझे एक संदेश मिला कि सिस्टम रिबूट के लिए नीचे जा रहा है, और फिर वह लटका हुआ है। (^ C दिखाई देता है लेकिन मारता नहीं है shutdown)। मैं बीच kill -9में zpool list zfs listया rsyncप्रक्रियाओं को बाधित नहीं कर सकता - जब मैं कोशिश करता हूं तो कुछ भी नहीं होता है।

  1. क्या यह बैकअप SATA ड्राइव को विफल कर रहा है? या यह सिर्फ एक ESXi त्रुटि हो सकती है?
  2. VSphere क्लाइंट में मैं कैसे बता सकता हूं कि ड्राइव विफल हो रही है? मुझे कोई संकेत नहीं मिला, हार्डवेयर हेल्थ स्टेटस के तहत सब कुछ अच्छा लग रहा है, और मैंने स्टोरेज कॉन्फिगरेशन के तहत कुछ भी नहीं देखा।
  3. मुझे यहां से कैसे आगे बढ़ना चाहिए? क्या मुझे सिर्फ वीएम को हार्ड रिबूट करना चाहिए?

अद्यतन: मैं सिर्फ VM को रिबूट करता हूं। यह ऑनलाइन वापस आने के बाद, बैकअप ज़ूलू ऑनलाइन था, हालांकि:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

मैं ड्राइव को बदलने की दिशा में बहुत अधिक झुक रहा हूं ...

जवाबों:


5

वे त्रुटियां वास्तव में इंगित करती हैं कि SATA ड्राइवों में से एक को ब्लॉक-रियलाइजेशन स्पेस से बाहर चलाने के लिए पर्याप्त खराब ब्लॉकों का सामना करना पड़ा है। वह ड्राइव खराब है, और उसे बदलने की आवश्यकता है। मुझे यकीन नहीं है कि जहाँ vSphere क्लाइंट में जानकारी प्रदर्शित होती है, लेकिन लॉग प्रविष्टियाँ बहुत स्पष्ट हैं।

यदि आपका हार्डवेयर इसे अनुमति देता है, तो एक हॉट-स्वैप योग्य होना चाहिए। अन्यथा, आपको परिवर्तन करने के लिए सब कुछ बंद करना होगा। यदि वीएम 30 मिनट के बाद खुद को बंद नहीं करता है, तो यह मुश्किल से समाप्त करने का समय है। यह जोखिम भरा है, लेकिन अगर यह सच में लटका हुआ है तो इसके लिए बहुत कुछ नहीं है।


धन्यवाद @ sysadmin1138 इसलिए, भले ही वे त्रुटियां वीएम के अंदर दिखाई दें, यह स्पष्ट रूप से एक सच्ची हार्डवेयर समस्या को इंगित करता है? IE यह सिर्फ कुछ VMware quirk नहीं है?
जोश 20

@Josh यदि आपने VM को SATA ड्राइव प्रत्यक्ष-प्रस्तुत किया है, तो आप निश्चित रूप से उसे देखेंगे। फ़ाइल-समर्थित संग्रहण के लिए, मैं कम निश्चित हूं; यह हो सकता है कि आपका डेटास्टोर अंतरिक्ष से बाहर चला गया हो।
sysadmin1138

मुझे यह स्पष्ट करना चाहिए था। यह फ़ाइल समर्थित भंडारण है। डेटास्टोर में बहुत जगह है: यह 1TB ड्राइव है और VMDK 600 जीबी है, डिस्क पर और कुछ नहीं है। किसी भी तरह से, यह स्पष्ट रूप से कुछ गलत है, इसलिए जब तक कोई और मुझे स्पष्ट विवरण नहीं देता है कि यह क्या हो सकता है, मैं ड्राइव को बदल दूंगा।
जोश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.