यदि मैं ZFS को बिना किसी मान्य प्रतिकृतियों के एक गर्म स्पेयर को अलग करने के लिए मजबूर करता हूं तो क्या होगा?


9

मेरे पास 6 RZZ में से एक ZFS पूल है। RAIDZ में से एक को नीचा दिखाया गया है, एकल RAIDZ में दो डिस्क को एक साथ बंद करने के कारण ZFS दूसरी डिस्क के विफल होने से पहले पहली विफलता से उबरने में सक्षम नहीं था। यहाँ रिबूट के कुछ समय बाद ही "zpool स्थिति" से आउटपुट है:

  pool: pod2
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: resilver in progress for 0h6m, 0.05% done, 237h17m to go
config:

        NAME                                                 STATE     READ WRITE CKSUM
        pod2                                                 DEGRADED     0     0 29.3K
          raidz1-0                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F165XG    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1660X    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1678R    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1689F    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16AW9    ONLINE       0     0     0
          raidz1-1                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C6E    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C9F    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16FCD    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16JDQ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17M6V    ONLINE       0     0     0
          raidz1-2                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MSZ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MXE    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XKB    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XMW    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17ZHY    ONLINE       0     0     0
          raidz1-3                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BM4    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BRF    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18XLP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09880    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F098BE    ONLINE       0     0     0
          raidz1-4                                           DEGRADED     0     0 58.7K
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09B0M    ONLINE       0     0     0
            spare-1                                          DEGRADED     0     0     0
              disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09BEN  UNAVAIL      0     0     0  cannot open
              disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01  ONLINE       0     0     0  837K resilvered
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0D6LC    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CWD1    ONLINE       0     0     0
            spare-4                                          DEGRADED     0     0     0
              disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09C8G  UNAVAIL      0     0     0  cannot open
              disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE  ONLINE       0     0     0  830K resilvered
          raidz1-5                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-1CH_Z1F2KNQP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BML0    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPV4    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPZP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ78    ONLINE       0     0     0
          raidz1-6                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ9G    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQDF    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQFQ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CW1A    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BV7M    ONLINE       0     0     0
        spares
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01      INUSE     currently in use
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE      INUSE     currently in use
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49MB1      AVAIL   
          disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001SS2      AVAIL   
          disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001R0F      AVAIL   

errors: 37062187 data errors, use '-v' for a list

जब पहली डिस्क विफल हो गई तो मैंने इसे एक गर्म स्पेयर के साथ बदल दिया और यह फिर से शुरू हो गया। रेज़िवर पूरा होने से पहले, एक दूसरी डिस्क विफल हो गई, इसलिए मैंने दूसरी डिस्क को दूसरे गर्म स्पेयर से बदल दिया। तब से यह फिर से शुरू हो जाएगा, लगभग 50% हो जाएगा और फिर मेमोरी को टटोलना शुरू कर देगा, जब तक कि यह इसे पूरी तरह से नहीं खाता है और ओएस को क्रैश करने का कारण बनता है।

सर्वर पर रैम को अपग्रेड करना इस बिंदु पर एक सीधा विकल्प नहीं है, और यह मेरे लिए अस्पष्ट है कि ऐसा करने से समाधान की गारंटी होगी। मैं समझता हूं कि इस स्तर पर डेटा हानि होगी, लेकिन अगर मैं पूल के बाकी हिस्सों को संरक्षित करने के लिए इस एक RAIDZ की सामग्री का त्याग कर सकता हूं जो पूरी तरह से स्वीकार्य परिणाम है। मैं इस सर्वर की सामग्री को किसी अन्य सर्वर को बैकअप करने की प्रक्रिया में हूं, लेकिन मेमोरी खपत का मुद्दा हर 48 घंटे या उसके बाद रिबूट (या क्रैश) को मजबूर करता है, जो मेरे rsync बैकअप को बाधित करता है, और rsync को पुनरारंभ करने में समय लगता है (यह कर सकते हैं) एक बार फिर से शुरू करें कि यह पता चलता है कि यह कहाँ से निकला है, लेकिन इसमें बहुत लंबा समय लगता है)

मुझे लगता है कि ZFS दो स्पेयर रिप्लेसमेंट ऑपरेशंस से निपटने की कोशिश कर रहा है, मेमोरी खपत के मुद्दे की जड़ में है, इसलिए मैं एक हॉट स्पेर्स को हटाना चाहता हूं ताकि ZFS एक बार में एक पर काम कर सके। हालांकि, जब मैं किसी एक पुर्जे को अलग करने की कोशिश करता हूं, तो मुझे "detach / dev / disk / by-id / scsi -ST3000DM001-1CH_W1F49M01: कोई मान्य प्रतिकृतियां नहीं मिल सकती हैं"। शायद मैं ऑपरेशन को बाध्य करने के लिए -f विकल्प का उपयोग कर सकता हूं, लेकिन यह मेरे लिए बिल्कुल स्पष्ट नहीं है कि इसका परिणाम क्या होगा, इसलिए मैं यह देखना चाहता था कि आगे बढ़ने से पहले किसी के पास कोई इनपुट है या नहीं।

अगर मैं सिस्टम को एक स्थिर स्थिति में ले जा सकता हूं, जहां यह बैकअप के लिए पर्याप्त लंबे समय तक चालू रह सकता है, तो मैं इसे ओवरहाल के लिए नीचे ले जाने की योजना बना सकता हूं, लेकिन वर्तमान स्थितियों के साथ यह एक रिकवरी लूप में थोड़ा फंस गया है।


आपने इसे टैग किया zfs-fuse। क्या यह वास्तव में ZFS फ्यूज है? कृपया OS विवरण प्रदान करें।
ईवहाइट

तुम इवित्ते को शर्त लगा लो। डेबियन 6.0.6
jasongullickson

इस सिस्टम में कितनी रैम है? आपने सरणी को कितनी बार साफ़ किया है?
क्रिस एस

आप FUSE का उपयोग क्यों कर रहे थे और वास्तविक ZFS कार्यान्वयन नहीं था? विशेष रूप से यह देखते हुए कि यहाँ बहुत सारे हार्डवेयर हैं। मुझे लगता है कि यह सरणी पूरी हो गई है ...
ewwhite

जब सिस्टम बनाया गया था उस समय लिनक्स के लिए कोई देशी ZFS कार्यान्वयन नहीं था।
जसॉन्गुलिकसन

जवाबों:


1

अभी आप UNAVAIL डिस्क को अलग कर सकते हैं, ZFS वैसे भी उपयोग नहीं कर रहा है।

आपको RAIDZ-1 सेटअप में दो असफल डिस्क मिली हैं। यह बहुत संभावना है कि आप कुछ डेटा हानि देख रहे हैं और बैकअप से पुनर्स्थापित करने के लिए तैयार होना चाहिए।

एक साइड नोट के रूप में, RAIDZ ओपनसिलेरिस / सोलारिस 11 के साथ मेरे अनुभव में बहुत परतदार साबित हुआ है। मैं किसी भी तरह के उत्पादन कार्यभार में इसका उपयोग करने के खिलाफ सलाह दूंगा।

इसके अलावा, ईवाइट ने जो कहा, उस पर लगाम लगाने के लिए FUSE आपका सबसे अच्छा विकल्प नहीं है। मैं इस अवसर को और अधिक स्थिर (शायद FreeBSD 10) पर स्थानांतरित करने का अवसर लूंगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.