प्रस्तावना:
मैं एक कोड-बंदर हूं जो मेरी छोटी कंपनी के लिए SysAdmin कर्तव्यों पर बढ़ रहा है। मेरा कोड हमारा उत्पाद है, और तेजी से हम सास के रूप में एक ही ऐप प्रदान करते हैं।
लगभग 18 महीने पहले मैंने अपने सर्वर को एक प्रीमियम होस्टिंग सेंट्रिक वेंडर से टियर IV डेटा सेंटर में एक बेयरबोन रैक पुशर में स्थानांतरित किया। (सड़क के पार वास्तव में।) यह खुद को बहुत अधिक करने की सलाह देता है - नेटवर्किंग, भंडारण और निगरानी जैसी चीजें।
बड़े कदम के रूप में, होस्टिंग कंपनी से हमारे पट्टे पर प्रत्यक्ष संलग्न भंडारण को बदलने के लिए, मैंने SuperMicro चेसिस, 3ware RAID कार्ड, उबंटू 10.04, दो दर्जन SATA डिस्क, DRDD और के आधार पर एक 9TB दो-नोड NAS बनाया। यह सभी को प्यार से तीन ब्लॉग पोस्ट में प्रलेखित किया गया है: एक नए 9TB SATA RAID10 NFSv4 NAS का निर्माण और परीक्षण: भाग I , भाग II और भाग III ।
हम कैसिट मॉनिटरिंग सिस्टम भी सेट करते हैं। हाल ही में हम SMART मानों की तरह अधिक से अधिक डेटा बिंदुओं को जोड़ रहे हैं।
मैं बिना यह सब नहीं कर सकते थे भयानक boffins पर ServerFault । यह एक मजेदार और शैक्षिक अनुभव रहा है। मेरा बॉस खुश है (हमने $$$ के बकेट लोड को बचाया) , हमारे ग्राहक खुश हैं (भंडारण लागत कम है) , मैं खुश हूं (मजेदार, मजेदार, मजेदार) ।
कल तक।
आउटेज और रिकवरी:
दोपहर के भोजन के कुछ समय बाद हमें अपने आवेदन, एक ऑन-डिमांड स्ट्रीमिंग मीडिया सीएमएस से सुस्त प्रदर्शन की खबरें मिलने लगीं। लगभग उसी समय हमारे कैक्टि मॉनिटरिंग सिस्टम ने ईमेल का एक बर्फ़ीला तूफ़ान भेजा। अधिक बताने वाले अलर्टों में से एक iostat प्रतीक्षा का ग्राफ था।
प्रदर्शन इतना नीचा हो गया कि Phatt ने "सर्वर डाउन" नोटिफिकेशन भेजना शुरू कर दिया। समग्र भार मध्यम था, ट्रैफ़िक स्पाइक नहीं था।
एनएएस के एनएफएस ग्राहकों के आवेदन सर्वर पर लॉग इन करने के बाद, मैंने पुष्टि की कि बस के बारे में सब कुछ बहुत रुक-रुक कर और लंबे समय तक आईओ प्रतीक्षा समय का अनुभव कर रहा था। और एक बार जब मैं प्राथमिक एनएएस नोड पर ही रुक गया, तो समस्या सरणी की फाइल सिस्टम को नेविगेट करने की कोशिश करते समय वही देरी स्पष्ट थी।
समय विफल होने पर, यह अच्छी तरह से चला गया। 20 मिनट के भीतर सब कुछ वापस होने और पूरी तरह से चलने की पुष्टि की गई।
पोस्टमार्टम:
किसी भी और सभी सिस्टम विफलताओं के बाद मैं विफलता का कारण निर्धारित करने के लिए पोस्टमार्टम करता हूं। पहली बात मैंने बॉक्स में वापस ssh किया और लॉग की समीक्षा करना शुरू किया। यह ऑफ़लाइन था, पूरी तरह से। डेटा सेंटर की यात्रा के लिए समय। हार्डवेयर रीसेट, बैकअप a और रनिंग।
में /var/syslog
मैं इस डरावना लग रही प्रवेश पाया:
Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_00], 6 Currently unreadable (pending) sectors
Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_07], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 171 to 170
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 16 Currently unreadable (pending) sectors
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 4 Offline uncorrectable sectors
Nov 15 06:49:45 umbilo smartd[2827]: Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
Nov 15 06:49:45 umbilo smartd[2827]: # 1 Short offline Completed: read failure 90% 6576 3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 2 Short offline Completed: read failure 90% 6087 3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 3 Short offline Completed: read failure 10% 5901 656821791
Nov 15 06:49:45 umbilo smartd[2827]: # 4 Short offline Completed: read failure 90% 5818 651637856
Nov 15 06:49:45 umbilo smartd[2827]:
इसलिए मैं सरणी में डिस्क के लिए कैक्टि रेखांकन की जांच करने गया। यहाँ हम देखते हैं कि, हाँ, डिस्क 7 फिसल रहा है जैसे कि syslog कहता है कि यह है। लेकिन हम यह भी देखते हैं कि डिस्क 8 के स्मार्ट रीड एरोस उतार-चढ़ाव कर रहे हैं।
Syslog में डिस्क 8 के बारे में कोई संदेश नहीं हैं। अधिक दिलचस्प यह है कि डिस्क 8 के लिए उतार-चढ़ाव का मूल्य सीधे उच्च IO प्रतीक्षा समय से संबंधित है! मेरी व्याख्या यह है कि:
- डिस्क 8 एक विषम हार्डवेयर दोष का सामना कर रहा है, जिसके परिणामस्वरूप रुक-रुक कर लंबे समय का ऑपरेशन होता है।
- किसी तरह डिस्क पर यह दोष स्थिति पूरे सरणी को लॉक कर रही है
हो सकता है कि अधिक सटीक या सही विवरण हो, लेकिन शुद्ध परिणाम यह रहा है कि एक डिस्क पूरे सरणी के प्रदर्शन को प्रभावित कर रही है।
प्रश्न)
- हार्डवेयर SATA RAID-10 सरणी में एक एकल डिस्क पूरे सरणी को एक डरावने पड़ाव में कैसे ला सकती है?
- मुझे लगता है कि RAID कार्ड इस के साथ निपटा जाना चाहिए भोली हो रही है?
- मैं संपूर्ण सरणी को प्रभावित करने से एकल दुर्व्यवहार डिस्क को कैसे रोक सकता हूं?
- क्या मैं कुछ भूल रहा हूँ?