सारांश
जब से मैंने कुछ नया हार्डवेयर स्थापित किया है, तब से ही मुझे ये syslog में संदेश मिल रहे हैं और मुझे पता नहीं है कि समस्या क्या है, अगर यह गंभीर है, या इसके बारे में क्या करना है।
वे नए SATA HBA से हैं और वे एक पैटर्न का पालन करते हैं। मुझे पहले संदेश में से कई के बाद दूसरा संदेश 5-30 सेकंड के बाद मिलेगा। वे उन ब्लब्स में आते हैं जो सभी एक ही सेकंड में लॉग इन होते हैं और प्रत्येक की सटीक मात्रा लगभग 2 और 35 के बीच भिन्न होती है। यह प्रविष्टियों के प्रकट होने के बीच मिनट या घंटे हो सकते हैं।
दो संदेशों का उदाहरण:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
यह हमेशा 0x31110d01 द्वारा पीछा किया जाता है।
mpt2sas SATA होस्ट बस एडॉप्टर के लिए ड्राइवर है जिसका मैं उपयोग कर रहा हूं लेकिन त्रुटि सामग्री अत्यधिक गुप्त है। यह मुझे नहीं बताता कि समस्या क्या है, यह किस डिस्क या पोर्ट के साथ है या कितनी गंभीर है।
हार्डवेयर
सुपरमाइक्रो X9SCL एक Xeon E3-1220 और 8GB रैम के साथ।
LSI SAS2008 आधारित सुपरमाइक्रो AOC-USAS2-L8I SAS / SATA HBA सुपरमाइक्रो CSE-M35T-1B डिस्क ट्रे सेट से जुड़ा है । यह तीन पश्चिमी डिजिटल है WD30EZRX और दो Segate ST3000DM001 इसे में खामियों को दूर। सभी 3TB ड्राइव (वास्तव में सेक्टरों की सटीक संख्या)। उपयोग में कोई बंदरगाह विस्तारक नहीं।
HBA, डिस्क ट्रे और ड्राइव के 4 नए हैं। WD30EZRXes में से एक महीनों के लिए रहा है, इसके साथ कोई समस्या नहीं थी। अगर यह पहले एकीकृत इंटेल एसएटीए नियंत्रक से जुड़ा होता, तो इसे इस नए सेटअप के साथ ड्राइव बे में ले जाया जाता।
एचबीए के साथ समस्याओं को अक्सर रीसेट करने और वास्तव में भयानक प्रदर्शन प्राप्त करने की आवश्यकता थी। फर्मवेयर / बायोस को "चरण 12" में अपडेट किया गया, जो सुपरमाइक्रो से उपलब्ध नवीनतम रिलीज़ है और आईटी के प्रकार (यानी passthrough) को IR से एकीकृत छापे के लिए बदल दिया है क्योंकि मैं सभी सॉफ्टवेयर छापे का उपयोग करने जा रहा था): 2008IT12.W। उस अपडेट ने सभी शुरुआती मुद्दों को साफ़ कर दिया और मुझे उपरोक्त संदेश बाद में (नीचे देखें) मिलना शुरू नहीं हुआ।
मैंने जो पहले चार डिस्क जोड़े हैं वे सभी पहले SFF-8087 पोर्ट (4 SATA केबलों में विभाजित) पर हैं। यदि मैंने जो नवीनतम डिस्क जोड़ी है वह अन्य पोर्ट पर है, यदि यह मायने रखता है।
सिस्टम पर एकमात्र अन्य डिस्क में ओएस शामिल है, और एक पुराना इंटेल 80 जीबी एसएसडी एकीकृत एसएटीए नियंत्रक में प्लग किया गया है।
सॉफ्टवेयर
उबंटू 11.10 (वनिरिक)। लिनक्स 3.0.0-14-सर्वर x86_64। OS के साथ आने वाले mpt2sas ड्राइवर का उपयोग करना।
उन पाँच डिस्क के साथ लिनक्स md का उपयोग करके एक RAID6 सरणी बनाने की कोशिश कर रहा है। 3 डिस्क, दो सेगेट्स और नए WD ड्राइवों में से एक के पतित सरणी के साथ शुरू हुआ। यह तेजी से और बहुत अच्छी तरह से चला गया, फर्मवेयर अपडेट करने के बाद लॉग में कोई संदेश नहीं। इस बीच, मैं अभी भी उसी नियंत्रक के पोर्ट 0 पर पुरानी WD डिस्क का उपयोग कर रहा हूं।
सरणी में अन्य नई WD डिस्क को जोड़ा गया। पुनर्निर्माण शुरू हो गया है और मुझे अब उन संदेशों को समय-समय पर syslog में मिल रहा है। मुझे यकीन नहीं है कि सरणी में एक डिस्क को जोड़ने में कितना समय लगना चाहिए लेकिन अनुमानित समय (बिल्ली / खरीद / mdstat) हजारों से दसियों मिनटों तक होता है, पहले 3 डिस्कों की तुलना में अधिक लंबा। मुझे समझ में आया कि WD डिस्क बहुत धीमी है; मुझे कई डिस्क विफलता की संभावना में कटौती करने के लिए अलग-अलग मॉडल मिले, और वे दो सबसे सस्ते 3TB मॉडल थे।
टिप्पणियाँ
स्मार्ट किसी भी डिस्क पर किसी भी समस्या की रिपोर्ट नहीं करता है। किसी भी डिस्क पर कोई लॉग इन त्रुटियां नहीं हैं और किसी भी विफलता के आँकड़े कहीं भी सीमा के पास नहीं हैं।
लॉग किए गए संदेश केवल अंतिम डिस्क जोड़ने के बाद दिखाई देने लगे, जो बताता है कि किसी को समस्या हो सकती है, लेकिन मेरे पास उस ओर इशारा करने के अलावा और कुछ नहीं है।
मुझे एक हेडर फ़ाइल मिली जो इस ड्राइवर से लॉगिंग संदेशों के अनुरूप लगती है। पहला संदेश "सब कोड" 0303 के लिए एक एबोर्ट (कोड 12) लगता है जो सूचीबद्ध नहीं है। दूसरा संदेश एक कारण के लिए एक रीसेट (कोड 11) है जो भी स्पष्ट नहीं है। अगर मैं यह निर्धारित कर सकता कि 0303 और 0d01 का क्या मतलब है, तो यह वास्तव में मददगार होगा।
मुझे पता है कि एक 5 डिस्क RAID6 में 4 डिस्क एक अपूर्ण सरणी है। मैं पुराने डिस्क की सामग्री को सरणी में कॉपी करने की योजना बना रहा हूं, क्योंकि यह 4 डिस्क को एकीकृत करने के बाद समाप्त हो जाती है और फिर पुरानी डिस्क को भी सरणी में जोड़ देता है।