जारी रखने के mpt2sas syslog संदेश जारी करना


15

सारांश

जब से मैंने कुछ नया हार्डवेयर स्थापित किया है, तब से ही मुझे ये syslog में संदेश मिल रहे हैं और मुझे पता नहीं है कि समस्या क्या है, अगर यह गंभीर है, या इसके बारे में क्या करना है।

वे नए SATA HBA से हैं और वे एक पैटर्न का पालन करते हैं। मुझे पहले संदेश में से कई के बाद दूसरा संदेश 5-30 सेकंड के बाद मिलेगा। वे उन ब्लब्स में आते हैं जो सभी एक ही सेकंड में लॉग इन होते हैं और प्रत्येक की सटीक मात्रा लगभग 2 और 35 के बीच भिन्न होती है। यह प्रविष्टियों के प्रकट होने के बीच मिनट या घंटे हो सकते हैं।

दो संदेशों का उदाहरण:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

यह हमेशा 0x31110d01 द्वारा पीछा किया जाता है।

mpt2sas SATA होस्ट बस एडॉप्टर के लिए ड्राइवर है जिसका मैं उपयोग कर रहा हूं लेकिन त्रुटि सामग्री अत्यधिक गुप्त है। यह मुझे नहीं बताता कि समस्या क्या है, यह किस डिस्क या पोर्ट के साथ है या कितनी गंभीर है।

हार्डवेयर

सुपरमाइक्रो X9SCL एक Xeon E3-1220 और 8GB रैम के साथ।

LSI SAS2008 आधारित सुपरमाइक्रो AOC-USAS2-L8I SAS / SATA HBA सुपरमाइक्रो CSE-M35T-1B डिस्क ट्रे सेट से जुड़ा है । यह तीन पश्चिमी डिजिटल है WD30EZRX और दो Segate ST3000DM001 इसे में खामियों को दूर। सभी 3TB ड्राइव (वास्तव में सेक्टरों की सटीक संख्या)। उपयोग में कोई बंदरगाह विस्तारक नहीं।

HBA, डिस्क ट्रे और ड्राइव के 4 नए हैं। WD30EZRXes में से एक महीनों के लिए रहा है, इसके साथ कोई समस्या नहीं थी। अगर यह पहले एकीकृत इंटेल एसएटीए नियंत्रक से जुड़ा होता, तो इसे इस नए सेटअप के साथ ड्राइव बे में ले जाया जाता।

एचबीए के साथ समस्याओं को अक्सर रीसेट करने और वास्तव में भयानक प्रदर्शन प्राप्त करने की आवश्यकता थी। फर्मवेयर / बायोस को "चरण 12" में अपडेट किया गया, जो सुपरमाइक्रो से उपलब्ध नवीनतम रिलीज़ है और आईटी के प्रकार (यानी passthrough) को IR से एकीकृत छापे के लिए बदल दिया है क्योंकि मैं सभी सॉफ्टवेयर छापे का उपयोग करने जा रहा था): 2008IT12.W। उस अपडेट ने सभी शुरुआती मुद्दों को साफ़ कर दिया और मुझे उपरोक्त संदेश बाद में (नीचे देखें) मिलना शुरू नहीं हुआ।

मैंने जो पहले चार डिस्क जोड़े हैं वे सभी पहले SFF-8087 पोर्ट (4 SATA केबलों में विभाजित) पर हैं। यदि मैंने जो नवीनतम डिस्क जोड़ी है वह अन्य पोर्ट पर है, यदि यह मायने रखता है।

सिस्टम पर एकमात्र अन्य डिस्क में ओएस शामिल है, और एक पुराना इंटेल 80 जीबी एसएसडी एकीकृत एसएटीए नियंत्रक में प्लग किया गया है।

सॉफ्टवेयर

उबंटू 11.10 (वनिरिक)। लिनक्स 3.0.0-14-सर्वर x86_64। OS के साथ आने वाले mpt2sas ड्राइवर का उपयोग करना।

उन पाँच डिस्क के साथ लिनक्स md का उपयोग करके एक RAID6 सरणी बनाने की कोशिश कर रहा है। 3 डिस्क, दो सेगेट्स और नए WD ड्राइवों में से एक के पतित सरणी के साथ शुरू हुआ। यह तेजी से और बहुत अच्छी तरह से चला गया, फर्मवेयर अपडेट करने के बाद लॉग में कोई संदेश नहीं। इस बीच, मैं अभी भी उसी नियंत्रक के पोर्ट 0 पर पुरानी WD डिस्क का उपयोग कर रहा हूं।

सरणी में अन्य नई WD डिस्क को जोड़ा गया। पुनर्निर्माण शुरू हो गया है और मुझे अब उन संदेशों को समय-समय पर syslog में मिल रहा है। मुझे यकीन नहीं है कि सरणी में एक डिस्क को जोड़ने में कितना समय लगना चाहिए लेकिन अनुमानित समय (बिल्ली / खरीद / mdstat) हजारों से दसियों मिनटों तक होता है, पहले 3 डिस्कों की तुलना में अधिक लंबा। मुझे समझ में आया कि WD डिस्क बहुत धीमी है; मुझे कई डिस्क विफलता की संभावना में कटौती करने के लिए अलग-अलग मॉडल मिले, और वे दो सबसे सस्ते 3TB मॉडल थे।

टिप्पणियाँ

स्मार्ट किसी भी डिस्क पर किसी भी समस्या की रिपोर्ट नहीं करता है। किसी भी डिस्क पर कोई लॉग इन त्रुटियां नहीं हैं और किसी भी विफलता के आँकड़े कहीं भी सीमा के पास नहीं हैं।

लॉग किए गए संदेश केवल अंतिम डिस्क जोड़ने के बाद दिखाई देने लगे, जो बताता है कि किसी को समस्या हो सकती है, लेकिन मेरे पास उस ओर इशारा करने के अलावा और कुछ नहीं है।

मुझे एक हेडर फ़ाइल मिली जो इस ड्राइवर से लॉगिंग संदेशों के अनुरूप लगती है। पहला संदेश "सब कोड" 0303 के लिए एक एबोर्ट (कोड 12) लगता है जो सूचीबद्ध नहीं है। दूसरा संदेश एक कारण के लिए एक रीसेट (कोड 11) है जो भी स्पष्ट नहीं है। अगर मैं यह निर्धारित कर सकता कि 0303 और 0d01 का क्या मतलब है, तो यह वास्तव में मददगार होगा।

मुझे पता है कि एक 5 डिस्क RAID6 में 4 डिस्क एक अपूर्ण सरणी है। मैं पुराने डिस्क की सामग्री को सरणी में कॉपी करने की योजना बना रहा हूं, क्योंकि यह 4 डिस्क को एकीकृत करने के बाद समाप्त हो जाती है और फिर पुरानी डिस्क को भी सरणी में जोड़ देता है।

जवाबों:


5

संभवतः आपकी सबसे अच्छी शर्त आपके डिस्क और आपके sas raid कंट्रोलर के बीच कहीं न कहीं एक हार्डवेयर समस्या है। मैं कोशिश करने की सलाह देता हूं:

  1. यदि वे उपलब्ध हैं, तो विक्रेता से किसी भी नैदानिक ​​उपकरण को चलाएं
  2. चेक / री-सीट / केबलों को बदलें
  3. हार्डवेयर घटकों को स्ट्रिप करें और श्रृंखला में हार्डवेयर को स्वैप करें जो डिस्क को आपके RAID नियंत्रक से जोड़ता है, जिसमें नियंत्रक स्वयं भी शामिल है (यानी, आपके लिए, मदरबोर्ड एकीकृत छापे की तुलना में कुछ और प्रयास करें)।

मेरे पास दो समान डेल पॉवरएज R515 में से एक बहुत समान संदेश दे रहा था (लॉग समय-समय पर mpt2sas0 संदेशों के साथ भरता है, हालांकि मेरे पास सटीक संख्यात्मक कोड नहीं हैं)। डेल के अपने बूट करने योग्य डायग्नोस्टिक ने इन्हें "हार्डवेयर त्रुटियों" के रूप में चुना और RAID एसएएस बैकप्लेन को बदलने से समस्या हल हो गई।

जब मैं जांच कर रहा था, तो मुझे व्यापक संसाधन नहीं मिल पाए कि विभिन्न mpt2sas0 त्रुटि कोड का क्या मतलब है। मुझे संदेह है कि वे हार्डवेयर-विक्रेता-विशिष्ट भी हो सकते हैं (कोई व्यक्ति जो एसएएस के बारे में अधिक जानता है, इस बात की पुष्टि या इनकार करने की आवश्यकता है)। तो आपके त्रुटि कोड का अर्थ व्यापक रूप से कुछ अलग हो सकता है, लेकिन अगर SMART साफ है तो त्रुटि कोड की रिपोर्ट करने के लिए mpt2sas0 के अन्य अच्छे कारणों की कल्पना करना कठिन है।

ये त्रुटियां बहुत गंभीर हो सकती हैं। मेरे R515 ने इन संदेशों के साथ एक हफ्ते तक 12 डिस्क उबंटू लिनक्स सॉफ्टवेयर छापे 6 के साथ ठीक से काम किया, लेकिन फिर अचानक सभी 12 डिस्क को टूटे (!) के रूप में निकाल दिया।

इसके अलावा मेरे मामले में सभी डिस्क के लिए स्मार्ट पूरी तरह से साफ थे। एक अच्छी जाँच एक स्मार्ट सेल्फ डायग्नोस्टिक टेस्ट है: smartctl -t long /dev/sdXऔर फिर एक दिन बाद परिणामों की जाँच करें smartctl -l selftest /dev/sdX। यदि सब ठीक है तो परीक्षण को कहना चाहिए Completedऔर LBA_first_errकॉलम खाली होना चाहिए।


नोट: RAID नियंत्रक (HBA वास्तव में) पहले से ही एक अलग कार्ड है। जहाज पर SATA नियंत्रक ठीक काम करता है। मेरे पास ऑर्डर पर एक प्रतिस्थापन SFF-8087 केबल है, कल तक यहां होना चाहिए। इस बिंदु पर मेरा शीर्ष संदेह है।
क्रिस स्मिथ

खराब केबल की समस्या थी! मैंने उन दोनों (दो SFF बंदरगाहों) को कुछ उच्च गुणवत्ता वाले केबलों से बदल दिया और तब से कोई समस्या नहीं है! मैं आपका उत्तर स्वीकार कर रहा हूं क्योंकि यह सबसे लंबा है और खराब केबल का सुझाव देता है। पी एस मैंने निश्चित रूप से लंबे स्मार्ट परीक्षण किए; किसी भी डिस्क पर कोई समस्या नहीं है।
क्रिस स्मिथ

यह सुनकर बहुत अच्छा लगा कि आपको समस्या मिल गई। स्वीकार करने के लिए धन्यवाद।
रिकर्ड आर्मिएंटो

मेरे लिए वास्तव में यह अजीब है कि मैं इस समस्या को डेल पॉवरएडज प्लेटफॉर्म के मामले में भी पूरा करता हूं। समान परिणाम केबल के साथ था ...
Mazeryt

3

वाह, एक कठिन।

यह इंगित करता है कि 0x31120303 आपके किसी डिवाइस के भारी लोड के कारण बस रीसेट है। यह भी कहता है कि आपको इसके बारे में चिंता करने की आवश्यकता नहीं है। (हाहा, हाँ ठीक है।)

यह इंगित करता है कि ये लॉग संदेश हो रहे हैं क्योंकि आपका एक उपकरण आदेशों पर प्रतिक्रिया देने में बहुत लंबा समय ले रहा है। यह वही बात कहता है, और यह भी इंगित करता है कि यह भारी भार के तहत होता है।

हालांकि यह पूर्ण उत्तर नहीं है, यह उम्मीद है कि आपको एक उपयोगी दिशा में इंगित करेगा।


मैंने उन कुछ पोस्टिंग को देखा, लेकिन कभी भी सटीक संदेश नहीं मिल पा रहा था। खराब SFF-8087-> SATA केबल निकला। सहायता के लिए धन्यवाद!
क्रिस स्मिथ

0

इसका मतलब यह है कि आपको डिस्क पर कुछ त्रुटि है, यह एलएसआई से एसएएस नियंत्रक में एक एसएटीए डिस्क है और त्रुटि के कारण सभी बकाया अनुरोधों को निरस्त कर दिया गया था।

ज्यादातर मामलों में आपको डिस्क पर एक मध्यम त्रुटि होती है जो इस त्रुटि के लिए ट्रिगर है। यह त्रुटि अपने आप में एक मध्यम त्रुटि नहीं है और आपको मूल डिस्क विफलता का स्रोत क्या है यह जानने के लिए अन्य संकेतों के लिए लॉग की जांच करने की आवश्यकता होगी।

थोड़ा और अधिक विस्तृत संस्करण यहां: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/


दिलचस्प पोस्ट, साझा करने के लिए धन्यवाद! SATA एक ​​भद्दा प्रोटोकॉल है, लेकिन डिस्क सस्ते हैं और मुझे जो चाहिए वह करते हैं। जब से मैंने दोषपूर्ण केबल को बदला, संदेश फिर से प्रकट नहीं हुआ।
क्रिस स्मिथ

1
LSI Loginfo के अधिक डिकोडिंग को एक उपयोगिता के माध्यम से पाया जा सकता है जिसे मैंने इसे समझने के लिए बनाया है: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes
Baruch Even
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.