मीन टाइम टू फेल्योर (MTTF): जब डिस्क निर्माता इसे पोस्ट करते हैं, तो आपको उनकी संख्या की व्याख्या कैसे करनी चाहिए?


10

मीन टाइम टू फेल्योर (MTTF) आमतौर पर घंटों के हिसाब से दिया जाता है, और कुछ गणनाएँ करने से ऐसा लगता है कि एक डिस्क अच्छी संख्या में वर्षों के बाद ही विफल हो जानी चाहिए ।

ऐसा लगता है कि डिस्क को इससे अधिक बार मरम्मत की आवश्यकता होती है। क्या किसी को पता है कि ऐसा क्यों है?

मुझे लगा कि इस मीट्रिक के बारे में कुछ गड़बड़ है। यहाँ कुछ गलत व्याख्या कर रहा हूँ?

जवाबों:


14

सबसे पहले:

MTTF = माध्य समय विफलता के लिए
MTTR = माध्य समय की मरम्मत के लिए
MTBF = माध्य समय विफलताओं के बीच = MTTF / MTTR

MTBF अक्सर MTTF के बराबर या कम होता है, क्योंकि मरम्मत में एक घंटे का समय लग सकता है, और MTTF हजारों घंटे का हो सकता है। लेकिन एमटीबीएफ भी अक्सर लागू नहीं होता है, क्योंकि दोषपूर्ण उत्पादों की मरम्मत नहीं की जाती है, लेकिन बस प्रतिस्थापित किया जाता है, क्योंकि मरम्मत की जगह बदलने की लागत अधिक होती है।

एमटीटीएफ गणना एक जटिल सांख्यिकीय विधि है जिसमें प्रत्येक और प्रत्येक व्यक्तिगत भाग को विफल करने की बाधाओं की गणना शामिल है। और यह एक रैखिक बात नहीं है क्योंकि लोग कभी-कभी अनुमान लगाते हैं। यदि आपके पास 1000 000 घंटे का MTTF है जिसका मतलब यह नहीं है कि 1000 उपकरणों में 1000 घंटे के बाद कोई विफल होगा, या कि आपको 1 घंटे के बाद 1000 000 उपकरणों में विफलता मिलेगी।
कई इलेक्ट्रॉनिक उपकरण "बाथटब वक्र" का पालन करते हैं ,

यहाँ छवि विवरण दर्ज करें

जहाँ बहुत सारी असफलताएँ जल्दी होती हैं, तो लंबे समय तक शायद ही कोई असफलता मिलती है, और जीवन के अंत में विफलताओं की संख्या फिर से बढ़ जाती है। हार्ड डिस्क में कुछ यांत्रिक भाग भी होते हैं जिनमें अधिक रैखिक विफलता होती है; यह धीरे-धीरे दिन 1 से रैंप करता है।

यदि निर्माता उदाहरण के लिए 1000 000 घंटे MTTF (जो कि अक्सर POH, या पॉवर-ऑन आवर्स) कहता है, तो इसका मतलब है कि औसतन ड्राइव को 100 साल तक चलना चाहिए। कुछ ड्राइव अधिक समय तक चलेंगे, कुछ पहले विफल हो जाएंगे। इसलिए 1000 000 घंटे के बावजूद 1000 घंटे के बाद विफलता होना पूरी तरह से संभव है। मैंने एक बार एक सप्ताह के भीतर एक ड्राइव को विफल कर दिया था, और फिर आपको बाथटब वक्र के बारे में सोचना होगा। प्रतिस्थापन ड्राइव> 50k घंटे के लिए खुशी से घूम रहा है।


3
ध्यान देने योग्य कुछ बातें यह तथ्य हो सकती हैं कि शुरुआती विफलताओं को अक्सर बर्न-इन कहा जाता है। जिन निर्माताओं की शुरुआती कम विफलताएं होती हैं, वे अक्सर अपने बर्न-इन चरण के माध्यम से डिवाइस चलाते हैं। इसके अलावा, शुद्ध इलेक्ट्रॉनिक्स पहनने की अवधि और केवल एक बर्न में प्रदर्शित नहीं करते हैं।
कोरटुक

1
ध्यान दें कि जब आप MTTF (या MTBF) की गणना कर रहे हैं, तो आप आमतौर पर विफलताओं को मॉडल करने के लिए सिर्फ एक वितरण का उपयोग कर रहे हैं। इसलिए गणना या तो "शिशु मृत्यु दर", "सामान्य जीवन", या "जीवन पहनने के अंत" वितरण पर आधारित है। केवल एक चीज जो इन तीन वितरणों को अलग करती है, वेइबुल शेप पैरामीटर है, यदि आप अपने मूल वितरण के रूप में वीबुल का उपयोग कर रहे हैं। एकमात्र मामला जिसमें विफलताओं "सामान्य जीवन" वितरण से बाहर आ जाएगी, जब समय का विफलता दर पर कोई प्रभाव नहीं होगा, और इसलिए वितरण घातीय होगा।

2
MTTF मुख्य रूप से इस बात के संकेत के रूप में उपयोगी है कि आपको डिवाइस या विजेट से किस तरह के जीवन की उम्मीद करनी चाहिए। यह स्पष्ट कारणों के लिए नहीं हो सकता है, डिवाइस की विफलता की तारीख का सटीक पूर्वानुमान। यह उपलब्ध आंकड़ों के सांख्यिकीय विश्लेषण के आधार पर केवल एक अनुमान है और इसे केवल इस प्रकार माना जाना चाहिए। बजट बनाने के लिए उपयोगी (मुझे यहां कब तक लागतों को कम करना या कम करना चाहिए) और योजना (हम अगले एक को प्राप्त करने से पहले विजेट को प्रदर्शन करने की कितनी देर तक उम्मीद कर सकते हैं)।
म्यूजिक 2 डियर

सबसे पहले, वास्तव में "डिस्क विफलता" क्या है?
काइटलिन मैकमोर्डी

2
@Kaitlyn - मुझे लगता है कि आप बुरे क्षेत्रों की बात कर रहे हैं। मैं कहता हूँ कि डिस्क विफलता तब होती है जब आप ड्राइव से पढ़ या लिख ​​नहीं सकते हैं। आमतौर पर एक यांत्रिक त्रुटि, एक सिर दुर्घटना की तरह। यह आमतौर पर तब होता है जब आपके पास अभी भी बहुत सारे अच्छे सेक्टर बचे होते हैं।
स्टीवनवह

4

यदि उपकरणों के एक टुकड़े में MTBF का 1,000,000 घंटे का उपयोग होता है, तो इसका मतलब यह नहीं है कि किसी भी उपकरण के 1,000,000 घंटे तक चलने की उम्मीद की जा सकती है। बल्कि, इसका मतलब है, मोटे तौर पर, कि अगर उपकरण के 1,000,000 टुकड़े जो उनके रेटेड सेवा जीवनकाल के भीतर हैं, प्रत्येक को एक घंटे के लिए संचालित किया जाता है, या 100,000 टुकड़े दस घंटे (लेकिन अभी भी रेटेड जीवनकाल के भीतर), या एक मिनट के लिए 60,000,000, आदि के लिए संचालित होते हैं। बहुत में लगभग एक विफलता होगी। ध्यान दें कि रेटेड सेवा जीवनकाल MTBF के लिए एक पूरी तरह से रूढ़िवादी है। निम्नलिखित दो प्रकार के विजेट पर विचार करें:

  1. हर विजेट, उम्र की परवाह किए बिना, हर घंटे में विफल रहने का 0.1% मौका है।
  2. प्रत्येक बिलियन विगेट्स में से, सभी लेकिन ठीक 61 मिनट तक काम करेंगे और फिर मर जाएंगे; वह 30 मिनट के बाद मर जाएगा; विगेट्स 60 मिनट की एक निर्दिष्ट सेवा जीवनकाल है।

पहले प्रकार के विजेट का औसत जीवनकाल लगभग 1,000 घंटे होगा, और लगभग 1,000 घंटों का MTBF भी होगा। दूसरे का जीवनकाल औसतन 61 मिनट का होगा, लेकिन उसकी सेवा जीवनकाल के भीतर 1,000,000,000 टन एमटीबीएफ होगी। हालांकि यह कहना अजीब लग सकता है कि दूसरे डिवाइस में MTBF है जो अपेक्षित जीवनकाल के लगभग अरब गुना है, MTBF शायद ही एक अर्थहीन आंकड़ा है।

मान लीजिए कि कोई ऐसा प्रयोग करने जा रहा है जिसके लिए 1,000,000 उपकरणों को पूरी तरह से एक घंटे के लिए काम करना होगा, जिसके बाद वे सभी को हटा दिया जाएगा। यदि कोई उपकरण विफल हो जाता है, तो पूरा प्रयोग बर्बाद हो जाएगा। जो अधिक उपयोगी होगा - एक उपकरण जो औसतन 1,000 घंटे तक चलेगा लेकिन उसके पास केवल 1,000 घंटों का MTBF होगा, या एक ऐसा उपकरण जो अधिकतम 61 मिनट तक चलेगा, लेकिन विफल होने के एक अरब मौके में केवल एक ही होगा उस निशान से मिलें?


तो, लब्बोलुआब यह है कि हमें किसी विशेष डिस्क के "मतलब जीवनकाल" के रूप में 10 ^ 6 घंटे के एमटीबीएफ को नहीं देखना चाहिए, बल्कि कई डिस्क के जीवनकाल के बारे में एक उपाय के रूप में?
कैटिलिन मैकमोर्डी

@ कैटिलिन मैकमोर्डी: शब्द "आजीवन" वास्तव में लागू नहीं है; मृत्यु का अर्थ असफलता नहीं है, न ही इसके विपरीत। स्टोरेज डिवाइस का निर्माता उन प्रक्रियाओं को निर्दिष्ट कर सकता है जिनका डेटा हानि से बचने के लिए पालन किया जाना चाहिए; ऐसी प्रक्रियाओं में सभी डेटा फ़ॉर्म को स्थानांतरित करना शामिल हो सकता है जो किसी भी डिवाइस को एक नए डिवाइस के लिए "विफलता आसन्न" संकेत देता है (डेटा की प्रतिलिपि बनाने के बाद, पुराने डिवाइस को "मृत" माना जाएगा)। यदि ऐसी घटना से कोई डेटा हानि नहीं होती है, तो यह विफलता नहीं है। डेटा हानि, जो किसी भी उपकरण से होती है, हालांकि, यहां तक ​​कि प्रतीत होता है कि एक स्वस्थ, एक विफलता है। जीवन भर कुछ नहीं करना है।
सुपरकैट

2

स्टीवनवह के जवाब में जोड़ना: प्रसिद्ध डिस्क निर्माता सभी नए उपकरणों की बर्न-इन करते हैं, जैसा कि इलेक्ट्रॉनिक उपकरणों के निर्माता करते हैं। हार्ड डिस्क में, न केवल समग्र MTBF और MTTF हैं, बल्कि डिस्क के ब्लॉक के लिए व्यक्तिगत विफलता के आंकड़े भी हैं। दूसरे शब्दों में: कताई के कुछ भाग, डिस्क में "प्लैटर" विफल हो सकते हैं, जबकि बहुमत अभी भी ठीक / पढ़ता / लिखता है। तथाकथित "खराब क्षेत्रों" का पता लगाया जा सकता है और फिर ड्राइव के अंदर फर्मवेयर द्वारा मैप किया जा सकता है।

सभी ड्राइवों में आज अतिरिक्त क्षेत्र आरक्षित हैं जो तब दोष क्षेत्रों के स्थान पर उपयोग किए जा सकते हैं। यह केवल निर्माता द्वारा एक सावधानी है: यदि वे ऐसा नहीं करेंगे, तो वे घोषित क्षमता पर डिस्क को नहीं बेच सकते हैं। यदि वे आरक्षित के रूप में एक अतिरिक्त x% छिपे हुए क्षेत्रों में निर्माण करते हैं, तो वे कुछ <x% द्वारा लागत में वृद्धि करते हैं, लेकिन बहुत अधिक समग्र उत्पादन उपज प्राप्त करते हैं।

डिस्क आज बुरे क्षेत्रों की गिनती रखते हैं जिन्हें उपयुक्त सॉफ्टवेयर से भी पढ़ा जा सकता है। इसे और अन्य डिस्क स्वास्थ्य मापदंडों (जैसे तापमान) को SMART मान कहा जाता है।

अब, एक बार निर्माता ने ड्राइव का जला परीक्षण किया है, और कुछ क्षेत्रों में लगभग विफलता है और ड्राइव के आंतरिक फर्मवेयर द्वारा हटा दिया गया है, "बैड सेक्टर काउंट" स्मार्ट पैरामीटर 0. पर सेट है। ड्राइव ग्राहकों को दिया जाता है।

आमतौर पर, जलने की प्रक्रिया के बाद, बाथटब वक्र की शुरुआत जो पहले ही उल्लेख की जा चुकी है, अब ग्राहक द्वारा नहीं देखी जाती है। हम भाग्यशाली हैं, और केवल समय के साथ विफलता की संभावना में वृद्धि देखते हैं।

इसलिए यदि आप निर्माता द्वारा उद्धृत MTTF को देखते हैं, तो किसी भी विफलता मॉडलिंग के लिए जिसे आप करना चाहते हैं, आप बाथटब वक्र की शुरुआत की उपेक्षा कर सकते हैं।


धन्यवाद। Btw, क्या आपको कोई मतलब है कि "सर्वर फॉल्ट" शब्द का क्या मतलब है?
कैटिलिन मैकमोर्डी

स्पष्ट अर्थ एक कंप्यूटर द्वारा सामना की गई त्रुटि है जो दूसरों को सेवाएं प्रदान करता है। और मेरा मानना ​​है कि यह वह समय है, जब आप serverfault.com पर सवाल पूछना चाहते हैं; ;-) में इसके बारे में
cfc

-2

आपको मार्केटिंग के रूप में इसकी व्याख्या करनी चाहिए। वे वास्तव में सटीक MTBF (मतलब विफलताओं के बीच का समय) नहीं जानते हैं, इसलिए वे इसका अनुमान लगाने के लिए विभिन्न तरकीबों का उपयोग करते हैं, और वे अपनी लागत को सही ठहराने के लिए 'एंटरप्राइज' ड्राइव के लिए उच्च संख्या दिखाते हैं।

हकीकत में, HDD निर्माताओं के लिए यह फायदेमंद है कि वारंटी खत्म होने के बाद उनका HDD फेल हो जाए।

एक साजिश के सिद्धांत के रूप में, मैं सीगेट 7200.11 के बड़े पैमाने पर विफल रहता है 'प्रोग्राम्ड डेथ' को लागू करने में एक गलती थी, जिसके कारण वारंटी समाप्त होने से पहले डिस्क विफल हो गई थी, इसलिए उन्हें फर्मवेयर अपडेट द्वारा 'ठीक' करना पड़ा।


मैं इस षड्यंत्र के तर्क को नहीं खरीदता।

1
@ फ़ेडरिको रूसो: क्यों? आपको लगता है कि यह सिर्फ एक सामान्य डेवलपर्स त्रुटि है, जिससे HDD को निश्चित संख्या में घंटे के बाद एक गैर-वसूली योग्य स्थिति में लॉक किया जा सकता है?
बार्समनस्टर

2
-1: सांख्यिकीय विश्लेषण का उपयोग MTBF संख्याओं को निर्धारित करने के लिए किया जाता है, और यह एक निश्चित सांख्यिकीय के लिए जाना जाता है - वे "विभिन्न ट्रिक्स" का उपयोग नहीं कर रहे हैं। आपको अपने दावे का समर्थन करने के लिए कुछ महत्वपूर्ण स्रोतों की आवश्यकता होगी कि एंटरप्राइज़ ड्राइव केवल उच्च संख्या में हैं, कि वारंटी समाप्त होने के बाद एचडीडी निर्माताओं ने अपनी ड्राइव को विफल कर दिया है, और यह कि सीगेट अपने ड्राइव में किसी भी प्रकार की 'प्रोग्राम्ड डेथ' लागू करता है।
केविन वर्मेयर

1
अपनी प्रतियोगिता की तुलना में उच्च MTTF दिखाने के लिए यह ड्राइव निर्माताओं का सबसे अच्छा हित है। +1
tyblu

डिस्क विफलता वास्तव में क्या है ? एक के लिए क्या मायने रखता है?
काइटलिन मैकमोर्डी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.