क्या किसी सर्वर में उपभोक्ता MLC SSDs का उपयोग करना सुरक्षित है?


44

हम (हमारे द्वारा और मेरा मतलब है कि जेफ) हमारे बैकअप डेटा सेंटर में उपभोक्ता एमएलसी एसएसडी डिस्क का उपयोग करने की संभावना देख रहे हैं।

हम लागत कम करने और प्रयोग करने योग्य स्थान को ऊपर रखने की कोशिश करना चाहते हैं - इसलिए इंटेल X25-E लगभग 700 डॉलर प्रति और 64GB क्षमता पर बहुत अधिक है।

हम जो करने की सोच रहे हैं वह कुछ कम कीमत के SSD की खरीदारी करना है जो कम कीमत पर अधिक क्षमता प्रदान करता है। मेरा बॉस यह नहीं सोचता कि बैकअप डेटा सेंटर से बाहर चल रहे सर्वर में डिस्क के लिए लगभग 5k खर्च करना निवेश के लायक है।

लेनोवो RD120 पर 6 ड्राइव RAID सरणी में इन ड्राइव का उपयोग किया जाएगा। RAID नियंत्रक एक Adaptec 8k (rebranded Lenovo) है।

बस एक दृष्टिकोण कितना खतरनाक है और इन खतरों को कम करने के लिए क्या किया जा सकता है?


4
स्पिनरों के बजाय एसएसडी का उपयोग करने का औचित्य क्या है? एसएसडी प्रदर्शन पर लोक ज्ञान "भुगतान करें या परेशान न करें" है, लेकिन निश्चित रूप से अन्य पहलू हैं जो एक लाभ हो सकते हैं।
peterchen

मैं उस समस्या के बारे में उत्सुक हूं जिसे आप यहां हल करने का प्रयास कर रहे हैं। यदि यह केवल लागतों में से एक है तो SSDs को पारंपरिक ड्राइव के स्थान पर क्यों माना जा रहा है?
जॉन गार्डनियर्स

@peterchen, आप या तो SSDs के एक जोड़े या पचास 15K स्पिंडल का उपयोग कर सकते हैं।
सिरसा चिरिया

@iconiK - क्या आपका मतलब है "एक सर्वर के लिए, आपको वैसे भी बहुत अधिक पैसा खर्च करने की आवश्यकता है"? यदि हां - तो, ​​इसीलिए मैं भी सोच रहा था।
पीटरचेन

जवाबों:


61

कुछ विचार;

  • SSDs में 'ओवरकमिट' मेमोरी होती है। यह कोशिकाओं द्वारा लिखित 'क्षतिग्रस्त' के स्थान पर उपयोग की जाने वाली मेमोरी है। कम अंत एसएसडी में केवल 7% ओवरकमिट स्पेस हो सकता है; मध्य-सीमा लगभग 28%; और उद्यम के रूप में ज्यादा के रूप में 400% डिस्क। इस कारक पर विचार करें।
  • आप प्रति दिन उन्हें कितना लिखेंगे? यहां तक ​​कि मध्यम-आकार की SSDs जैसे कि सैंडफोर्स के 1200 चिप्स पर आधारित शायद ही कभी overcommitted मेमोरी में कटौती करने से पहले प्रति दिन लगभग 35GB से अधिक लिखते हैं।
  • आमतौर पर, एक नए एसएसडी का दिन 1 लेखन से भरा होता है, चाहे वह ओएस हो या डेटा। यदि आपके पास पहले दिन से 35 जीबी से अधिक के राइट्स हैं, तो SSD को बैचों के बीच कुछ 'सुव्यवस्थित समय' देने के लिए इसे बैचों में कॉपी करने पर विचार करें।
  • टीआरआईएम समर्थन के बिना, यादृच्छिक लेखन प्रदर्शन हफ्तों के भीतर 75% तक गिर सकता है यदि उस अवधि के दौरान बहुत अधिक लेखन होता है - यदि आप कर सकते हैं, तो एक ओएस का उपयोग करें जो टीआरआईएम का समर्थन करता है
  • आंतरिक कचरा संग्रह प्रक्रिया जो आधुनिक SSDs करती है, विशेष रूप से शांत अवधि के दौरान की जाती है, और यह गतिविधि पर रुक जाती है। यह एक डेस्कटॉप पीसी के लिए कोई समस्या नहीं है जहां डिस्क अपने सामान्य 8 घंटे के कर्तव्य चक्र के 60% के लिए शांत हो सकती है, लेकिन आप एक 210 सेवा चलाते हैं ... इस प्रक्रिया को चलाने का मौका कब मिलेगा?
  • यह आमतौर पर चश्मे में गहरे दफन किया जाता है, लेकिन सस्ते 'नियमित' डिस्क की तरह, सस्ती एसएसडी भी केवल 30% के कर्तव्य चक्र होने की उम्मीद है। आप उन्हें लगभग 100% समय के लिए उपयोग कर रहे हैं - यह आपकी MTBF दर को प्रभावित करेगा।
  • हालांकि SSDs एक ही यांत्रिक समस्याओं को नियमित डिस्क से ग्रस्त नहीं करते हैं, उनके पास एकल और एकाधिक-बिट त्रुटियां हैं - इसलिए दृढ़ता से उन पर विचार करें, भले ही वृत्ति न हो। जाहिर है कि यह उन सभी पर यादृच्छिक यादृच्छिक गति को प्रभावित करेगा जिन्हें आपने अभी खरीदा है लेकिन इसे वैसे भी विचार करें।
  • यह अभी भी एसएएसए नहीं एसएएस है, इसलिए आपका कतार प्रबंधन एक सर्वर वातावरण में उतना अच्छा नहीं होगा, लेकिन फिर अतिरिक्त प्रदर्शन को बढ़ावा देने वाला नाटकीय होगा।

शुभकामनाएँ - बस उन्हें लिखने के साथ 'भून' नहीं है :)


2
क्या आपके पास अतिरिक्त स्थान के लिए 400% या 40% का मतलब है? मैं आपके उत्तर को संपादित करने जा रहा था लेकिन मुझे कोई उद्धरण नहीं मिला, इसलिए मुझे लगता है कि यह 400% हो सकता है। (यह एक बहुत अच्छी बात है, वैसे)
क्रिसइनएडमॉन्टन

9
यह हमेशा स्पष्ट नहीं होता है यदि TRIM को एक RAID विन्यास पर समर्थित किया गया है। याद रखें, SSDs को RAID से OS से दूर किया जाता है। RAID विक्रेता के साथ जाँच करना सुनिश्चित करें।
मैट शर्मन

5
मेरा मतलब था 400 क्रिस, विशेष रूप से एफसी सैन्स में उपयोग किए जाने वाले, बहुत खर्चीले हालांकि, बहुत।
चॉपर 3

5
एक ड्राइव से अधिक आरक्षित स्थान प्राप्त करने के लिए एक चाल सुरक्षित मिटा करने के लिए है, फिर इसे बड़े पैमाने पर अप्रयुक्त के साथ विभाजित करें। यह मुफ़्त स्थान SSD के प्रदर्शन और जीवनकाल को जोड़ देगा।
ज़ैन लिंक्स

1
बस @ZanLynx के साथ +1 करना चाहते हैं .. मैं आमतौर पर ड्राइव का लगभग 80% भाग तभी देता हूं जब मैं SSD + RAID का उपयोग कर रहा होता हूं।
ट्रैकर

12

मुझे यह लिंक मिला, जिसमें सर्वर में एमएलसी बनाम एसएलसी एसएसडी का एक दिलचस्प और गहन विश्लेषण है

कम से कम (दावा) पहनने के लिए एक तकनीक के लिए एक एमएलसी फ्लैश एसएसडी सरणी का उपयोग करते हुए मेरे विचार में, इजीको की एमएफटी जैसी प्रौद्योगिकी के पहनने से होने वाले प्रभाव को कम करना एक पैराशूट के बिना विमान से बाहर कूदने जैसा है।

ध्यान दें कि कुछ MLC SSD विक्रेताओं का दावा है कि उनकी ड्राइव "enterprisey" है जो जीवित रहने के लिए पर्याप्त है:

सैंडफोर्स का लक्ष्य सर्वर में उपयोग की जाने वाली सॉलिड-स्टेट ड्राइव के लिए मल्टी-लेवल सेल फ्लैश चिप्स को सपोर्ट करने वाले कंट्रोलर के साथ पहली कंपनी होना है। MLC चिप्स का उपयोग करके, SF-1500 कम लागत और उच्च घनत्व ड्राइव सर्वर निर्माताओं को चाहते हैं। आज तक सर्वरों के लिए फ्लैश ड्राइव में एकल-स्तरीय सेल फ्लैश चिप्स का उपयोग किया गया है। ऐसा इसलिए है क्योंकि MLC चिप्स के लिए धीरज और विश्वसनीयता आमतौर पर सर्वर की आवश्यकताओं तक नहीं रही है।

आनंदटेक में इन दावों का और विश्लेषण किया गया है ।

इसके अतिरिक्त, अब इंटेल ने यह कहते हुए रिकॉर्ड पर चला गया है कि एसएलसी सर्वरों के 90% समय में ओवरकिल हो सकता है :

"हम मानते थे कि एसएलसी [एकल-स्तरीय सेल] की आवश्यकता थी, लेकिन हमने माइक्रोसॉफ्ट और यहां तक ​​कि सीगेट के साथ अध्ययन के माध्यम से जो पाया है वह यह है कि उच्च-कम्प्यूटेशनल-गहन अनुप्रयोग वास्तव में उतना नहीं लिखते जितना उन्होंने सोचा था," विंसलो ने कहा। "नब्बे प्रतिशत डेटा सेंटर अनुप्रयोग इस MLC [बहुस्तरीय सेल] ड्राइव का उपयोग कर सकते हैं।"

.. पिछले एक साल में, विक्रेताओं को पता चला है कि ड्राइव नियंत्रकों में विशेष सॉफ्टवेयर का उपयोग करके, वे अपने उपभोक्ता-वर्ग MLC SSDs की विश्वसनीयता और लचीलापन बढ़ाने में सक्षम हैं, जहां उद्यमों ने उन्हें गले लगाया है उच्च प्रदर्शन डेटा केंद्र सर्वर और भंडारण सरणियाँ। SSD विक्रेताओं ने उन SSDs का वर्णन करने के लिए eMLC (एंटरप्राइज़ MLC) NAND फ़्लैश शब्द का उपयोग शुरू कर दिया है।

"वॉल्यूम के दृष्टिकोण से, हम देखते हैं कि वास्तव में उच्च-लेखन-गहन, उच्च-प्रदर्शन कंप्यूटिंग वातावरण हैं, जिन्हें अभी भी एसएलसी की आवश्यकता हो सकती है, लेकिन यह कि एंटरप्राइज़ डेटा सेंटर आवश्यकताओं के शीर्ष 10% में भी है," विंसलो ने कहा।

इंटेल, Hitachi ग्लोबल स्टोरेज टेक्नोलॉजीज के साथ अपने संयुक्त उद्यम के माध्यम से एंटरप्राइज़ डेटा सेंटर मार्केट के ऊपरी 10% को खिला रहा है। हिताची सीरियल अटैच्ड SCSI SSDs की SSD400S लाइन का उत्पादन कर रही है, जिसमें 6Gbit / sec है। थ्रूपुट - अपने एमएलसी-आधारित एसएटीए एसएसडी के दो बार।

इंटेल, यहां तक ​​कि उनके सर्वर उन्मुख एसएसडी ड्राइव के लिए, नई इंटेल एसएसडी 710 श्रृंखला के साथ एसएलसी से एमएलसी तक बहुत अधिक "ओवरप्रोविजनिंग" स्थान के साथ चले गए हैं । ये ड्राइव आंतरिक रूप से अतिरेक के लिए समग्र भंडारण का 20% तक आवंटित करते हैं:

प्रदर्शन SSD 710 के लिए सर्वोच्च प्राथमिकता नहीं है। इसके बजाय, इंटेल सस्ता eMLC HET NAND का उपयोग करके उचित मूल्य पर SLC- स्तरीय धीरज प्रदान करने का लक्ष्य रखता है। SSD 710 उपयोगकर्ता-कॉन्फ़िगर करने योग्य ओवरप्रोविजन (20%) का भी समर्थन करता है, जो ड्राइव धीरज को काफी बढ़ाता है। SSD 710 की वारंटी 3 वर्ष है या जब तक कोई पहनने का सूचक एक निश्चित स्तर तक नहीं पहुंच जाता, जो भी पहले आता है। यह पहली बार है जब हमने SSD की वारंटी को इस तरीके से सीमित देखा है।


7

हमेशा इस तरह की बातों को दबाए रखने के बजाय तथ्यों पर आधारित करें। इस मामले में, तथ्यों को इकट्ठा करना आसान है: अपने उत्पादन प्रणालियों के आईओपीएस प्रोफाइल को लंबे समय तक पढ़ना / लिखना रिकॉर्ड करें, और फिर यह पता लगाएं कि आप एक आपदा वसूली परिदृश्य में क्या कर सकते हैं। आपको अपने माप के रूप में 99 वें प्रतिशतक जैसे कुछ का उपयोग करना चाहिए। है जब IOPS cpacity मापने औसत का उपयोग करें - चोटियों सभी उस बात कर रहे हैं! फिर आपको अपनी डीआर साइट के लिए आवश्यक क्षमता और आईओपीएस खरीदने की आवश्यकता है। SSDs ऐसा करने का सबसे अच्छा तरीका हो सकता है, या शायद नहीं।

इसलिए, उदाहरण के लिए, यदि आपके उत्पादन अनुप्रयोगों को 99 वें प्रतिशत पर 7500 IOPS की आवश्यकता होती है, तो आप तय कर सकते हैं कि आप एक आपदा में 5000 IOPS के साथ रह सकते हैं। लेकिन वह कम से कम 25 15K डिस्क आपकी DR साइट पर आवश्यक है, इसलिए SSD एक बेहतर विकल्प हो सकता है यदि आपकी क्षमता की आवश्यकताएं छोटी हैं (लगता है जैसे वे हैं)। लेकिन यदि आप केवल मापते हैं कि आप उत्पादन में 400 IOPS करते हैं, तो बस 6 SATA ड्राइव खरीदें, अपने आप को कुछ सिक्का बचाएं, और DR साइट पर अधिक बैकअप स्नैपशॉट संग्रहीत करने के लिए अतिरिक्त स्थान का उपयोग करें। आप अपने डेटा संग्रह में पढ़े और लिख सकते हैं, यह जानने के लिए कि उनके विनिर्देशों के आधार पर आपके कार्यभार के लिए कितने समय तक गैर-उद्यम SSD चलेगा।

यह भी याद रखें कि DR सिस्टम में उत्पादन की तुलना में छोटी मेमोरी हो सकती है, जिसका अर्थ है कि अधिक IOPS की आवश्यकता होती है (अधिक स्वैपिंग और कम फाइल सिस्टम कैश)।


5

यहां तक ​​कि अगर एमएलएस एसएसडी केवल एक वर्ष तक रहता है, तो कुछ वर्षों में प्रतिस्थापन बहुत सस्ता होगा। तो क्या आप एमएलएस एसएसडी को बदलने के लिए सामना कर सकते हैं जब वे बाहर होते हैं?


एक अच्छा बिंदु, खासकर जब से वे एक RAID सरणी में होंगे .. जब तक उनमें से "बहुत सारे" एक बार में विफल नहीं होते हैं, यह वास्तव में प्रशंसनीय है।
जेफ एटवुड

@Jeff, यदि आप अपने डेस्क टॉप पीसी के साथ कुछ इन-आउट और स्वैप कर सकते हैं, ताकि सभी को कुछ उपयोग नहीं मिलेगा, तो यह कम चिकनाई कर देगा और वे सभी एक ही समय में विफल हो जाएंगे।
इयान रिंगरोज

@ जेफ, मुझे लगता है कि एक बड़े विस्तार के लिए, विफल == "बहुत धीमी गति से अधिकार करना शुरू करें" फिर कठोर "डेटा पढ़ा नहीं"
इयान

क्या आप ऑटो-सुधार से प्यार नहीं करते हैं :-)
जीरोन विर्ट प्लिमर्स

3

अगर हम लिखने की मात्रा की समस्या को एक तरफ सेट करते हैं (या साबित करते हैं कि उपभोक्ता स्तर एसएसडी इसे संभाल सकते हैं), मुझे लगता है कि एसएसडी उद्यम स्तर के वातावरण में जोड़ने के लिए एक अच्छी बात है। आप शायद SSDs का उपयोग RAID सरणी में करेंगे। RAID5 या RAID6। और इनके साथ समस्या यह है कि एकल ड्राइव विफलता के बाद, सरणी तेजी से विफलता की चपेट में आ जाती है। और इसके पुनर्निर्माण का समय सरणी के आयतन पर बहुत अधिक निर्भर करता है। लगातार एक्सेस किए जाने के दौरान कई टीबी सरणी को पुनर्निर्माण के लिए दिन लग सकते हैं। SSDs के मामले में, RAID-सरणियां a) अनिवार्य रूप से छोटी b होंगी) पुनर्निर्माण का समय काफी कम हो जाता है।


3

SuperTalent से SLC और MLC के बीच के अंतर पर एक श्वेतपत्र MLC के धीरज और SLC SSD के धीरज का 10 वां स्थान रखता है, लेकिन संभावना है कि MLS SSD के हार्डवेयर को आप वैसे भी डाल देंगे। मुझे यकीन नहीं है कि हालांकि ये आँकड़े / तथ्य सुपरटैलेंट से कितने विश्वसनीय हैं।

मान लें कि आपको MLC SSD के तत्कालीन आपूर्तिकर्ता से समान स्तर का समर्थन मिलता है, तो निम्न मूल्य बिंदु इसे एक शॉट के लायक बनाता है।


1
विशिष्ट डेस्कटॉप उपयोग के लिए 5 वर्ष के जीवनकाल का उल्लेख किया गया है। यदि यह एक सटीक अनुमान है तो वे सर्वर को डेटासेंटर वातावरण में आगे नहीं बढ़ने देंगे!
जेम्सरैन

@JamesRyan: यद्यपि अधिकांश गणनाओं में नहीं दिखाया गया है, जीवनकाल मुक्त स्थान के अंश पर बहुत निर्भर है।
बेन Voigt

1
जिन संगठनों के लिए मैंने काम किया है, हमने हमेशा 3 साल में सर्वर हार्डवेयर रिफ्रेश किया है। मैं इस धारणा के तहत था कि आमतौर पर सबसे अच्छा अभ्यास स्वीकार किया जाता है, लेकिन अगर मैं गलत हूं तो मुझे सही करें।
chunkyb2002

3

आपको बस अपने वर्तमान सेट-अप के साथ आपके द्वारा लिखी जाने वाली दैनिक राशि की गणना करनी चाहिए और तुलना करनी चाहिए कि निर्माता अपने SSD ड्राइव की क्या गारंटी दे सकता है। इंटेल इस बारे में सबसे अधिक सामने वाला प्रतीत होता है - उदाहरण के लिए, उनकी मुख्यधारा एसएसडी ड्राइव डेटशीट पर एक नज़र डालें: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

स्पेक्स दस्तावेज की धारा 3.5 (3.5.4, विशेष रूप से) कहती है कि आपको प्रतिदिन कम से कम 5 वर्षों के लिए 20GB राइट्स के साथ ड्राइव करने की गारंटी है। मुझे लगता है कि संपूर्ण ड्राइव क्षमता का उपयोग करते समय गणना की जा रही है और खुद को लिखने के लिए किसी भी खाली स्थान का प्रावधान नहीं किया गया है।

यह भी दिलचस्प है कि एक उद्यम वातावरण में मुख्यधारा एसएसडी का उपयोग करने के बारे में डेटाशीट है।


दुर्भाग्य से यह बिल्कुल भी सरल नहीं है क्योंकि पहनने वाले लेवलिंग एम्पलीफाइज़ लिखते हैं (याद रखें कि इसे फैलाने के लिए डिज़ाइन किया गया है कि इन्हें कम न करें) एक तरह से मालिकाना है और उपयोग पैटर्न के आधार पर प्रभावशीलता में भिन्नता हो सकती है।
JamesRyan

हम्म, बहुत अच्छी बात है। इसके अलावा, अगर एक RAID सेटअप में ड्राइव का उपयोग करते हुए TRIM कमांड को खोना भी लेखन प्रवर्धन को बढ़ाना चाहिए। मुझे लगता है कि यह सब विशिष्ट उपयोग पैटर्न के प्रत्येक निर्माता के विचार के लिए नीचे आता है।
20

2

मैंने 32gb SLC के एक जोड़े को कुछ साल पहले खराब तरीके से डिज़ाइन किए गए ऐप के लिए बफर के रूप में इस्तेमाल किया था जिसे हम इस्तेमाल कर रहे थे।

आवेदन 90% छोटे लिखते थे (<4k) और SSD ड्राइव पर एक बार 14k w / s पर लगातार (24/7) चल रहा था। वे RAID 1 कॉन्फ़िगर किए गए थे, सब कुछ रसदार था, विलंबता कम थी!

हालाँकि, लगभग एक महीने और पहली ड्राइव में पैक किया गया था, शाब्दिक रूप से 3 घंटे के भीतर, दूसरी ड्राइव की भी मृत्यु हो गई थी। RAID 1 सब के बाद इतनी अच्छी योजना नहीं :)

मैं अन्य पोस्टर के साथ किसी तरह से सहमत होगा RAID 6 अगर कुछ और नहीं फैलता है तो यह उन और ड्राइवों में लिखता है।

अब ध्यान रखें कि यह कुछ साल पहले था और ये चीजें अब बहुत अधिक विश्वसनीय हैं और आपके पास समान I / O प्रोफ़ाइल नहीं हो सकती है।

एप्लिकेशन को फिर से इंजीनियर किया गया है, हालांकि एक स्टॉप गैप के रूप में जो आपकी मदद कर सकता है या नहीं कर सकता है, हमने एक बड़ी राम डिस्क बनाई, राम डिस्क को फिर से बनाने / बैकअप करने के लिए कुछ स्क्रिप्ट बनाई और एक घंटे का हिट लिया या डेटा पर नुकसान हुआ। /रिकवरी टाइम।

फिर से, आपके डेटा का जीवन चक्र भिन्न हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.