HP ProLiant DL360 G7 "पावर और थर्मल कैलिब्रेशन" स्क्रीन पर लटका हुआ है


41

मेरे पास एक नया एचपी प्रोलिएंट डीएल 360 जी 7 सिस्टम है जो एक मुश्किल-से-पुन: पेश होने वाली समस्या का प्रदर्शन कर रहा है। POST प्रक्रिया के दौरान सर्वर " पावर और थर्मल कैलिब्रेशन इन प्रोग्रेस ... " स्क्रीन को बेतरतीब ढंग से लटकाता है । यह आमतौर पर स्थापित ऑपरेटिंग सिस्टम से एक गर्म बूट / रिबूट का अनुसरण करता है।

यहाँ छवि विवरण दर्ज करें

इस बिंदु पर प्रणाली अनिश्चित काल के लिए रुकती है। ILO 3 पावर नियंत्रण के माध्यम से रीसेट या कोल्ड-स्टार्ट जारी करना सिस्टम बूट को सामान्य रूप से बिना घटना के बनाता है।

जब सिस्टम इस स्थिति में है, ILO 3 इंटरफ़ेस पूरी तरह से सुलभ है और सभी सिस्टम स्वास्थ्य संकेतक ठीक हैं (सभी हरे)। सर्वर एक जलवायु-नियंत्रित डेटा केंद्र में है, जिसमें पीडीयू के लिए बिजली कनेक्शन हैं। परिवेश का तापमान 64 ° F / 17 ° C है। सिस्टम को 24 घंटे के घटक परीक्षण लूप में रखा गया था जिसमें कोई विफलता नहीं थी।

इस सर्वर के लिए प्राथमिक ऑपरेटिंग सिस्टम VMWare ESXi 5 है। हमने शुरुआत में 5.0 और बाद में 5.1 बिल्ड की कोशिश की। दोनों को पीएक्सई बूट और किकस्टार्ट के माध्यम से तैनात किया गया था। इसके अलावा, हम नंगेमेट विंडोज और रेड हैट लिनक्स इंस्टॉलेशन के साथ परीक्षण कर रहे हैं।

HP ProLiant सिस्टम में BIOS विकल्पों का एक व्यापक सेट है। हमने स्टेटिक हाई-परफॉर्मेंस प्रोफाइल के अलावा डिफॉल्ट सेटिंग्स की कोशिश की है। मैंने बूट स्प्लैश स्क्रीन को अक्षम कर दिया है और बस उस बिंदु पर स्क्रीनशॉट के ऊपर एक ब्लिंकिंग कर्सर मिलता है। हमने BIOS कॉन्फ़िगरेशन के लिए कुछ VMWare "सर्वोत्तम-प्रथाओं" की भी कोशिश की है । हमने HP से एक सलाह देखी है जो एक समान मुद्दे को रेखांकित करता है , लेकिन हमारी विशिष्ट समस्या को ठीक नहीं करता है।

एक हार्डवेयर समस्या पर संदेह करते हुए, मैंने विक्रेता को उसी दिन डिलीवरी के लिए एक समान सिस्टम भेजा था। नया सर्वर डिस्क के अपवाद के साथ एक पूरी तरह से समान निर्माण था। हमने पुराने सर्वर से डिस्क को नए में स्थानांतरित कर दिया। हमने प्रतिस्थापन हार्डवेयर पर समान यादृच्छिक बूटिंग समस्या का अनुभव किया।

अब मेरे पास दोनों सर्वर समानांतर चल रहे हैं। मुद्दा गर्म जूते पर बेतरतीब ढंग से हिट करता है। कोल्ड बूट की समस्या नहीं है। मैं कुछ और गूढ़ BIOS सेटिंग्स में देख रहा हूं जैसे टर्बो बूस्ट को अक्षम करना या पूरी तरह से पावर कैलिब्रेशन फ़ंक्शन को अक्षम करना। मैं ये कोशिश कर सकता था, लेकिन ये जरूरी नहीं होना चाहिए।

कोई विचार?

--edit--

सिस्टम विवरण:

  • DL360 G7 - 2 x X5670 हेक्स-कोर सीपीयू
  • 96GB RAM (12 x 8GB लो-वोल्ट DIMM)
  • 2 x 146GB 15k SAS हार्ड ड्राइव
  • 2 x 750W अनावश्यक बिजली की आपूर्ति

सभी फर्मवेयर अप-टू-डेट नवीनतम एचपी सर्विस पैक के रूप में प्रोलेंट डीवीडी रिलीज के लिए।

एचपी को कॉल करना और इंटरवेब को पीछे करना, मैंने एक खराब आईएलओ 3 इंटरैक्शन का उल्लेख देखा है, लेकिन यह एक भौतिक कंसोल पर सर्वर के साथ भी होता है। एचपी ने शक्ति स्रोत का भी सुझाव दिया, लेकिन यह एक डेटा सेंटर रैक में है जो अन्य उत्पादन प्रणालियों को सफलतापूर्वक अधिकार देता है।

क्या कोई मौका है कि यह कम वोल्टेज वाले डीआईएमएम और 750W बिजली की आपूर्ति के बीच खराब संपर्क हो सकता है? यह सर्वर समर्थित कॉन्फ़िगरेशन होना चाहिए


2
संभावित कारण के रूप में डिस्क को खत्म करने का कोई तरीका? किसी भी मौका आप कुछ वैकल्पिक एसएएस या एसएटीए डिस्क के साथ परीक्षण कर सकते हैं?
ErnieTheGeek

हाँ, दूसरी प्रणाली में डिस्क के एक ज्ञात-अच्छे सेट के साथ परीक्षण किया गया। वे समानांतर चल रहे हैं।
ewwhite

1
केवल समय मैंने कभी देखा है यह एक प्रणाली (एक DL360 G7) में भी था जहां मैं भंडारण प्रदान करने के लिए गैर-एचपी कार्ड का उपयोग करने की कोशिश कर रहा था। जब मेरे पास दोनों स्मार्टएरे कार्ड और इस दूसरे में वहाँ था, तो उसने ऐसा किया। जब मैंने या तो बाहर निकाला, तो यह पारित हो गया। यह आपकी समस्या नहीं है, लेकिन मैं उस पर से गुजरता हूं जो मैं भाग गया था।
sysadmin1138

1
संभवतः कुछ नेटवर्क से संबंधित है? नेटवर्क से जुड़े बिना डुप्लिकेट करने का प्रयास करें।
ErnieTheGeek

1
@ GCl सर्वर पर डायनेमिक पावर कैपिंग अक्षम करना एक विकल्प नहीं है। इसे Gen8 प्रोलिएंट सीरीज़ के लिए पेश किया गया था।
इविहित

जवाबों:


43

इसलिए, मिक्स में तीसरी प्रणाली लाने और उसी मुद्दे का अनुभव करने के बाद, हमने पर्यावरण पर सवाल उठाना शुरू किया। मैंने HP ProLiant Servers Troublesछी गाइड की एक प्रति खोली और नीचे दिखाई गई POST समस्याओं को हल किया।

यहाँ छवि विवरण दर्ज करें

ध्यान से चार्ट में चरणों के माध्यम से चल रहा है, हमने महसूस किया कि सभी सर्वरों में से एक स्थिर डेटा केबल क्रैश कार्ट से जुड़ी केवीएम स्विच था। यह एक उपभोक्ता-वर्ग USB- सक्षम KVM था। फ़्लोचार्ट में हाइलाइट किए गए नोड के अनुसार, क्या आप अच्छा केवीएम जानते हैं? , मैं निर्णायक जवाब नहीं दे सका।

इसलिए, हमने KVM स्विच से सर्वरों को अनप्लग किया और एक स्वचालित बूट, sleep 300; rebootक्रम में चलाया rc.local। सामान्य DIMM, कम-वोल्टेज DIMM, PSU वाट क्षमता आदि की परवाह किए बिना सर्वरों के पास इसका कोई मुद्दा नहीं था।

यह USB KVM स्विच के साथ खराब इंटरैक्शन का परिणाम था। पुण्य से कि यह सांत्वना थी, यह सुनिश्चित किया कि हम असफलता को देखेंगे अगर हम इसे खोज रहे थे। स्व को पूरा करने ...


2
वाह, यह एक अच्छा एक है! खुशी है कि आप इसे बाहर sussed।
nedm

7
पवित्र कौआ। सवाल और जवाब के लिए +1। अच्छा कार्य; मैंने शायद इस बात की अनदेखी की होगी। "अच्छी मालूम है"? बेशक यह अच्छा है - यह काम कर रहा है, यह नहीं है?
mfinni

आपका बहुत बहुत धन्यवाद!!! यह निश्चित रूप से केवीएम था। बस वीडियो डिस्कनेक्ट करें और मॉनिटर को सीधे प्लग करें और सर्वर फिर से सुचारू रूप से चलता है। OS लोड होने के बाद मैंने KVM को वापस प्लग किया। मुझे लगता है कि समस्या तब हुई थी जब मैंने सर्वर के पीछे केबल को गलती से छुआ था। सिस्टम रुका हुआ है और केवल इस सलाह पर प्रतिक्रिया करता है।

1
किसी भी विचार कैसे KVM यह कारण होगा?
TheLQ

@ एलक्यूक्यू एक सस्ता उपभोक्ता-स्तर केवीएम डिवाइस यहां कारण था। हो सकता है कि कीबोर्ड के साथ भी कोई समस्या रही हो।
23
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.