RHEL6 के साथ 12G डेल सर्वर पर क्लोबबेरिंग "पावर लिमिट नोटिफिकेशन"


9

सर्वर: पावर r620
OS: RHEL 6.4
कर्नेल: 2.6.32-358.18.1.el6.x86_64

मैं अपने उत्पादन वातावरण में एप्लिकेशन अलार्म का अनुभव कर रहा हूं। महत्वपूर्ण सीपीयू भूख प्रक्रियाओं संसाधनों का भूखा हो रहा है और एक प्रसंस्करण बैकलॉग पैदा कर रहा है। समस्या हाल ही में तैनात क्लस्टर में सभी 12 वीं पीढ़ी के डेल सर्वर (r620s) पर हो रही है। जैसा कि मैं बता सकता हूं, इस तरह के उदाहरण पीयूपी के उपयोग के लिए बढ़ रहे हैं, इसके साथ ही बड़ी मात्रा में "पॉवर लिमिट नोटिफिकेशन" स्पैम भी शामिल है dmesg। इन घटनाओं में से एक का एक अंश:

Nov  7 10:15:15 someserver [.crit] CPU12: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU6: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU14: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Package power limit notification (total events = 11)
Nov  7 10:15:15 someserver [.crit] CPU6: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU14: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU20: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Package power limit notification (total events = 12)
Nov  7 10:15:15 someserver [.crit] CPU10: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU20: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU10: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU15: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU3: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU1: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU5: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU15: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU3: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU1: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU5: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU19: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Package power limit notification (total events = 377)
Nov  7 10:15:15 someserver [.crit] CPU9: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU21: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU23: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU11: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU19: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU9: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU21: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU23: Package power limit notification (total events = 374)

थोड़ा Google फू बताता है कि यह आमतौर पर सीपीयू के साथ जुड़ा हुआ है जो गर्म चल रहा है, या वोल्टेज विनियमन में किक मार रहा है। मुझे नहीं लगता कि यह क्या हो रहा है। क्लस्टर में सभी सर्वर के लिए तापमान सेंसर ठीक चल रहे हैं, पावर कैप पॉलिसी iDRAC में अक्षम है, और मेरा सिस्टम प्रोफाइल इन सभी सर्वरों पर "प्रदर्शन" करने के लिए सेट है:

# omreport chassis biossetup | grep -A10 'System Profile'
System Profile Settings
------------------------------------------
System Profile                                    : Performance
CPU Power Management                              : Maximum Performance
Memory Frequency                                  : Maximum Performance
Turbo Boost                                       : Enabled
C1E                                               : Disabled
C States                                          : Disabled
Monitor/Mwait                                     : Enabled
Memory Patrol Scrub                               : Standard
Memory Refresh Rate                               : 1x
Memory Operating Voltage                          : Auto
Collaborative CPU Performance Control             : Disabled
  • एक डेल मेलिंग सूची पोस्ट लगभग पूरी तरह से लक्षणों का वर्णन करता है। डेल ने सुझाव दिया कि लेखक प्रदर्शन प्रोफ़ाइल का उपयोग करने की कोशिश करता है, लेकिन इससे मदद नहीं मिली। उन्होंने कम विलंबता के वातावरण के लिए एक सर्वर को कॉन्फ़िगर करने के लिए डेल की गाइड में कुछ सेटिंग्स को लागू करना समाप्त कर दिया और उन सेटिंग्स (या एक संयोजन) में से एक समस्या को ठीक करने के लिए लगता है।
  • कर्नेल डॉट बग # 36182 नोट करता है कि पावर-लिमिट इंटरप्ट डिबगिंग डिफ़ॉल्ट रूप से सक्षम थी, जो उन परिदृश्यों में प्रदर्शन में गिरावट का कारण बन रही है जहां सीपीयू वोल्टेज विनियमन में किकिंग कर रहा है।
  • एक RHN KB लेख (RHN लॉगिन आवश्यक) में पीई r620 और r720 सर्वरों के प्रदर्शन प्रोफ़ाइल को नहीं चलाने की समस्या का उल्लेख है, और दो सप्ताह पहले जारी कर्नेल को अद्यतन करने की सिफारिश करता है। ... सिवाय हम प्रदर्शन प्रोफ़ाइल चला रहे हैं ...

मैं जो कुछ भी ऑनलाइन पा सकता हूं वह मुझे यहां हलकों में चला रहा है। बिल्ली क्या चल रहा है?


1
FYI करें, इस मुद्दे को मेनलाइन कर्नेल 3.11 में सही किया गया है । यह इस "सामान्य" गैर-महत्वपूर्ण घटना के लिए कर्नेल बाधा हैंडलर ट्रिगर के कारण है। ऊपर लिंक की गई प्रतिबद्धता इस हैंडलर को निष्क्रिय कर देती है।
टॉटर

जवाबों:


8

यह वोल्टेज विनियमन नहीं है जो प्रदर्शन की समस्या का कारण बनता है, लेकिन डिबगिंग कर्नेल को बाधित करता है जो इसके द्वारा ट्रिगर किया जा रहा है।

रेडहैट के हिस्से पर कुछ गलत जानकारी के बावजूद, सभी लिंक किए गए पृष्ठ एक ही घटना का उल्लेख कर रहे हैं। वोल्टेज नियमन प्रदर्शन प्रोफ़ाइल के साथ या उसके बिना होता है, संभवतः टर्बो बूस्ट सुविधा सक्षम होने के कारण। कारण के बावजूद, ये वोल्टेज में उतार-चढ़ाव पावर-लिमिट कर्नेल इंटरप्ट के साथ खराब बातचीत कर रहे हैं जो कि कर्नेल में डिफ़ॉल्ट रूप से सक्षम हैं 2.6.32-358.18.1.el6.x86_64।

पुष्टि किए गए वर्कअराउंड:

  • सबसे हाल ही में जारी किए गए रेडहैट कर्नेल (2.6.32-358.23.2.el6) को अपग्रेड करना इस डिबगिंग को अक्षम करता है और प्रदर्शन समस्या को समाप्त करता है।
  • grub.confPLNs को अक्षम करने के लिए निम्नलिखित कर्नेल पैरामीटर जोड़ना:clearcpuid=229

परतदार कामगार:

  • "प्रदर्शन" के सिस्टम प्रोफाइल को सेट करना। यह हमारे सर्वर पर PLN को अक्षम करने के लिए पर्याप्त नहीं था। आपकी माइलेज भिन्न हो सकती है।

ख़राब वर्कअराउंड:

  • ACPI संबंधित मॉड्यूल को ब्लैकलिस्ट करना। मैंने इसे कुछ फोरम थ्रेड्स में देखा है। बीमार सलाह दी जाती है, इसलिए नहीं

क्या आप नए तैनात सिस्टम पर अपडेट नहीं चला रहे थे?
ewwhite

@ewewite कर्नेल अपडेट लाइव होने से ठीक पहले ये सर्वर तैनात किए गए थे। नया आरपीएम 16 अक्टूबर को उपलब्ध कराया गया था ।
एंड्रयू बी

Red Hat को Grrr। अच्छा लगा।
ewwhite

अपडेट के बाद भी यह मुद्दा कुछ वीकेंड के बाद (कर्नेल 2.6.32-431.17.1.el6.x86_64 पर) मेरे लिए फिर से शुरू हुआ। हमें इस बार इससे छुटकारा पाने के लिए क्लीयरकपिड का उपयोग करके PLN को अक्षम करना पड़ा। इस मुद्दे ने मुझे पहले से ही बहुत सारे सिरदर्द पैदा कर दिए हैं! और हमारे पास केवल एक 12G डेल सर्वर है (और इसकी वजह से यह केवल एक ही रहेगा)।
मार्टिज़न

1
@Martijn हम वर्तमान 2.6.32-431.11.2.el6.x86_64में समस्या का सामना कर रहे हैं और अनुभव नहीं कर रहे हैं । कई समूहों, उच्च भार, आदि यह संभव है कि एक रिग्रेशन हो सकता है जब रेडहैट ने पांच दिन पहले अद्यतन जारी किया हो। मैं आपको बताऊंगा कि मुझे क्या मिलेगा और अगर मुझे पता चलता है कि मुझे इस मामले का जवाब देना है।
एंड्रयू बी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.