सर्वर: पावर r620
OS: RHEL 6.4
कर्नेल: 2.6.32-358.18.1.el6.x86_64
मैं अपने उत्पादन वातावरण में एप्लिकेशन अलार्म का अनुभव कर रहा हूं। महत्वपूर्ण सीपीयू भूख प्रक्रियाओं संसाधनों का भूखा हो रहा है और एक प्रसंस्करण बैकलॉग पैदा कर रहा है। समस्या हाल ही में तैनात क्लस्टर में सभी 12 वीं पीढ़ी के डेल सर्वर (r620s) पर हो रही है। जैसा कि मैं बता सकता हूं, इस तरह के उदाहरण पीयूपी के उपयोग के लिए बढ़ रहे हैं, इसके साथ ही बड़ी मात्रा में "पॉवर लिमिट नोटिफिकेशन" स्पैम भी शामिल है dmesg
। इन घटनाओं में से एक का एक अंश:
Nov 7 10:15:15 someserver [.crit] CPU12: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU0: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU6: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU14: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU18: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU2: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU4: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU16: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU0: Package power limit notification (total events = 11)
Nov 7 10:15:15 someserver [.crit] CPU6: Package power limit notification (total events = 13)
Nov 7 10:15:15 someserver [.crit] CPU14: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU18: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU20: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU8: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU2: Package power limit notification (total events = 12)
Nov 7 10:15:15 someserver [.crit] CPU10: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU22: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU4: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU16: Package power limit notification (total events = 13)
Nov 7 10:15:15 someserver [.crit] CPU20: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU8: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU10: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU22: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU15: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU3: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU1: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU5: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU17: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU13: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU15: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU3: Package power limit notification (total events = 374)
Nov 7 10:15:15 someserver [.crit] CPU1: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU5: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU7: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU19: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU17: Package power limit notification (total events = 377)
Nov 7 10:15:15 someserver [.crit] CPU9: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU21: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU23: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU11: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU13: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU7: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU19: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU9: Package power limit notification (total events = 374)
Nov 7 10:15:15 someserver [.crit] CPU21: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU23: Package power limit notification (total events = 374)
थोड़ा Google फू बताता है कि यह आमतौर पर सीपीयू के साथ जुड़ा हुआ है जो गर्म चल रहा है, या वोल्टेज विनियमन में किक मार रहा है। मुझे नहीं लगता कि यह क्या हो रहा है। क्लस्टर में सभी सर्वर के लिए तापमान सेंसर ठीक चल रहे हैं, पावर कैप पॉलिसी iDRAC में अक्षम है, और मेरा सिस्टम प्रोफाइल इन सभी सर्वरों पर "प्रदर्शन" करने के लिए सेट है:
# omreport chassis biossetup | grep -A10 'System Profile'
System Profile Settings
------------------------------------------
System Profile : Performance
CPU Power Management : Maximum Performance
Memory Frequency : Maximum Performance
Turbo Boost : Enabled
C1E : Disabled
C States : Disabled
Monitor/Mwait : Enabled
Memory Patrol Scrub : Standard
Memory Refresh Rate : 1x
Memory Operating Voltage : Auto
Collaborative CPU Performance Control : Disabled
- एक डेल मेलिंग सूची पोस्ट लगभग पूरी तरह से लक्षणों का वर्णन करता है। डेल ने सुझाव दिया कि लेखक प्रदर्शन प्रोफ़ाइल का उपयोग करने की कोशिश करता है, लेकिन इससे मदद नहीं मिली। उन्होंने कम विलंबता के वातावरण के लिए एक सर्वर को कॉन्फ़िगर करने के लिए डेल की गाइड में कुछ सेटिंग्स को लागू करना समाप्त कर दिया और उन सेटिंग्स (या एक संयोजन) में से एक समस्या को ठीक करने के लिए लगता है।
- कर्नेल डॉट बग # 36182 नोट करता है कि पावर-लिमिट इंटरप्ट डिबगिंग डिफ़ॉल्ट रूप से सक्षम थी, जो उन परिदृश्यों में प्रदर्शन में गिरावट का कारण बन रही है जहां सीपीयू वोल्टेज विनियमन में किकिंग कर रहा है।
- एक RHN KB लेख (RHN लॉगिन आवश्यक) में पीई r620 और r720 सर्वरों के प्रदर्शन प्रोफ़ाइल को नहीं चलाने की समस्या का उल्लेख है, और दो सप्ताह पहले जारी कर्नेल को अद्यतन करने की सिफारिश करता है। ... सिवाय हम प्रदर्शन प्रोफ़ाइल चला रहे हैं ...
मैं जो कुछ भी ऑनलाइन पा सकता हूं वह मुझे यहां हलकों में चला रहा है। बिल्ली क्या चल रहा है?