APEI जेनेरिक हार्डवेयर त्रुटि


9

पिछले एक हफ्ते में मेरे सर्वर (डेबियन जेसी को चलाने) ने दो बार रिबूट किया है। Syslog में मैं इसे प्रत्येक रिबूट से पहले देखता हूं, और अन्य बिंदुओं पर नहीं:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

कुछ googling मुझे विश्वास है कि यह मेरी ECC RAM का पता लगाने और एक त्रुटि से उबरने के साथ है। क्या ये सही है? यदि यह ठीक हो रहा है, तो सिस्टम रिबूट क्यों करता है? मैं सिस्टम को रिबूट करने से रोकना चाहूंगा, यदि संभव हो तो।

जवाबों:


9

ऐसा लगता है कि आपकी RAM विफल हो रही है, या त्रुटियां हैं जिन्हें ठीक किया जा रहा है। गंभीरता के आधार पर यह लगता है कि ये त्रुटियां प्रभावित कर रही हैं यह कार्य करने की क्षमता है और बाद में इसे रीबूट करना है।

इस थ्रेड के लगने से त्रुटि खंड लंबाई के बारे में अंत में संदेश बिट अपराधी होने की संभावना है।

अंश - [PATCH 1/1] efi: cper: त्रुटि अनुभाग की विभिन्न लंबाई का समर्थन करें

कुछ फ़ील्ड नए UEFI कल्पना में त्रुटि अनुभाग में जोड़े जा सकते हैं। उदाहरण के लिए, UEFI कल्पना 2.3 से शुरू की गई मेमोरी एरर सेक्शन में 'आरक्षित', 'रैंक नंबर', 'कार्ड हैंडल' और 'मॉड्यूल हैंडल' को जोड़ा जाता है। दुर्भाग्य से, निम्न चेतावनी संदेश होगा यदि मेमोरी सही की गई त्रुटि का पता लगाया गया है और संरचनात्मक acpi_generic_data में फ़ील्ड 'संशोधन' कम है तो 0x203 (UEFI कल्पना 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

इस व्यवहार के कारण इस सही त्रुटि को सही ढंग से प्रदर्शित नहीं किया जा सकता है। समस्या को हल करने के लिए, यह पैच अलग-अलग यूईएफआई कल्पना संस्करण के लिए त्रुटि अनुभाग की अलग-अलग लंबाई का समर्थन करता है।

और, यह पैच फ़ंक्शन cper_estatus_print_section में डुप्लिकेट किए गए कोड को साफ करने के लिए एक पूर्व-परिभाषित संरचना को नियोजित करता है।

इस पैच को लागू करने के साथ, त्रुटि सुधारने के बाद मेमोरी सही की गई त्रुटि को सही ढंग से प्रदर्शित किया जा सकता है।

ग्रांटली प्लेटफॉर्म और इंटेल रासटूल के साथ v3.14-rc5 पर परीक्षण किया गया।

तो यह उस विशेष त्रुटि के लिए एक पैच लगता है काम में है और कर्नेल के एक नए संस्करण में उपलब्ध हो सकता है।


3

FYI करें मैं एक बहुत ही इसी तरह के मुद्दे के रूप में दिखाई दिया।

जैसा कि यह निकला समाधान स्मृति को बाहर ले जा रहा था, और इसे फिर से शुरू कर रहा था, और सब कुछ वापस सामान्य हो गया था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.