कर्नेल: जर्नल I / O त्रुटि


9

मुझे डेल 1950 सर्वर के साथ कुछ समस्याएँ हो रही हैं। मैं यहाँ Oracle और कुछ अन्य सॉफ्टवेयर के साथ RHEL 4.6 स्थापित कर रहा हूँ।

मुझे अपने ssh सत्र पर "कर्नेल: जर्नल कमिट I / O त्रुटि" कहते हुए त्रुटि संदेश प्राप्त हो रहा है और मैंने मॉनिटर पर सर्वर को हुक कर दिया है जो मुझे एक त्रुटि स्क्रॉल करते हुए दिखाई दे रहा है जो कहता है "EXT3-fs error (डिवाइस s5) in start_transaction: जर्नल ने गर्भपात कर दिया है। "

ऐसा कई बार हुआ है लेकिन कभी भी इंस्टॉल के दौरान एक ही बिंदु पर नहीं। दरअसल, पिछली बार यह सिस्टम चालू था और चल रहा था और मैं सिर्फ एक डेटाबेस को ऑर्केल में आयात करने की कोशिश कर रहा था।

यह कई हार्ड ड्राइव पर हुआ है, इसलिए मुझे पूरा यकीन है कि यह समस्या नहीं है। इससे मुझे लगता है कि RAID नियंत्रक खराब हो रहा है।

आप लोग क्या सोचते हैं?

** अपडेट करें **

बहुत यकीन है कि यह एक बुरा हार्ड ड्राइव था। मैंने सर्वर में एक और ड्राइव फेंक दिया और यह लगभग 48 घंटों से चल रही है।

जवाबों:


9

मैंने उन त्रुटियों को पहले देखा है, लेकिन इंस्टॉल प्रक्रिया के दौरान नहीं।

इसका मतलब है कि ड्राइव को पर्याप्त त्रुटियां मिलीं जो ओएस ने केवल पढ़ने के लिए मोड में लीं। यदि आप पूर्ण लॉग पा सकते हैं, तो संभवत: कुछ I / O त्रुटियां होंगी जो आपके द्वारा देखी गई पूर्ण-विफलता विफलता से पहले पुनर्प्राप्त और काम की थीं। कुछ वास्तविक ब्लॉक के साथ उल्लेख किया।

यह स्टोरेज सिस्टम एरर है। यह निश्चित रूप से RAID कार्ड, RAID सरणी में ड्राइव, कार्ड से ड्राइव के लिए केबल, बैकप्लेन ड्राइव से कनेक्ट होता है, स्लॉट कार्ड में प्लग किया जाता है, हार्ड ड्राइव के लिए बिजली की आपूर्ति, या कुछ और में। सीपीयू और वास्तविक भंडारण ब्लॉकों के बीच।


2

तीन संभावनाएं दिमाग में आती हैं:

  1. स्मृति समस्याएं हैं (वे अक्सर "यादृच्छिक" क्रैश का कारण बनती हैं)। यदि आपके पास वहां ईसीसी रैम है, तो जाहिर है कि इसकी संभावना कम है।

  2. बस के साथ कुछ समस्या है। मैं कुछ साल पहले एक Tyan दोहरी Opteron मदरबोर्ड पर टूटी हुई APIC नियंत्रक के साथ एक ही समस्या थी। अन्य लॉग प्रविष्टियाँ थीं जो इस पर संकेत देती थीं, लेकिन लक्षणों के थोक डिस्क ड्राइव पर यादृच्छिक भ्रष्टाचार थे जो केवल स्वचालित रीड-रिमूव के साथ थे। मेरे मामले में मुझे पता था कि यह डिस्क से संबंधित नहीं था क्योंकि यह एक बाहरी एफसी RAID बॉक्स था और यह ठीक था।

  3. RAID नियंत्रक चारपाई है।

इस क्रम में मैं समस्याओं पर विचार करूंगा।


शायद स्मृति की समस्याएं नहीं; उन लोगों के लिए सीफ़ल और अधिक यादृच्छिक त्रुटियों का कारण होने की संभावना होगी, केवल भंडारण तक सीमित नहीं होगा।
Freiheit

सच। लेकिन एक स्थापित या प्रारंभिक बूट स्थिति में, बल्क मेमोरी उपयोग बल्क-कैश है इसलिए समस्याएं पहले दिखाई देती हैं। एक बार जब उपयोगकर्ता की प्रक्रिया I / O पर हावी हो जाती है तो मशीन कुछ समय के लिए लोड हो जाती है और इसलिए segfault का प्रचलन बढ़ जाता है। कहा जा रहा है, एक PE1950 में एक्सोन प्रोसेसर और ईसीसी रैम होना चाहिए ताकि रैम को इसका पता लगाने और इसे लिनक्स पर रिपोर्ट करने में सक्षम होना चाहिए।
अलेक्जेंड्रे कार्मेल-वीलीक्स

2

यह RAID नियंत्रक खराब हो सकता है जैसे आपने कहा था (यदि आपके पास एक स्पेयर की कोशिश करें।) यह नियंत्रक के लिए ड्राइवर हो सकता है (वैकल्पिक ड्राइवरों के लिए जांच करें यदि उपलब्ध हो, भले ही प्रदर्शन बदतर हो, संदर्भ बिंदु होना अच्छा है। ।) यह कर्नेल हो सकता है (आरएचईएल में कम संभावना है, यह काफी अच्छी तरह से परीक्षण किया गया है।) यह खराब हो सकता है रैम ब्लॉक कैश को गड़बड़ कर सकता है।

एक हार्डवेयर समस्या सबसे अधिक संभावित कारण है, हालांकि, प्रतीत होता है यादृच्छिक त्रुटि व्यवहार पर आधारित है।


2

जांचें कि डिस्क पूर्ण नहीं है - विशेष रूप से रूट विभाजन। फाइल सिस्टम डिस्क का उपयोग देखने के लिए df का उपयोग करें:

df -h

100% उपयोग के पास या बराबर के विभाजन को देखें


-5

प्रयत्न:

शटडाउन -rF अब

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.