कर्नेल: जर्नल I / O त्रुटि

9

मुझे डेल 1950 सर्वर के साथ कुछ समस्याएँ हो रही हैं। मैं यहाँ Oracle और कुछ अन्य सॉफ्टवेयर के साथ RHEL 4.6 स्थापित कर रहा हूँ।

मुझे अपने ssh सत्र पर "कर्नेल: जर्नल कमिट I / O त्रुटि" कहते हुए त्रुटि संदेश प्राप्त हो रहा है और मैंने मॉनिटर पर सर्वर को हुक कर दिया है जो मुझे एक त्रुटि स्क्रॉल करते हुए दिखाई दे रहा है जो कहता है "EXT3-fs error (डिवाइस s5) in start_transaction: जर्नल ने गर्भपात कर दिया है। "

ऐसा कई बार हुआ है लेकिन कभी भी इंस्टॉल के दौरान एक ही बिंदु पर नहीं। दरअसल, पिछली बार यह सिस्टम चालू था और चल रहा था और मैं सिर्फ एक डेटाबेस को ऑर्केल में आयात करने की कोशिश कर रहा था।

यह कई हार्ड ड्राइव पर हुआ है, इसलिए मुझे पूरा यकीन है कि यह समस्या नहीं है। इससे मुझे लगता है कि RAID नियंत्रक खराब हो रहा है।

आप लोग क्या सोचते हैं?

** अपडेट करें **

बहुत यकीन है कि यह एक बुरा हार्ड ड्राइव था। मैंने सर्वर में एक और ड्राइव फेंक दिया और यह लगभग 48 घंटों से चल रही है।

linux raid ext3

— jasondewitt
स्रोत

9

मैंने उन त्रुटियों को पहले देखा है, लेकिन इंस्टॉल प्रक्रिया के दौरान नहीं।

इसका मतलब है कि ड्राइव को पर्याप्त त्रुटियां मिलीं जो ओएस ने केवल पढ़ने के लिए मोड में लीं। यदि आप पूर्ण लॉग पा सकते हैं, तो संभवत: कुछ I / O त्रुटियां होंगी जो आपके द्वारा देखी गई पूर्ण-विफलता विफलता से पहले पुनर्प्राप्त और काम की थीं। कुछ वास्तविक ब्लॉक के साथ उल्लेख किया।

यह स्टोरेज सिस्टम एरर है। यह निश्चित रूप से RAID कार्ड, RAID सरणी में ड्राइव, कार्ड से ड्राइव के लिए केबल, बैकप्लेन ड्राइव से कनेक्ट होता है, स्लॉट कार्ड में प्लग किया जाता है, हार्ड ड्राइव के लिए बिजली की आपूर्ति, या कुछ और में। सीपीयू और वास्तविक भंडारण ब्लॉकों के बीच।

— Freiheit
स्रोत

2

तीन संभावनाएं दिमाग में आती हैं:

स्मृति समस्याएं हैं (वे अक्सर "यादृच्छिक" क्रैश का कारण बनती हैं)। यदि आपके पास वहां ईसीसी रैम है, तो जाहिर है कि इसकी संभावना कम है।
बस के साथ कुछ समस्या है। मैं कुछ साल पहले एक Tyan दोहरी Opteron मदरबोर्ड पर टूटी हुई APIC नियंत्रक के साथ एक ही समस्या थी। अन्य लॉग प्रविष्टियाँ थीं जो इस पर संकेत देती थीं, लेकिन लक्षणों के थोक डिस्क ड्राइव पर यादृच्छिक भ्रष्टाचार थे जो केवल स्वचालित रीड-रिमूव के साथ थे। मेरे मामले में मुझे पता था कि यह डिस्क से संबंधित नहीं था क्योंकि यह एक बाहरी एफसी RAID बॉक्स था और यह ठीक था।
RAID नियंत्रक चारपाई है।

इस क्रम में मैं समस्याओं पर विचार करूंगा।

— अलेक्जेंड्रे कार्मेल-वीलीक्स
स्रोत

शायद स्मृति की समस्याएं नहीं; उन लोगों के लिए सीफ़ल और अधिक यादृच्छिक त्रुटियों का कारण होने की संभावना होगी, केवल भंडारण तक सीमित नहीं होगा।

— Freiheit

सच। लेकिन एक स्थापित या प्रारंभिक बूट स्थिति में, बल्क मेमोरी उपयोग बल्क-कैश है इसलिए समस्याएं पहले दिखाई देती हैं। एक बार जब उपयोगकर्ता की प्रक्रिया I / O पर हावी हो जाती है तो मशीन कुछ समय के लिए लोड हो जाती है और इसलिए segfault का प्रचलन बढ़ जाता है। कहा जा रहा है, एक PE1950 में एक्सोन प्रोसेसर और ईसीसी रैम होना चाहिए ताकि रैम को इसका पता लगाने और इसे लिनक्स पर रिपोर्ट करने में सक्षम होना चाहिए।

— अलेक्जेंड्रे कार्मेल-वीलीक्स

2

यह RAID नियंत्रक खराब हो सकता है जैसे आपने कहा था (यदि आपके पास एक स्पेयर की कोशिश करें।) यह नियंत्रक के लिए ड्राइवर हो सकता है (वैकल्पिक ड्राइवरों के लिए जांच करें यदि उपलब्ध हो, भले ही प्रदर्शन बदतर हो, संदर्भ बिंदु होना अच्छा है। ।) यह कर्नेल हो सकता है (आरएचईएल में कम संभावना है, यह काफी अच्छी तरह से परीक्षण किया गया है।) यह खराब हो सकता है रैम ब्लॉक कैश को गड़बड़ कर सकता है।

एक हार्डवेयर समस्या सबसे अधिक संभावित कारण है, हालांकि, प्रतीत होता है यादृच्छिक त्रुटि व्यवहार पर आधारित है।

— मिहाई लिंबासन
स्रोत

2

जांचें कि डिस्क पूर्ण नहीं है - विशेष रूप से रूट विभाजन। फाइल सिस्टम डिस्क का उपयोग देखने के लिए df का उपयोग करें:

df -h

100% उपयोग के पास या बराबर के विभाजन को देखें

— पीटर एच
स्रोत

-5

प्रयत्न:

शटडाउन -rF अब