सबसे पहले, मुझे पूछना चाहिए: "शटडाउन"? क्या आपका मतलब है कि मशीन रिबूट करती है या वास्तव में रुकती है? यदि यह रुक जाता है, तो यह या तो गलत है (शायद BIOS में) या कुछ सक्रिय रूप से मशीन को बंद कर रहा है (यानी init 0)।
यदि नहीं, तो आपका प्राथमिक उम्मीदवार / var / log / syslog और /var/log/kern.log होगा क्योंकि आपकी समस्या एक कर्नेल पैनिक या सॉफ़्टवेयर-ट्रिगर हार्डवेयर-गलती की तरह लगती है। बेशक, अगर सर्वर कुछ सेवा चलाता है (उदाहरण के लिए अपाचे) आपको एक सुराग भी दे सकता है।
अक्सर, इस तरह की स्थितियों में, लॉग प्रविष्टियां उत्पन्न होती हैं, लेकिन क्योंकि मशीन में कठिनाइयाँ होती हैं, इसलिए यह प्रविष्टियों को डिस्क पर लिखने का प्रबंधन नहीं करेगा। यदि बॉक्स कोलोकेटेड है, तो संभावना है कि यह कोलो पार्टनर द्वारा एक सीरियल कंसोल से जुड़ा है। यह वह जगह है जहां मैं देखूंगा अगर मुझे उपरोक्त लॉग में कुछ भी संदिग्ध नहीं मिला।
यदि मशीन एक सीरियल कंसोल से जुड़ी नहीं है और लॉग में कुछ भी नहीं है, तो आप नेटवर्क पर एक अलग बॉक्स में syslog भेजने पर विचार करना चाह सकते हैं। शायद नेटवर्क इंटरफ़ेस थोड़ा अधिक समय तक जीवित रहता है, और लॉग संदेश को syslog सर्वर पर पढ़ा जा सकता है। Rsyslog या syslog-ng पर एक नज़र डालें।
अपडेट करें:
मैं नीचे @Johann से सहमत हूं। रुकने का सबसे संभावित कारण प्रोसेसर तापमान वॉचडॉग है। Lmsensors या smartctl (आमतौर पर सबसे आसान) के माध्यम से बॉक्स में तापमान की जाँच / साजिश रचने का प्रयास करें। मुझे लगता है कि समय के साथ बड़ी संख्या में चर का ट्रैक रखने में सामूहिक अद्वितीय है। यह IPMI और lm-Sensors और hddtemp दोनों कर सकता है। इसके अलावा, कुछ BIOS: es लॉग तापमान ठहराव की घटनाओं।