अस्तित्व के विश्लेषण के लिए मशीन लर्निंग मॉडल (जीबीएम, एनएन आदि) का उपयोग कैसे किया जा सकता है?


13

मैं जानता हूँ कि कॉक्स आनुपातिक खतरों प्रतिगमन और कुछ कापलान-मायर मॉडल की तरह है कि पारंपरिक सांख्यिकीय मॉडल एक घटना कहते हैं विफलता की अगली आवृत्ति तक दिनों की भविष्यवाणी करने के लिए किया जा सकता आदि यानी जीवन रक्षा विश्लेषण

प्रशन

  1. किसी घटना के घटने तक दिनों की भविष्यवाणी करने के लिए GBM, न्यूरल नेटवर्क आदि जैसे मशीन लर्निंग मॉडल्स का रिग्रेशन वर्जन कैसे इस्तेमाल किया जा सकता है?
  2. मेरा मानना ​​है कि केवल लक्ष्य चर के रूप में होने तक के दिनों का उपयोग करना और बस एक प्रतिगमन मॉडल चलाने से काम नहीं चलेगा? यह काम क्यों नहीं करेगा और इसे कैसे ठीक किया जा सकता है?
  3. क्या हम उत्तरजीविता विश्लेषण समस्या को वर्गीकरण में बदल सकते हैं और फिर उत्तरजीविता प्राप्त कर सकते हैं? यदि फिर बाइनरी टारगेट चर कैसे बनाया जाए?
  4. मशीन लर्निंग अप्रोच बनाम कॉक्स आनुपातिक खतरों के प्रतिगमन और कापलान-मायर मॉडल आदि के पेशेवरों और विपक्ष क्या है?

कल्पना कीजिए कि इनपुट इनपुट डेटा नीचे प्रारूप का है

यहाँ छवि विवरण दर्ज करें

ध्यान दें:

  • सेंसर 10 मिनट के अंतराल पर डेटा को पिंग करता है लेकिन कई बार नेटवर्क इश्यू आदि के कारण डेटा गायब हो सकता है क्योंकि एनए के साथ पंक्ति द्वारा दर्शाया गया है।
  • var1, var2, var3 भविष्यवक्ता, व्याख्यात्मक चर हैं।
  • विफलता_फ्लैग बताता है कि मशीन विफल हुई या नहीं।
  • हमारे पास प्रत्येक मशीन आईडी के लिए प्रत्येक 10 मिनट के अंतराल पर 6 महीने का डेटा है

संपादित करें:

अपेक्षित आउटपुट की भविष्यवाणी नीचे प्रारूप में होनी चाहिए यहाँ छवि विवरण दर्ज करें

नोट: मैं अगले 30 दिनों के लिए दैनिक स्तर पर प्रत्येक मशीन के लिए विफलता की संभावना का अनुमान लगाना चाहता हूं।


1
मुझे लगता है कि यह मदद करेगा यदि आप बता सकते हैं कि यह समय-समय पर होने वाला डेटा क्यों है; क्या, वास्तव में, क्या प्रतिक्रिया आप मॉडल करना चाहते हैं?
क्लीप एबी

मैंने इसे स्पष्ट करने के लिए अपेक्षित आउटपुट भविष्यवाणी तालिका को संपादित और जोड़ा है। और अधिक प्रश्न होने पर मुझसे पूछें।
जॉर्जऑफTheRF

1
कुछ मामलों में जीवित डेटा को बाइनरी परिणामों में परिवर्तित करने के तरीके हैं, उदाहरण के लिए, समय खतरे के मॉडल को असतत करें: स्टेटिनथोरलिज़न्स . com/wp-content/uploads/ Allison.SM82.pdf । कुछ मशीन सीखने के तरीके जैसे कि रैंडम फॉरेस्ट, डेटा को इवेंट करने के लिए मॉडल टाइम कर सकते हैं, उदाहरण के लिए, लॉगिंग रैंक स्टेटिस्टिक को स्प्लिटिंग मानदंड के रूप में उपयोग करना।
dsaxton

@dsaxton धन्यवाद क्या आप बता सकते हैं कि उपरोक्त जीवित डेटा को बाइनरी परिणामों में कैसे परिवर्तित किया जाए?
जॉर्जऑफTheRF

करीब से देखने के बाद ऐसा लगता है कि आपके पास पहले से ही द्विआधारी परिणाम हैं failure_flag
dsaxton

जवाबों:


6

तंत्रिका नेटवर्क के मामले के लिए, यह एक आशाजनक दृष्टिकोण है: डब्ल्यूटीटीई-आरएनएन - कम हैडी मंथन भविष्यवाणी

इस विधि का सार प्रत्येक समय-चरण में एक Weibull वितरण के मापदंडों की भविष्यवाणी करने के लिए एक पुनरावर्ती तंत्रिका नेटवर्क का उपयोग करना है और एक हानि फ़ंक्शन का उपयोग करके नेटवर्क को अनुकूलित करना है जो सेंसरिंग को ध्यान में रखता है।

लेखक ने जीथब पर अपने कार्यान्वयन को भी जारी किया ।


2

इन संदर्भों पर एक नजर:

https://www.stats.ox.ac.uk/pub/bdr/NNSM.pdf

http://pcwww.liv.ac.uk/~afgt/eleuteri_lyon07.pdf

यह भी ध्यान दें कि कॉक्स आनुपातिक खतरों (CPH) जैसे पारंपरिक खतरों पर आधारित मॉडल समय-समय पर होने वाली घटनाओं की भविष्यवाणी करने के लिए डिज़ाइन नहीं किए गए हैं, बल्कि घटनाओं के बारे में अनुमान लगाने के लिए चर के प्रभाव (सहसंबंध) और घटनाओं का अवलोकन करते हैं, इसलिए ii) उत्तरजीविता वक्र । क्यों? CPH के MLE को देखें।

इसलिए, यदि आप "घटना होने तक के दिनों" जैसी किसी चीज़ का अधिक सीधे अनुमान लगाना चाहते हैं, तो सीपीएच उचित नहीं हो सकता है; अन्य मॉडल आपके कार्य को बेहतर ढंग से परोस सकते हैं जैसा कि ऊपर के दो संदर्भों में दिया गया है।


1

जैसा कि @dsaxton ने कहा, आप असतत समय मॉडल का निर्माण कर सकते हैं। आप इसे पी की भविष्यवाणी करने के लिए सेट करते हैं (पिछले दिन तक दिए गए इस दिन में असफल रहें)। आपके इनपुट वर्तमान दिन हैं (जो भी प्रतिनिधित्व आप चाहते हैं) में जैसे एक हॉट एन्कोडिंग, पूर्णांक, .. स्पलाइन ... साथ ही किसी भी अन्य स्वतंत्र चर जो आप चाहते हैं।

तो आप डेटा की पंक्तियाँ बनाते हैं, प्रत्येक नमूने के लिए जो समय टी -1 तक जीवित रहे, क्या यह समय टी (0/1) पर मर गया।

तो अब समय टी तक जीवित रहने की संभावना है पी का उत्पाद है (टी समय पर मरना नहीं है टी -1 के लिए मरना नहीं है) टी = 1 से टी के लिए। आप अपने मॉडल से टी भविष्यवाणी करते हैं और फिर एक साथ गुणा।

मैं कहूंगा कि इसका कारण ऐसा नहीं है कि विफलता के समय की भविष्यवाणी करने के लिए इस तरह के विचार सीधे समस्या की छिपी संरचना के कारण हैं। उदा। आप उन मशीनों के लिए क्या इनपुट करते हैं जो विफल नहीं हुईं? अंतर्निहित संरचना प्रभावी रूप से स्वतंत्र घटनाएं हैं: समय पर विफल टी दी गई टी -1 तक असफल नहीं हुई। इसलिए उदाहरण के लिए यदि आप मानते हैं कि यह स्थिर है, तो आपका अस्तित्व वक्र एक घातांक बन जाता है (खतरों के मॉडल देखें)

आप मामले में ध्यान दें कि आप 10 मिनट के अंतराल पर मॉडल कर सकते हैं या वर्गीकरण समस्या को दिन के स्तर तक पूरा कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.