अस्तित्व के विश्लेषण के लिए मशीन लर्निंग मॉडल (जीबीएम, एनएन आदि) का उपयोग कैसे किया जा सकता है?

मैं जानता हूँ कि कॉक्स आनुपातिक खतरों प्रतिगमन और कुछ कापलान-मायर मॉडल की तरह है कि पारंपरिक सांख्यिकीय मॉडल एक घटना कहते हैं विफलता की अगली आवृत्ति तक दिनों की भविष्यवाणी करने के लिए किया जा सकता आदि यानी जीवन रक्षा विश्लेषण

प्रशन

किसी घटना के घटने तक दिनों की भविष्यवाणी करने के लिए GBM, न्यूरल नेटवर्क आदि जैसे मशीन लर्निंग मॉडल्स का रिग्रेशन वर्जन कैसे इस्तेमाल किया जा सकता है?
मेरा मानना है कि केवल लक्ष्य चर के रूप में होने तक के दिनों का उपयोग करना और बस एक प्रतिगमन मॉडल चलाने से काम नहीं चलेगा? यह काम क्यों नहीं करेगा और इसे कैसे ठीक किया जा सकता है?
क्या हम उत्तरजीविता विश्लेषण समस्या को वर्गीकरण में बदल सकते हैं और फिर उत्तरजीविता प्राप्त कर सकते हैं? यदि फिर बाइनरी टारगेट चर कैसे बनाया जाए?
मशीन लर्निंग अप्रोच बनाम कॉक्स आनुपातिक खतरों के प्रतिगमन और कापलान-मायर मॉडल आदि के पेशेवरों और विपक्ष क्या है?

कल्पना कीजिए कि इनपुट इनपुट डेटा नीचे प्रारूप का है

ध्यान दें:

सेंसर 10 मिनट के अंतराल पर डेटा को पिंग करता है लेकिन कई बार नेटवर्क इश्यू आदि के कारण डेटा गायब हो सकता है क्योंकि एनए के साथ पंक्ति द्वारा दर्शाया गया है।
var1, var2, var3 भविष्यवक्ता, व्याख्यात्मक चर हैं।
विफलता_फ्लैग बताता है कि मशीन विफल हुई या नहीं।
हमारे पास प्रत्येक मशीन आईडी के लिए प्रत्येक 10 मिनट के अंतराल पर 6 महीने का डेटा है

संपादित करें:

अपेक्षित आउटपुट की भविष्यवाणी नीचे प्रारूप में होनी चाहिए

नोट: मैं अगले 30 दिनों के लिए दैनिक स्तर पर प्रत्येक मशीन के लिए विफलता की संभावना का अनुमान लगाना चाहता हूं।

— GeorgeOfTheRF
स्रोत

मुझे लगता है कि यह मदद करेगा यदि आप बता सकते हैं कि यह समय-समय पर होने वाला डेटा क्यों है; क्या, वास्तव में, क्या प्रतिक्रिया आप मॉडल करना चाहते हैं?

— क्लीप एबी

मैंने इसे स्पष्ट करने के लिए अपेक्षित आउटपुट भविष्यवाणी तालिका को संपादित और जोड़ा है। और अधिक प्रश्न होने पर मुझसे पूछें।

— जॉर्जऑफTheRF

कुछ मामलों में जीवित डेटा को बाइनरी परिणामों में परिवर्तित करने के तरीके हैं, उदाहरण के लिए, समय खतरे के मॉडल को असतत करें: स्टेटिनथोरलिज़न्स . com/wp-content/uploads/ Allison.SM82.pdf । कुछ मशीन सीखने के तरीके जैसे कि रैंडम फॉरेस्ट, डेटा को इवेंट करने के लिए मॉडल टाइम कर सकते हैं, उदाहरण के लिए, लॉगिंग रैंक स्टेटिस्टिक को स्प्लिटिंग मानदंड के रूप में उपयोग करना।

— dsaxton

@dsaxton धन्यवाद क्या आप बता सकते हैं कि उपरोक्त जीवित डेटा को बाइनरी परिणामों में कैसे परिवर्तित किया जाए?

— जॉर्जऑफTheRF

करीब से देखने के बाद ऐसा लगता है कि आपके पास पहले से ही द्विआधारी परिणाम हैं failure_flag।

— dsaxton

जवाबों:

तंत्रिका नेटवर्क के मामले के लिए, यह एक आशाजनक दृष्टिकोण है: डब्ल्यूटीटीई-आरएनएन - कम हैडी मंथन भविष्यवाणी ।

इस विधि का सार प्रत्येक समय-चरण में एक Weibull वितरण के मापदंडों की भविष्यवाणी करने के लिए एक पुनरावर्ती तंत्रिका नेटवर्क का उपयोग करना है और एक हानि फ़ंक्शन का उपयोग करके नेटवर्क को अनुकूलित करना है जो सेंसरिंग को ध्यान में रखता है।

लेखक ने जीथब पर अपने कार्यान्वयन को भी जारी किया ।

— liori
स्रोत

इन संदर्भों पर एक नजर:

https://www.stats.ox.ac.uk/pub/bdr/NNSM.pdf

http://pcwww.liv.ac.uk/~afgt/eleuteri_lyon07.pdf

यह भी ध्यान दें कि कॉक्स आनुपातिक खतरों (CPH) जैसे पारंपरिक खतरों पर आधारित मॉडल समय-समय पर होने वाली घटनाओं की भविष्यवाणी करने के लिए डिज़ाइन नहीं किए गए हैं, बल्कि घटनाओं के बारे में अनुमान लगाने के लिए चर के प्रभाव (सहसंबंध) और घटनाओं का अवलोकन करते हैं, इसलिए ii) उत्तरजीविता वक्र । क्यों? CPH के MLE को देखें।

इसलिए, यदि आप "घटना होने तक के दिनों" जैसी किसी चीज़ का अधिक सीधे अनुमान लगाना चाहते हैं, तो सीपीएच उचित नहीं हो सकता है; अन्य मॉडल आपके कार्य को बेहतर ढंग से परोस सकते हैं जैसा कि ऊपर के दो संदर्भों में दिया गया है।

— Quetzalcoatl
स्रोत

जैसा कि @dsaxton ने कहा, आप असतत समय मॉडल का निर्माण कर सकते हैं। आप इसे पी की भविष्यवाणी करने के लिए सेट करते हैं (पिछले दिन तक दिए गए इस दिन में असफल रहें)। आपके इनपुट वर्तमान दिन हैं (जो भी प्रतिनिधित्व आप चाहते हैं) में जैसे एक हॉट एन्कोडिंग, पूर्णांक, .. स्पलाइन ... साथ ही किसी भी अन्य स्वतंत्र चर जो आप चाहते हैं।

तो आप डेटा की पंक्तियाँ बनाते हैं, प्रत्येक नमूने के लिए जो समय टी -1 तक जीवित रहे, क्या यह समय टी (0/1) पर मर गया।

तो अब समय टी तक जीवित रहने की संभावना है पी का उत्पाद है (टी समय पर मरना नहीं है टी -1 के लिए मरना नहीं है) टी = 1 से टी के लिए। आप अपने मॉडल से टी भविष्यवाणी करते हैं और फिर एक साथ गुणा।

मैं कहूंगा कि इसका कारण ऐसा नहीं है कि विफलता के समय की भविष्यवाणी करने के लिए इस तरह के विचार सीधे समस्या की छिपी संरचना के कारण हैं। उदा। आप उन मशीनों के लिए क्या इनपुट करते हैं जो विफल नहीं हुईं? अंतर्निहित संरचना प्रभावी रूप से स्वतंत्र घटनाएं हैं: समय पर विफल टी दी गई टी -1 तक असफल नहीं हुई। इसलिए उदाहरण के लिए यदि आप मानते हैं कि यह स्थिर है, तो आपका अस्तित्व वक्र एक घातांक बन जाता है (खतरों के मॉडल देखें)

आप मामले में ध्यान दें कि आप 10 मिनट के अंतराल पर मॉडल कर सकते हैं या वर्गीकरण समस्या को दिन के स्तर तक पूरा कर सकते हैं।

— seanv507
स्रोत