लॉजिस्टिक रिग्रेशन मॉडल चर के पी-मूल्य का अर्थ


9

इसलिए मैं आर में लॉजिस्टिक प्रतिगमन मॉडल के साथ काम कर रहा हूं। हालांकि मैं अभी भी आंकड़ों के लिए नया हूं, मुझे लगता है कि मुझे अब तक प्रतिगमन मॉडल के लिए थोड़ी समझ है, लेकिन अभी भी कुछ ऐसा है जो मुझे परेशान करता है:

लिंक की गई तस्वीर को देखते हुए, आप मेरे द्वारा बनाए गए एक उदाहरण मॉडल के लिए सारांश आर प्रिंट देखते हैं। मॉडल यह अनुमान लगाने की कोशिश कर रहा है कि क्या डेटासेट में कोई ईमेल रिफंड होगा या नहीं (बाइनरी वैरिएबल isRefound) और डेटासेट में दो वैरिएबल होते हैं isRefound, जिनका संबंध बारीकी से है , अर्थात् - next24और next7daysये भी बाइनरी हैं और यह बताएं कि क्या अगले मेल में क्लिक किया जाएगा लॉग में वर्तमान बिंदु से 24 घंटे / अगले 7 दिन।

उच्च पी-मूल्य को इंगित करना चाहिए, कि इस चर का मॉडल भविष्यवाणी पर प्रभाव बहुत यादृच्छिक है, है ना? इसके आधार पर मुझे यह समझ में नहीं आता है कि जब इन दो चरों को गणना सूत्र से छोड़ दिया जाता है तो मॉडलों की भविष्यवाणियों की सटीकता 10% से कम क्यों हो जाती है। यदि ये चर इतने कम महत्व को दर्शाते हैं, तो उन्हें मॉडल से हटाने का इतना बड़ा प्रभाव क्यों पड़ता है?

सबसे अच्छा संबंध है और अग्रिम धन्यवाद, रिकीफॉक्स

यहाँ छवि विवरण दर्ज करें


संपादित करें:

पहले मैंने केवल नेक्स्ट 24 को हटा दिया था, जिसमें कम प्रभाव होना चाहिए क्योंकि यह बहुत छोटा है। जैसा कि अपेक्षित था, थोड़ा बदल गया - उसके लिए एक तस्वीर अपलोड न करें।

अगले 7 दिनों को हटाने से मॉडल पर एक बड़ा प्रभाव पड़ा: AIC 200k अप, सटीक 16% तक और रिकॉल 73% तक नीचे

यहाँ छवि विवरण दर्ज करें


1
यदि आपके पास isRefound ~ day + next24अभी बाकी सभी चर हैं, तो क्या होगा ?
स्मिलिग

जवाबों:


11

मूल रूप से, ऐसा लगता है कि आपको एक बहुस्तरीय समस्या हो रही है। इस बारे में बहुत सारी सामग्री उपलब्ध है, जो इस वेबसाइट पर या विकिपीडिया पर शुरू होती है।

संक्षेप में, दो भविष्यवक्ता वास्तव में आपके परिणाम से संबंधित प्रतीत होते हैं, लेकिन वे शायद एक-दूसरे के साथ अत्यधिक सहसंबद्ध भी हैं (ध्यान दें कि दो से अधिक चर के साथ, यह मजबूत द्विभाजन सहसंबंधों के बिना बहु-विषयक मुद्दों के लिए अभी भी संभव है)। यह निश्चित रूप से बहुत मायने रखता है: 24 घंटे के भीतर क्लिक किए गए सभी ईमेल को 7 दिनों (परिभाषा के अनुसार) पर भी क्लिक किया गया है और अधिकांश ईमेलों को संभवत: 24 घंटों में नहीं (7 दिनों में नहीं) पर क्लिक किया गया है।

आपके द्वारा प्रस्तुत आउटपुट में एक तरीका यह दिखाता है कि संबंधित गुणांकों के लिए अविश्वसनीय रूप से बड़े मानक त्रुटियों / CI के माध्यम से है (इस तथ्य को देखते हुए कि आप bigglm का उपयोग कर रहे हैं और यहां तक ​​कि छोटे गुणांक भी अत्यधिक महत्वपूर्ण हैं, ऐसा लगता है कि आपके नमूना का आकार पर्याप्त से अधिक होना चाहिए। अच्छा अनुमान पाने के लिए)। इस तरह की समस्याओं का पता लगाने के लिए आप अन्य चीजें कर सकते हैं: जोड़ीदार सहसंबंधों को देखें, केवल संदिग्ध चर में से एक को हटा दें (जैसा कि @Nick Sabbe द्वारा सुझाया गया है), संयुक्त रूप से दोनों चर के लिए परीक्षण महत्व।

अधिक आम तौर पर, उच्च पी-वैल्यू का मतलब यह नहीं है कि प्रभाव छोटा या यादृच्छिक है, लेकिन केवल इसका कोई सबूत नहीं है कि गुणांक 0. से भिन्न है। यह बहुत बड़ा भी हो सकता है, आपको अभी पता नहीं है (या तो क्योंकि नमूना आकार बहुत छोटा है या क्योंकि मॉडल के साथ कुछ और मुद्दा है)।


1
ध्यान दें कि आपके द्वारा पोस्ट किए गए नए आउटपुट से पता चलता है कि कुछ अन्य चर भी शामिल हो सकते हैं (या कि कोई और मुद्दा है जो मैंने नहीं देखा है) क्योंकि अन्यथा आप एसई के बहुत कम होने की उम्मीद करेंगे जब केवल दो चर में से एक शामिल हो ।
गाला

हाँ पहले से ही ध्यान दिया है, लेकिन धन्यवाद। मैं बाद में एक बिंदु पर एक संपादन करूँगा ताकि आप यह जान सकें कि यदि आपकी रुचि है तो इसका क्या कारण हो सकता है
deemel
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.