इसलिए मैं आर में लॉजिस्टिक प्रतिगमन मॉडल के साथ काम कर रहा हूं। हालांकि मैं अभी भी आंकड़ों के लिए नया हूं, मुझे लगता है कि मुझे अब तक प्रतिगमन मॉडल के लिए थोड़ी समझ है, लेकिन अभी भी कुछ ऐसा है जो मुझे परेशान करता है:
लिंक की गई तस्वीर को देखते हुए, आप मेरे द्वारा बनाए गए एक उदाहरण मॉडल के लिए सारांश आर प्रिंट देखते हैं। मॉडल यह अनुमान लगाने की कोशिश कर रहा है कि क्या डेटासेट में कोई ईमेल रिफंड होगा या नहीं (बाइनरी वैरिएबल isRefound) और डेटासेट में दो वैरिएबल होते हैं isRefound, जिनका संबंध बारीकी से है , अर्थात् - next24और next7daysये भी बाइनरी हैं और यह बताएं कि क्या अगले मेल में क्लिक किया जाएगा लॉग में वर्तमान बिंदु से 24 घंटे / अगले 7 दिन।
उच्च पी-मूल्य को इंगित करना चाहिए, कि इस चर का मॉडल भविष्यवाणी पर प्रभाव बहुत यादृच्छिक है, है ना? इसके आधार पर मुझे यह समझ में नहीं आता है कि जब इन दो चरों को गणना सूत्र से छोड़ दिया जाता है तो मॉडलों की भविष्यवाणियों की सटीकता 10% से कम क्यों हो जाती है। यदि ये चर इतने कम महत्व को दर्शाते हैं, तो उन्हें मॉडल से हटाने का इतना बड़ा प्रभाव क्यों पड़ता है?
सबसे अच्छा संबंध है और अग्रिम धन्यवाद, रिकीफॉक्स

संपादित करें:
पहले मैंने केवल नेक्स्ट 24 को हटा दिया था, जिसमें कम प्रभाव होना चाहिए क्योंकि यह बहुत छोटा है। जैसा कि अपेक्षित था, थोड़ा बदल गया - उसके लिए एक तस्वीर अपलोड न करें।
अगले 7 दिनों को हटाने से मॉडल पर एक बड़ा प्रभाव पड़ा: AIC 200k अप, सटीक 16% तक और रिकॉल 73% तक नीचे

isRefound ~ day + next24अभी बाकी सभी चर हैं, तो क्या होगा ?