लॉजिस्टिक रिग्रेशन के लिए निरंतर चर का रूपांतरण करें


11

मेरे पास बड़े सर्वेक्षण डेटा, एक बाइनरी परिणाम चर और बाइनरी और निरंतर सहित कई व्याख्यात्मक चर हैं। मैं मॉडल सेट (GLM और मिश्रित GLM दोनों के साथ प्रयोग कर रहा हूं) और शीर्ष मॉडल का चयन करने के लिए सूचना सिद्धांत का उपयोग कर रहा हूं। मैंने सहसंबंधों के लिए स्पष्टीकरण (निरंतर और श्रेणीबद्ध दोनों) की सावधानीपूर्वक जांच की और मैं केवल उन्हीं मॉडल का उपयोग कर रहा हूं जिनमें एक पियर्सन या फाइसर कोएफ़ 0.3 से कम है। मैं अपने सभी निरंतर चरों को शीर्ष मॉडल के लिए प्रतिस्पर्धा करने का उचित मौका देना चाहूंगा। मेरे अनुभव में, जिन लोगों को इसे तिरछा करने की आवश्यकता है, उन्हें बदलने से वे (निम्न एआईसी) में भाग लेने वाले मॉडल में सुधार होता है।

मेरा पहला सवाल है: क्या यह सुधार है क्योंकि परिवर्तन लॉजिट के साथ रैखिकता में सुधार करता है? या तिरछा सही करने से डेटा को अधिक सममित बनाकर किसी तरह व्याख्यात्मक चर के संतुलन में सुधार होता है? काश मैं इसके पीछे के गणितीय कारणों को समझ पाता लेकिन अब के लिए, अगर कोई इसे आसान शब्दों में समझा सकता है, तो यह बहुत अच्छा होगा। यदि आपके पास कोई संदर्भ है जो मैं उपयोग कर सकता हूं, तो मैं वास्तव में इसकी सराहना करूंगा।

कई इंटरनेट साइटों का कहना है कि क्योंकि सामान्यता बाइनरी लॉजिस्टिक रिग्रेशन में एक धारणा नहीं है, चर को रूपांतरित न करें। लेकिन मुझे लगता है कि अपने चरों को नहीं बदलने से मैं दूसरों की तुलना में कुछ नुकसान में रह जाता हूं और यह प्रभावित हो सकता है कि शीर्ष मॉडल क्या है और परिवर्तन को बदल देता है (ठीक है, यह आमतौर पर नहीं होता है, लेकिन कुछ डेटासेट में ऐसा होता है)। मेरे कुछ वैरिएबल बेहतर प्रदर्शन करते हैं जब लॉग तब्दील हो जाता है, कुछ जब चुकता (तिरछा की अलग दिशा) और कुछ अनियंत्रित होता है।

क्या कोई मुझे एक गाइडलाइन दे पाएगा कि लॉजिस्टिक रिग्रेशन के लिए व्याख्यात्मक चर को बदलते समय क्या सावधानी बरतनी चाहिए और यदि ऐसा नहीं करना है, तो क्यों नहीं?


2
FF110P(Y=1|β,X)=F(Xβ)यह कागज

यद्यपि एक अलग संदर्भ में लिखा गया है, आप जो पूछ रहे हैं, वह बहुत कुछ मेरे उत्तर में है (या मेरे उत्तर में लिंक में): क्या सामान्य रूप से वितरित एक्स और वाई के परिणामस्वरूप सामान्य रूप से वितरित अवशेषों की संभावना अधिक है?
गूँग - मोनिका

जवाबों:


3

xlog(x)

जब से आप कहते हैं कि आपके पास "बड़ा डेटा" है, आप स्प्लिन में देख सकते हैं, डेटा को परिवर्तनों के बारे में बोलने के लिए ... उदाहरण के लिए, आर में पैकेज mgcv। लेकिन यहां तक ​​कि इस तरह की तकनीक (या परिवर्तनों के लिए अन्य मेथडस्टो खोज स्वचालित रूप से) का उपयोग कर, अंतिम परीक्षा अपने आप से पूछना है कि वैज्ञानिक अर्थ क्या है । Do आपके क्षेत्र के अन्य लोग समान डेटा के साथ क्या करते हैं?


मेरी चिंताओं का समर्थन करने के लिए धन्यवाद: वास्तव में, मेरे पास हालांकि जैविक भावना है। समस्या यह है, कि मेरे पास वास्तव में दो संबंधित डेटासेट हैं और मैं एक ही समय में दोनों से निष्कर्ष निकालना चाहूंगा। लेकिन एक सबसेट में, घनत्व चर उन मॉडलों में सबसे अच्छा है जो अनियंत्रित हैं जबकि दूसरे लॉग में परिवर्तन सबसे अच्छा है। लॉग ट्रांसफ़ॉर्मेशन उस डेटासेट के रिलेशनशिप को बेहतर बनाता है, जिसमें उस वैरिएबल के लिए कम वैल्यूज़ होती हैं, इसलिए मुझे लगता है कि इन दोनों डेटासेट्स को समेटना बहुत मुश्किल होगा, जब तक कि मैं दोनों वेरिएंट को अनट्रॉन्ड नहीं कर देता।
Zsuzsa

1
एक क्षेत्र में विशेषज्ञ शायद ही कभी एपीरी को चर के लिए "सही" परिवर्तनों को जानने में सक्षम होते हैं। मैं लगभग रेखीय संबंधों को कभी नहीं देखता हूं इसलिए जब नमूना आकार के वारंट मैं प्रतिगमन विभाजन का उपयोग करके इस धारणा को शांत करता हूं। मैं परिणामों को चित्रों के साथ व्याख्या करने योग्य बनाता हूं।
फ्रैंक हरेल

3

महत्वपूर्ण मुद्दा यह है कि वास्तविक दुनिया में प्रतिनिधित्व करने वाली संख्याएं क्या हैं और उन चर और आश्रित चर के बीच परिकल्पित संबंध क्या है। आप अपने डेटा को 'क्लीन' करके अपने मॉडल में सुधार कर सकते हैं, लेकिन यदि यह वास्तविक दुनिया को बेहतर ढंग से प्रतिबिंबित नहीं करता है तो आप असफल रहे हैं। हो सकता है कि आपके डेटा के वितरण का अर्थ है कि आपका मॉडलिंग दृष्टिकोण गलत है और आपको पूरी तरह से एक अलग दृष्टिकोण की आवश्यकता है, हो सकता है कि आपके डेटा में समस्याएं हों।

यदि आपके पास गलियारे हैं तो आप चर को क्यों हटाते हैं? .3 मेरे से परे है। हो सकता है कि वे चीजें वास्तव में संबंधित हों और दोनों निर्भर चर के लिए महत्वपूर्ण हों। आप इसके साथ एक अनुक्रमणिका या सहसंबंधित चर के संयुक्त योगदान का प्रतिनिधित्व करने वाले एक समारोह से निपट सकते हैं। ऐसा प्रतीत होता है कि आप आँख बंद करके मनमाने ढंग से सांख्यिकीय मानदंड के आधार पर जानकारी फेंक रहे हैं। क्यों नहीं>> .31, या .33 का उपयोग करें?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.