बहुभिन्नरूपी प्रतिगमन से पहले एकतरफा प्रतिगमन की बात क्या है?


13

मैं वर्तमान में एक समस्या पर काम कर रहा हूं जिसमें हमारे पास एक छोटा डेटासेट है और परिणाम पर एक उपचार के कारण प्रभाव में रुचि रखते हैं।

मेरे सलाहकार ने मुझे प्रतिक्रिया के रूप में परिणाम के साथ प्रत्येक भविष्यवक्ता पर एक अविभाज्य प्रतिगमन करने का निर्देश दिया है, फिर प्रतिक्रिया के रूप में उपचार असाइनमेंट। यानी, मुझे एक समय में एक चर के साथ एक प्रतिगमन फिट करने और परिणामों की तालिका बनाने के लिए कहा जा रहा है। मैंने पूछा "हमें ऐसा क्यों करना चाहिए?", और इसका उत्तर कुछ इस तरह था कि "हम रुचि रखते हैं जिसमें भविष्यवक्ता उपचार असाइनमेंट और परिणाम से जुड़े होते हैं, क्योंकि यह संभवतः एक कन्फ़्यूडर का संकेत होगा"। मेरा सलाहकार एक प्रशिक्षित सांख्यिकीविद् है, न कि एक अलग क्षेत्र में वैज्ञानिक, इसलिए मैं उन पर भरोसा करने के लिए इच्छुक हूं।

यह समझ में आता है, लेकिन यह स्पष्ट नहीं है कि यूनिवेट विश्लेषण के परिणाम का उपयोग कैसे किया जाए। अनुमानों और संकीर्ण विश्वास अंतरालों के महत्वपूर्ण पूर्वाग्रह में इस परिणाम से मॉडल चयन विकल्प नहीं बनायेगा? किसी को ऐसा क्यों करना चाहिए? मैं उलझन में हूँ और मेरे सलाहकार इस मुद्दे पर काफी अपारदर्शी हैं जब मैंने इसे लाया। क्या किसी के पास इस तकनीक के संसाधन हैं?

(एनबी: मेरे सलाहकार ने कहा है कि हम कट-ऑफ के रूप में पी-वैल्यू का उपयोग नहीं कर रहे हैं, लेकिन हम "सब कुछ" पर विचार करना चाहते हैं)।


6
यदि "यूनीवेरेट रिग्रेशन" द्वारा आपके प्रशिक्षक में स्कैप्लेट को शामिल करना शामिल है , तो यह वास्तव में बुद्धिमान सलाह है। और जब से आपको कोई चिंता नहीं है , तो बिना किसी साजिश के आयोजित किया जाना चाहिए, आपको कुछ उपयोगी जानकारी मिल जाएगी। यह सब एक ही बार में करें, यदि आप कर सकते हैं, तो एक स्कैप्लोट मैट्रिक्स के साथ, और उनके साथ कुछ मजबूत चिकनी दिखा सकते हैं। फायदे स्पष्ट होंगे जब आप विभिन्न तरीकों को देखेंगे जिसमें आपके चर रैखिक संबंधों को प्रदर्शित करने से दूर जा सकते हैं।
whuber

1
क्या होगा अगर प्रतिक्रिया डेटा बाइनरी है, और हम एक लॉगिट लिंक के साथ एक चमक का उपयोग कर रहे हैं? आपकी व्याख्या निश्चित रूप से रैखिक मामले के लिए स्पष्ट कर रही है, और अब जब मैं इसके बारे में सोचता हूं, तो तितर बितर भूखंडों का उपयोग स्वाभाविक होगा
Marcel

5
मैं चिंतित था कि आप पूछ सकते हैं कि :-)। वास्तव में, एक अच्छी चिकनी अभी भी महान अंतर्दृष्टि प्रदान कर सकती है। यह प्रतिक्रिया से घबराने में मदद करता है ताकि आप इसका वितरण कर सकें। यहाँ इस तरह के एक कथानक का एक उदाहरण दिया गया है : ysts.stackexchange.com/a/14501/919 । मैं आंकड़े पर एक अन्य समाधान का वर्णन करता हूं ।stackexchange.com / a / 138660 / 919
whuber

3
बहुविकल्पीय प्रतिगमन तकनीक से पहले इस अविभाजित प्रतिगमन को होस्मर और लेमेशो की पुस्तक "एप्लाइड लॉजिस्टिक रिग्रेशन" में "उद्देश्यपूर्ण परिवर्तनशील चयन" कहा जाता है
ग्रेट ३

7
खबरदार - एक वैरिएबल एक अपरिवर्तनीय प्रतिगमन में कोई संबंध नहीं दिखा सकता है, फिर भी बहुभिन्नरूपी संबंध में महत्वपूर्ण हो सकता है।
Glen_b -Reinstate मोनिका

जवाबों:


3

आपके विश्लेषण का कारण संदर्भ आपके प्रश्न में एक महत्वपूर्ण योग्यता है। पूर्वानुमान में, होस्मर और लेमेन्शो द्वारा सुझाए गए "उद्देश्यपूर्ण चयन विधि" की भावना में कई रजिस्ट्रियों से पहले अविभाजित रजिस्टरों को चलाना एक लक्ष्य है। आपके मामले में, जहां आप एक कारण मॉडल का निर्माण कर रहे हैं, एकाधिक प्रतिगमन को चलाने से पहले यूनीवेट रिग्रेशन चलाना एक पूरी तरह से अलग लक्ष्य है। मुझे बाद वाले पर विस्तार करने दें।

आपको और आपके प्रशिक्षक को एक निश्चित कारण ग्राफ को ध्यान में रखना होगा। कारण रेखांकन में परीक्षण योग्य निहितार्थ होते हैं। आपका मिशन उस डेटासेट के साथ शुरू करना है जो आपके पास है, और कारण मॉडल पर वापस जाएं जो इसे उत्पन्न कर सकता है। उन्होंने कहा कि आप सबसे अधिक संभावना है कि univariate प्रतिगमन आप मन में है कारण ग्राफ के प्रभाव का परीक्षण करने की प्रक्रिया में पहला कदम का गठन करने का सुझाव दिया। मान लीजिए कि आप मानते हैं कि आपका डेटा नीचे दिए गए ग्राफ़ में दर्शाए गए कारण मॉडल द्वारा उत्पन्न किया गया था। मान लीजिए कि आप E पर D के कारण प्रभाव में रुचि रखते हैं। नीचे दिए गए ग्राफ़ में परीक्षण योग्य निहितार्थ के एक मेजबान का सुझाव दिया गया है, जैसे:

  • E, D के आश्रित हैं
  • ई और ए संभावना पर निर्भर हैं
  • ई और सी संभावना पर निर्भर हैं
  • ई और बी संभावना पर निर्भर हैं
  • E और N के स्वतंत्र होने की संभावना है

यहाँ छवि विवरण दर्ज करें

मैंने उल्लेख किया है कि यह कारणपूर्ण खोज प्रक्रिया में केवल पहला कदम है क्योंकि असली मज़ा एक बार शुरू होने के बाद आप कई प्रतिगमन, विभिन्न चर की कंडीशनिंग और परीक्षण के लिए शुरू करते हैं कि क्या प्रतिगमन का परिणाम ग्राफ के निहितार्थ के अनुरूप है या नहीं। उदाहरण के लिए, ऊपर दिया गया ग्राफ़ बताता है कि ई और ए को एक बार स्वतंत्र होना चाहिए जब आप डी पर शर्त लगाते हैं। दूसरे शब्दों में, यदि आप डी और ए पर ई प्राप्त करते हैं और पाते हैं कि ए पर गुणांक शून्य के बराबर नहीं है, तो आप यह निष्कर्ष निकालेंगे। E, D पर आपकी स्थिति के बाद A पर निर्भर करता है, और इसलिए कि कारण का ग्राफ़ गलत होना चाहिए। यहां तक ​​कि यह आपको संकेत देगा कि कैसे अपने कारण ग्राफ को बदलना है, क्योंकि इस प्रतिगमन के परिणाम से पता चलता है कि ए और ई के बीच एक रास्ता होना चाहिए जो डी द्वारा पृथक नहीं है।


1

इससे पहले कि मैं जवाब देने की कोशिश करूं, मैं उस प्रकार के डेटा को इंगित करना चाहता हूं और इसका वितरण आपके मूल्यांकन / पंजीकरण / मूल्यांकन के तरीके को प्रभावित कर सकता है।

इसके अलावा, आप इस विधि के लिए यहां देखना चाह सकते हैं जो आपके सलाहकार आपको उपयोग करना चाहते हैं।

पृष्ठभूमि की एक बिट। एक मॉडल चयन उपकरण का उपयोग करते समय एक संभावना है, आपको अभी भी यह कहने में सक्षम होने की आवश्यकता है कि एक भविष्यवक्ता का उपयोग क्यों किया गया था या छोड़ दिया गया था। वे उपकरण एक ब्लैक बॉक्स हो सकते हैं। आपको अपने डेटा को पूरी तरह से समझना चाहिए और यह बताने में सक्षम होना चाहिए कि किसी विशेष भविष्यवक्ता को क्यों चुना गया। (विशेष रूप से, मैं एक थीसिस / मास्टर प्रोजेक्ट के लिए मान रहा हूँ।)

उदाहरण के लिए, घरों और उम्र की कीमत को देखें। घरों की कीमत आम तौर पर उम्र के साथ घट जाती है। इसलिए जब आप अपने डेटा में एक उच्च कीमत के साथ एक पुराने घर को देखते हैं तो इसे हटा दिया जाना एक बाहरी की तरह लगेगा लेकिन ऐसा नहीं है।

जैसा कि (एनबी: मेरे सलाहकार ने कहा है कि हम कट-ऑफ के रूप में पी-वैल्यू का उपयोग नहीं कर रहे हैं, लेकिन हम "सब कुछ" पर विचार करना चाहते हैं।) पी-वैल्यू सभी नहीं हैं और सभी चीजों को समाप्त कर देते हैं, लेकिन वे मददगार हो सकते हैं। । रिकॉल एल्गोरिदम / कार्यक्रम सीमित हैं और पूरी तस्वीर नहीं देख सकते हैं।

के रूप में क्यों आप प्रत्येक भविष्यवक्ता / उपचार असाइनमेंट पर प्रतिगमन univariate कर सकते हैं।

यह बुनियादी बहुभिन्नरूपी मॉडल में शामिल करने के लिए भविष्यवाणियों का चयन करने में सहायता कर सकता है। उस मूल मॉडल से, आप तब यह देखना चाहेंगे कि क्या वे भविष्यवाणियाँ महत्वपूर्ण हैं और उन्हें एक आदर्श मॉडल प्राप्त करने के उद्देश्य से हटाया जाना चाहिए या नहीं।

या यह आपके लिए बेहतर हो सकता है कि आप डेटा की समझ हासिल करें।


1
मेरी पत्नी और मैंने एक पुराना घर खरीदा है, लेकिन एक ऐतिहासिक घर का खर्च नहीं उठा सकते, इसलिए आपके उदाहरण का एक आसान काउंटर-उदाहरण है।
निक कॉक्स

सच। मेरा मतलब घरों की कीमत के बारे में बात करना था। आम तौर पर घरों की कीमतें उम्र के साथ कैसे घटती हैं। इसलिए जब आप एक पुराने घर को एक उच्च कीमत के साथ देखते हैं कि यह एक निष्कासन की तरह दिखेगा। मैं उस बिंदु को संपादित करूंगा। धन्यवाद।
Apocryphon

0

मुझे लगता है कि आपका पर्यवेक्षक आपको यह पहचानने के उद्देश्य से डेटा का पहला विश्लेषण करने के लिए कह रहा है कि क्या कोई भी चर डेटा में भिन्नता के महत्वपूर्ण अंश की व्याख्या कर सकता है।

एक बार जब आप यह निष्कर्ष निकाल लेते हैं कि कोई भी चर कुछ परिवर्तनशीलता की व्याख्या कर सकता है, तो आप यह आकलन करने में सक्षम होंगे कि वे एक साथ कैसे काम करते हैं, अगर वे एक दूसरे के बीच कॉलिनियर या सहसंबद्ध हैं, आदि विशुद्ध रूप से खोजपूर्ण चरण में एक बहुभिन्नरूपी विश्लेषण है। पहले आकलन को कठिन बना सकते हैं, क्योंकि प्रत्येक चर का निर्माण करके आप दूसरों के प्रभाव को दूर करेंगे। यदि कोई भी चर किसी भी भिन्नता की व्याख्या कर सकता है, तो इसका आकलन करना कठिन हो सकता है।


0

यह डेटा को समझने के लिए एक दृष्टिकोण हो सकता है, लेकिन अनुभव से पता चलता है कि जब आप सभी भविष्यवाणियों को एक-एक करके और एक-एक भविष्यवक्ता का उपयोग करते हैं तो भविष्यवाणियां अलग-अलग होंगी। यह केवल कुछ है जो हम डेटा की भविष्यवाणी को समझते हैं और समझते हैं कि भविष्य के कदमों के लिए क्या करने की आवश्यकता है।
मैंने कई बार देखा है जब सभी चरों के साथ p- मान कहता है कि कुछ चर महत्वपूर्ण नहीं हैं, लेकिन केवल गैर-महत्वपूर्ण चर के साथ, वे काफी महत्वपूर्ण थे। यह मिश्रित प्रभाव के कारण है: ऐसा नहीं है कि आपका पर्यवेक्षक गलत है, लेकिन डेटा को समझने के लिए हमें ऐसा करना होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.