हमें बहुभिन्नरूपी प्रतिगमन की आवश्यकता क्यों है (जैसा कि अविभाज्य रजिस्टरों के एक समूह के विपरीत)?


28

मैं सिर्फ इस अद्भुत पुस्तक के माध्यम से आया: जॉनसन और विचर्न द्वारा लागू बहुभिन्नरूपी सांख्यिकीय विश्लेषण । विडंबना यह है, मैं अभी भी अलग-अलग यूनीवेरिएट (प्रतिगमन) मॉडल के बजाय मल्टीवेरिएट (प्रतिगमन) मॉडल का उपयोग करने की प्रेरणा को समझ नहीं पा रहा हूं। मैं आँकड़े 1statexchange पोस्ट 1 और 2 के माध्यम से गया था, जिसमें बहुविकल्पीय प्रतिगमन परिणामों की व्याख्या (ए) कई और बहुभिन्नरूपी प्रतिगमन और (ख) के बीच अंतर है, लेकिन मैं सभी जानकारी से बहुभिन्नरूपी सांख्यिकीय मॉडल का उपयोग करने में सक्षम नहीं हूं। उनके बारे में ऑनलाइन प्राप्त करें।

मेरे प्रश्न हैं:

  1. हमें बहुभिन्नरूपी प्रतिगमन की आवश्यकता क्यों है? निष्कर्ष निकालने के लिए व्यक्तिगत रूप से एक साथ परिणामों पर विचार करने का क्या फायदा है।
  2. मल्टीवेरेट मॉडल का उपयोग कब करना है और कब मल्टीवेरिएट मॉडल (कई परिणामों के लिए) का उपयोग करना है।
  3. तीन परिणामों के साथ यूसीएलए साइट में दिए गए एक उदाहरण को लें : नियंत्रण, आत्म-अवधारणा और प्रेरणा का नियंत्रण। 1. और 2. के संबंध में, क्या हम विश्लेषण की तुलना तब कर सकते हैं, जब हम तीन बहुविकल्पी एकाधिक प्रतिगमन बनाम एक बहुभिन्नरूपी एकाधिक प्रतिगमन करते हैं? एक के ऊपर एक औचित्य कैसे?
  4. मैं कई विद्वानों के पत्रों में नहीं आया हूं जो बहुभिन्नरूपी सांख्यिकीय मॉडल का उपयोग करते हैं। क्या यह बहुभिन्नरूपी सामान्यता धारणा, मॉडल फिटिंग / व्याख्या की जटिलता या किसी अन्य विशिष्ट कारण के कारण है?

18
अलग-अलग अविभाज्य मॉडल सहसंबंधों को अनदेखा करते हैं।
jwimberley

3
हां, दुनिया में कई घटनाएं हैं जो स्वतंत्र यादृच्छिक चर द्वारा मॉडलिंग नहीं की जा सकती हैं।
माइकल आर। चेर्निक

2
@jwimberley क्या आप एक उत्तर में इन सहसंबंधों को अनदेखा करने के परिणामों पर विस्तार कर सकते हैं?
जेक वेस्टफॉल

2
शीर्षक पर बस एक नोट: आयामीता में कमी (पीसीए, कारक विश्लेषण, किसी भी गैर-रेखीय विधि, आदि) और क्लस्टरिंग को आमतौर पर "बहुभिन्नरूपी" तरीके भी माना जाता है। ऐसा लगता है कि आपका प्रश्न विशेष रूप से बहुभिन्नरूपी प्रतिगमन (बनाम अविभाज्य प्रतिगमन का एक गुच्छा) पर केंद्रित है, इसलिए मेरा सुझाव है कि आप इसे सीधे अपने शीर्षक में रखें। +1 btw।
अमीबा का कहना है कि मोनिका

2
ANOVAs के विरोध में MANOVA कैसे फायदेमंद हो सकता है, इसका एक सरल उदाहरण: आँकड़ा.स्टैकएक्सचेंज . com/ questions / 129123 । एक विपरीत स्थिति जहां MANOVA अभी भी फायदेमंद है, लेकिन एक अलग कारण के लिए: आंकड़े ।stackexchange.com / questions / 61921 । तो MANOVA कर सकते हैं: (i) अधिक शक्ति देते हैं, (ii) समग्र त्रुटि दर को नियंत्रित करते हैं।
अमीबा का कहना है कि मोनिका

जवाबों:


22

क्या आपने UCLA साइट पर पूरा उदाहरण पढ़ा है जिसे आपने लिंक किया था?

1 के बारे में:
एक बहुभिन्नरूपी मॉडल का उपयोग करने से आपको (औपचारिक रूप से, अनुमानतः) परिणामों में गुणांक की तुलना करने में मदद मिलती है।
उस लिंक किए गए उदाहरण में, वे परीक्षण करने के लिए मल्टीवेरेट मॉडल का उपयोग करते हैं कि परिणाम writeके लिए locus_of_controlपरिणाम बनाम के लिए गुणांक काफी अलग है या नहीं self_concept। मैं कोई मनोवैज्ञानिक नहीं हूं, लेकिन संभवत: यह पूछना दिलचस्प है कि क्या आपकी लेखन क्षमता दो अलग-अलग मानसिक चर को एक ही तरह से प्रभावित करती है / करती है। (या, यदि हम अशक्त पर विश्वास नहीं है, यह अभी भी दिलचस्प पूछने के लिए पर्याप्त डेटा एकत्र होने के लिए कि क्या है करने के लिए प्रदर्शित आसानी से कि प्रभाव वास्तव में अलग है।)
यदि आप अलग univariate विश्लेषण भाग गया, यह मुश्किल तुलना करने के लिए किया जाएगाwriteदो मॉडलों में गुणांक। दोनों अनुमान एक ही डाटासेट से आएंगे, इसलिए वे सहसंबद्ध होंगे। बहुभिन्नरूपी मॉडल इस सहसंबंध के लिए जिम्मेदार है।

इसके अलावा, 4 के बारे में:
वहाँ रहे हैं जैसे कुछ बहुत ही सामान्य रूप से प्रयुक्त मल्टीवेरिएट मॉडल, पुनरावृत्त मापन एनोवा । एक उपयुक्त अध्ययन डिजाइन के साथ, कल्पना करें कि आप प्रत्येक रोगी को कई दवाएं देते हैं, और प्रत्येक दवा के बाद प्रत्येक रोगी के स्वास्थ्य को मापते हैं। या कल्पना करें कि आप समय के साथ एक ही परिणाम को मापते हैं, जैसे कि अनुदैर्ध्य डेटा, समय के साथ बच्चों की ऊंचाइयों को कहते हैं। तब आपके पास प्रत्येक इकाई के लिए कई परिणाम होते हैं (तब भी जब वे "एक ही" प्रकार के माप को दोहराते हैं)। आप शायद कम से कम कुछ सरल विरोधाभास करना चाहेंगे: ड्रग ए बनाम ड्रग बी या ड्रग ए और बी बनाम प्लेसेबो के औसत प्रभाव की तुलना करना। इसके लिए, दोहराया माप एनोवा एक उपयुक्त बहुभिन्नरूपी सांख्यिकीय मॉडल / विश्लेषण है।


1
आपने बहुत अच्छा जवाब दिया। मुझे निश्चित रूप से पता था कि अन्य उदाहरणों और तर्कों की एक दुनिया है जो कि बनाई जा सकती है। मुझे पसंद है कि आपने ओपीसी को दिखाने के लिए यूसीएलए लिंक से जानकारी ली। सच कहूँ तो मैं शुरू में इस सवाल से आहत था लेकिन मैंने जवाब देने का फैसला किया जब मुझे महसूस हुआ कि ओपी ईमानदारी से यहाँ अच्छे तर्क देना चाहता था और बहुभिन्नरूपी तरीकों को नज़रअंदाज़ करने के विचार को आगे नहीं बढ़ा रहा था। मेरी पसंद उदाहरण दिखाना था जहां सहसंबंध की अनदेखी करने के वास्तविक विनाशकारी और घातक परिणाम थे।
माइकल आर। चेर्निक

1
मैं आपके उत्तर का स्वागत करता हूं और उम्मीद है कि अधिक सुविचारित उत्तर हैं जो इसे एक मूल्यवान सूत्र बना देंगे।
माइकल आर। चेर्निक

महान उत्तर के लिए धन्यवाद, @civilstat। बिंदु 1 में, यदि हम दो स्वतंत्र यूनीवेरेट मॉडल चलाते हैं, तो आपने उल्लेख किया है कि इनपुट चर गुणांक ( writeउदाहरण के लिए गुणांक) सहसंबद्ध होगा और उसी के लिए बहुभिन्नरूपी मॉडल खाते होंगे। यहां वह जगह है जहां मैं अधिक समझ हासिल करना चाहूंगा। locus_of_control और self_concept को कारक विश्लेषण या अन्य तकनीकों का उपयोग करके एकल उपाय में विलय किया जा सकता है और परिणामी उपाय को मॉडलिंग किया जा सकता है, अगर उपयुक्त प्रेरणा हो। यदि दोनों दो अलग मानस मापते हैं। घटना, हम उन्हें एक साथ मॉडलिंग करके क्या हासिल करते हैं?
कार्तिक्स

2
@ManuelFazio UCLA साइट पर अगला वाक्य देखें: "तो एक बहुभिन्नरूपी प्रतिगमन का संचालन क्यों करें? जैसा कि हमने पहले उल्लेख किया था, mvreg का उपयोग करने के लाभों में से एक यह है कि आप अलग-अलग परिणाम चर में गुणांक के परीक्षण कर सकते हैं।" यदि आप अलग-अलग पंजीकरण चलाते हैं, तो आपको प्रत्येक परिणाम के लिए समान गुणांक और SE मिलेगा, लेकिन आपको परिणामों के दौरान गुणांक के बीच संबंध का अनुमान नहीं मिलेगा । आपको इस सहसंबंध की आवश्यकता होगी यदि, उदाहरण के लिए, आप प्रेरणा परिणाम बनाम self_concept परिणाम के लिए रीड के गुणांक में अंतर के लिए CI प्राप्त करना चाहते थे।
दीवानी

1
@civilstat आह, मुझ पर शर्म, स्वतंत्रता धारणा मेरे दिमाग में इतनी घनीभूत थी कि मैं इस वाक्य को पढ़ने के बाद भी क्लिक नहीं करता था। विस्तारित स्पष्टीकरण के लिए धन्यवाद!
zipzapboing

11

सभी झूठे और कभी-कभी खतरनाक निष्कर्षों के बारे में सोचें जो कि बस संभावनाओं को गुणा करने से आते हैं, सोच की घटनाएं स्वतंत्र हैं। सभी निरर्थक सुरक्षा उपायों में निर्मित होने के कारण, हमने अपने परमाणु ऊर्जा संयंत्रों में डाल दिया स्वतंत्रता का उपयोग करते हुए विशेषज्ञों ने हमें बताया कि एक बड़ी परमाणु दुर्घटना की संभावना असीम थी। लेकिन जैसा कि हमने थ्री माइल द्वीप पर देखा, मनुष्य विशेष रूप से तब सहसंबद्ध त्रुटियां करता है जब वे एक प्रारंभिक त्रुटि के कारण घबराहट में होते हैं जो जल्दी से खुद को कंपाउंड कर सकते हैं। एक यथार्थवादी बहुभिन्नरूपी मॉडल का निर्माण करना मुश्किल हो सकता है जो मानव व्यवहार की विशेषता है लेकिन एक भयानक मॉडल (स्वतंत्र त्रुटियों) के प्रभाव को महसूस करना स्पष्ट है।

कई अन्य उदाहरण संभव हैं। मैं चैलेंजर शटल आपदा को एक और संभावित उदाहरण के रूप में लूंगा सवाल यह था कि कम तापमान की स्थिति के तहत लॉन्च किया जाए या नहीं। यह बताने के लिए कुछ आंकड़े थे कि कम तापमान पर ओ-रिंग विफल हो सकते हैं। लेकिन यह स्पष्ट करने के लिए पारित मिशनों से बहुत अधिक डेटा नहीं था कि जोखिम कितना अधिक था। नासा हमेशा अंतरिक्ष यात्रियों की सुरक्षा से संबंधित रहा है और मिशन को सुरक्षित बनाने के लिए कई अतिरेक अंतरिक्ष यान और लॉन्च वाहनों में लगाए गए थे।

फिर भी 1986 से पहले कुछ सिस्टम विफलताएं थीं और विफलताओं के पास संभवतः सभी संभावित विफलता मोड (एक कठिन कार्य) की पहचान नहीं करने के कारण थे। विश्वसनीयता मॉडलिंग एक कठिन व्यवसाय है। लेकिन वो दूसरी कहानी है। शटल के मामले में ओ-रिंग्स (मॉर्टन थियोकोल) के निर्माता ने ओ-रिंगों के कुछ परीक्षण किए थे जो कम तापमान पर विफलता की संभावना का संकेत देते थे।

लेकिन सीमित संख्या में मिशनों के आंकड़ों ने तापमान और विफलता के बीच कुछ संबंध दिखाए, लेकिन क्योंकि अतिरेक ने कुछ प्रशासकों को यह सोचने के लिए प्रेरित किया कि कई ओ-रिंग विफल नहीं होंगे, उन्होंने नासा पर लॉन्च करने के लिए दबाव डाला।

निश्चित रूप से कई अन्य कारक थे जिन्होंने निर्णय लिया। याद रखें कि कैसे राष्ट्रपति रीगन अंतरिक्ष में एक शिक्षक को रखने के लिए इतने उत्सुक थे कि यह प्रदर्शित करने के लिए कि अब यह पर्याप्त सुरक्षित था कि सामान्य लोग जो अंतरिक्ष यात्री नहीं थे, वे सुरक्षित रूप से शटल पर यात्रा कर सकते थे । इसलिए राजनीतिक दबाव निर्णय को प्रभावित करने वाला एक और बड़ा कारक था। पर्याप्त डेटा और एक बहुभिन्नरूपी मॉडल के साथ इस मामले में जोखिम का बेहतर प्रदर्शन किया जा सकता था। नासा सावधानी बरतने की कोशिश करने के लिए उपयोग करता है। इस मामले में कुछ दिनों के लिए प्रक्षेपण को बंद कर दिया गया जब तक कि फ्लोरिडा में मौसम गर्म नहीं होता।

आपदा के बाद के आयोगों, इंजीनियरों, वैज्ञानिकों और सांख्यिकीविदों ने बहुत विश्लेषण किया और कागजात प्रकाशित किए गए। उनके विचार मेरे से भिन्न हो सकते हैं। एडवर्ड टफ्टे ने ग्राफिक्स पर अपनी पुस्तकों की एक श्रृंखला में दिखाया कि अच्छे ग्राफिक्स अधिक ठोस हो सकते हैं। लेकिन अंत में, हालांकि इन सभी विश्लेषणों में योग्यता है मुझे लगता है कि राजनीति अभी भी जीत गई होगी।

इन कहानियों का नैतिक यह नहीं है कि इन आपदाओं ने बहुभिन्नरूपी तरीकों के उपयोग के लिए प्रेरित किया, बल्कि यह भी कि खराब विश्लेषण जो निर्भरता को नजरअंदाज करते हैं, कभी-कभी जोखिम को कम कर देते हैं। इससे अति आत्मविश्वास हो सकता है जो खतरनाक हो सकता है। जैसा कि jwimberley ने इस धागे की पहली टिप्पणी में कहा था "अलग-अलग अविभाज्य मॉडल सहसंबंधों को अनदेखा करते हैं।"


अपने अद्भुत उदाहरण के लिए धन्यवाद, @MichaelChernick। स्वतंत्रता की धारणा चिंता की है, मैं समझता हूं। मैं परिणामों के बीच अंतर-संबंध और उन्हें एक साथ मॉडल करने की आवश्यकता के बारे में अधिक जिज्ञासु हूं।
कार्तिक्स

आइए हम चैलेंजर शटल आपदा उदाहरण खुद लेते हैं। यहां अनिवारीट परिणाम द्विआधारी है - चाहे वह अंतरिक्ष शटल को लॉन्च करने के लिए सुरक्षित हो या नहीं। कई चीजों को करने की कोशिश करने वाले मॉडल पर विचार करें, जैसे कि सुरक्षा की भविष्यवाणी करना, प्रक्षेपवक्र विचलन को मापना और शटल के लिए इनडोर दबाव की भविष्यवाणी करना। एक दृष्टिकोण उनमें से प्रत्येक के लिए अलग-अलग मॉडल बनाने के लिए हो सकता है, और दूसरा एक-से-सभी मॉडल पर विचार करने के लिए हो सकता है जो न केवल इनपुट (टेम्परेचर, आर्द्रता, आदि) के प्रभावों को पकड़ने की कोशिश करता है, बल्कि एक साथ जांच भी करता है परिणामों पर प्रभाव।
कार्तिक्स

1
धन्यवाद @MichaelChernick मुझे यकीन नहीं है कि क्या मैं आपके तर्कों को पूरी तरह से समझ पा रहा हूं। मैं समझता हूं कि हम में से कई एकल इनपुट के साथ सरल रेखीय प्रतिगमन के लिए एकतरफा और बहुभिन्नरूपी प्रतिगमन का उपयोग करते हैं और एक से अधिक इनपुट चर (जहां एक मामले में एक से अधिक आदानों के एक साथ प्रभाव की जांच की जाती है)। लेकिन मैंने इस प्रश्न को एक परिणाम (एकतरफा) या एक से अधिक परिणामों (बहुभिन्नरूपी) वाले मॉडल के लिए तैयार किया है। यदि चैलेंजर मामला एक बहुभिन्नरूपी परिणाम उपयोग-मामले से मेल नहीं खाता है, तो क्या आप किसी वैध व्यक्ति से संपर्क कर सकते हैं। चर्चा जारी रखने के लिए धन्यवाद।
कार्तिक्स

मुझे आश्चर्य है कि आपने इस प्रश्न पर एक इनाम रखा है। बाउंसियां ​​अधिक बार की जाती हैं, जब इसमें कुछ भी टिप्पणी नहीं मिली है और यदि इसमें उत्तर हैं तो वे कुछ महत्वपूर्ण पहलुओं को कवर नहीं करते हैं। इस धागे में तीन अच्छे उत्तर और टिप्पणियों के टन हैं (वास्तव में बहुत अच्छे भी हैं जैसे कि jwimberley से पहला।
माइकल आर। चेरिक

मुझे यकीन नहीं है कि आप और क्या चाहते हैं। यह प्रश्न बहुत व्यापक है और एक तकनीकी से अधिक चर्चा का प्रतीत होता है। यह मुझे लगभग ऐसा लगता है जैसे आप किसी को जटिल परिस्थितियों में अकेले विश्लेषण करने के लिए कहने की कोशिश कर रहे हैं। मैं इनाम के लिए प्रयास नहीं करने जा रहा हूं और यह देखना दिलचस्प होगा कि अगले सात दिनों में कोई भी इसके लिए प्रयास करता है और यदि वे करते हैं तो क्या आप इसे स्वीकार करेंगे। चैलेंजर आपदा को एक अविभाज्य परिणाम के रूप में देखा जा सकता है, लेकिन मुझे नहीं लगता कि किसी भी तरह की कल्पना से पूरी तरह से केवल एकतरफा तरीकों से जवाब दिया जा सकता है।
माइकल आर। चेर्निक

7

पी से इस उद्धरण पर विचार करें। डार्सी ऑलसेन की पुस्तक द राइट ऑफ़ ट्राई [1] का 36 :

लेकिन [eteplirsen] infusions शुरू होने के लगभग सोलह हफ्ते बाद, जेन ने [उसके बेटे] मैक्स में बदलावों को देखना शुरू किया। "बच्चे ने अपनी व्हीलचेयर का उपयोग करना बंद कर दिया," वह कहती है। कुछ हफ्तों बाद, वह बाहर खेलने के लिए कह रहा था - कुछ ऐसा जो उसने वर्षों में नहीं किया था। फिर मैक्स ने अपने ठीक मोटर कौशल को फिर से हासिल करना शुरू कर दिया। वह फिर से कंटेनरों को खोलने में सक्षम था - एक कौशल जिसे उसने खो दिया था, जैसा कि [ड्यूचेन पेशी डिस्ट्रॉफी] ने प्रगति की थी।

मैक्स की मां जेन अपने सुधार के सुसंगत चित्र का निर्माण कर रही है, एक साथ कई परिणामों से सबूत खींचकर कि व्यक्तिगत रूप से 'शोर' के रूप में खारिज किया जा सकता है, लेकिन यह एक साथ काफी सम्मोहक हैं। (यह साक्ष्य संश्लेषण सिद्धांत बाल रोग विशेषज्ञों का हिस्सा है क्योंकि एक नियम ने कभी भी माता-पिता के सहज अनुमानों को खारिज नहीं किया है कि "मेरे बच्चे के साथ कुछ गलत है"। माता-पिता के पास अपने बच्चों के 'बहुभिन्नरूपी अनुदैर्ध्य विश्लेषण' तक पहुंच है, जो 'ओलिगोविरिएट' की तुलना में बहुत अमीर हैं। एक एकल, संक्षिप्त नैदानिक ​​मुठभेड़ के दौरान एक चिकित्सक के लिए सुलभ पार-अनुभागीय विश्लेषण।)

एटेप्लेरसेन के विशेष मामले से दूर, एक काल्पनिक स्थिति पर विचार करें जहां केवल अध्ययन के विषयों का एक छोटा सा हिस्सा एक प्रायोगिक चिकित्सा से लाभान्वित हो रहा था , मान लीजिए कि कुछ साझा आनुवंशिक कारक अभी तक विज्ञान के लिए ज्ञात नहीं हैं। यह बहुत संभव है कि उन कुछ विषयों के लिए, जेन की बहुभिन्नरूपी कहानी से संबंधित एक सांख्यिकीय तर्क उन्हें स्पष्ट रूप से 'उत्तरदाता' के रूप में पहचान सकता है, जबकि व्यक्तिगत परिणामों में निहित बेहोश संकेतों के कई अलग-अलग विश्लेषण प्रत्येक उपज , एक अशक्त ड्राइविंग ' योगात्मक निष्कर्ष।p>0.05

इस तरह के साक्ष्य संश्लेषण को प्राप्त करना नैदानिक ​​परीक्षणों में बहुभिन्नरूपी परिणामों के विश्लेषण के लिए मुख्य तर्क है। मेडिकल रिसर्च में सांख्यिकीय तरीके कुछ साल पहले एक विशेष मुद्दा था [2] जो मल्टीवेरिएट परिणामों के 'संयुक्त मॉडलिंग' के लिए समर्पित था।

  1. ऑलसेन, डार्सी। कोशिश करने का अधिकार: फेडरल सरकार अमेरिकियों को जीवन रक्षक उपचार की आवश्यकता से रोकता है। पहला संस्करण। न्यूयॉर्क, एनवाई: हार्पर, हार्पर कॉलिन्स पब्लिशर्स की एक छाप, 2015।
  2. रिजोपौलोस, दिमित्रीस, और इमैनुएल लेसेफ्रे। "संयुक्त मॉडलिंग तकनीकों पर विशेष मुद्दे का परिचय।" चिकित्सा अनुसंधान में सांख्यिकीय तरीके 23, सं। 1 (1 फरवरी, 2014): 3-10। डोई: 10.1177 / 0962280212445800।

6

चलो एक सरल सादृश्य बनाते हैं, क्योंकि मैं वास्तव में योगदान करने की कोशिश कर सकता हूं। एकतरफा बनाम बहुभिन्नरूपी प्रतिगमन के बजाय, चलो अविभाज्य (सीमांत) बनाम बहुभिन्नरूपी (संयुक्त) वितरण पर विचार करें। कहें कि मेरे पास निम्नलिखित डेटा है और मैं "आउटलेयर" खोजना चाहता हूं। पहले दृष्टिकोण के रूप में, मैं दो सीमांत ("यूनीवेरिएट") वितरण का उपयोग कर सकता हूं और स्वतंत्र रूप से प्रत्येक के निचले 2.5% और ऊपरी 2.5% पर लाइनें खींचता हूं। परिणामी लाइनों के बाहर गिरने वाले बिंदु को आउटलेर माना जाता है।

लेकिन दो बातें: 1) हम उन बिंदुओं के बारे में क्या सोचते हैं जो एक धुरी के लिए लाइनों के बाहर हैं लेकिन दूसरी धुरी के लिए लाइनों के अंदर हैं? क्या वे "आंशिक आउटलेयर" या कुछ और हैं? और 2) परिणामी बॉक्स ऐसा नहीं लगता जैसे यह वास्तव में हम क्या चाहते हैं। कारण, निश्चित रूप से, दो चर परस्पर संबंधित हैं, और जो हम सहज रूप से चाहते हैं, वह है कि ऐसे आउटलेयर को खोजना है जो संयोजन में चर को देखते हुए असामान्य हैं।

इस मामले में, हम संयुक्त वितरण को देखते हैं, और मैंने बिंदुओं को रंग-कोडित किया है कि क्या केंद्र से उनकी महालनोबिस दूरी ऊपरी 5% के भीतर है या नहीं। काले बिंदु आउटलेर्स की तरह बहुत अधिक दिखते हैं, भले ही कुछ आउटलेर हरे रंग की लाइनों के दोनों सेटों के भीतर और कुछ गैर-आउटलेर (लाल) हरी रेखाओं के दोनों सेटों के बाहर स्थित हों ।

दोनों ही मामलों में, हम 95% बनाम 5% का परिसीमन कर रहे हैं, लेकिन संयुक्त वितरण के लिए दूसरी तकनीक है। मेरा मानना ​​है कि बहुभिन्नरूपी प्रतिगमन ऐसा है, जहां आप "वितरण" के लिए "प्रतिगमन" को प्रतिस्थापित करते हैं। मैं इसे पूरी तरह से प्राप्त नहीं करता हूं, और मुझे खुद को बहुभिन्नरूपी प्रतिगमन करने के लिए कोई ज़रूरत नहीं है (जो मुझे समझ में आता है), लेकिन इस तरह से मैं इसके बारे में सोचता हूं।

[सादृश्य के मुद्दे हैं: महालनोबिस दूरी एक एकल संख्या के लिए दो चर को कम करती है - जिस तरह से एक अविभाज्य प्रतिगमन स्वतंत्र चर का एक सेट लेता है और सही तकनीकों के साथ स्वतंत्र चर के बीच सहसंबंधों को ध्यान में रख सकता है, और परिणाम एकल आश्रित चर में - जबकि बहुभिन्नरूपी प्रतिगमन में कई आश्रित चर होते हैं। इसलिए यह पीछे की ओर छाँटता है, लेकिन उम्मीद है कि आगे के लिए कुछ अंतर्ज्ञान देने के लिए पर्याप्त है।]

यहाँ छवि विवरण दर्ज करें


1
यह मुझे पंसद है। मैं बाहरी उल्लुओं को बाहरी लोगों को परिभाषित करने के लिए उपयोग करूंगा। जैसा कि मैं देख रहा हूं कि आपका चित्रण बिंदु x या y दिशा में किसी भी माध्यम से दूर हो सकता है लेकिन फिर भी एक दीर्घवृत्त के भीतर हो सकता है जो प्रतिगमन रेखा से दूर नहीं है।
माइकल आर। चेरनिक

3

1) प्रकृति हमेशा सरल नहीं होती है। वास्तव में, हमारे द्वारा अध्ययन की जाने वाली अधिकांश घटनाएं (परिणाम) कई चर पर और एक जटिल तरीके से निर्भर करती हैं। एक समय पर एक चर पर आधारित एक अनुमान मॉडल सबसे अधिक संभावना एक उच्च पूर्वाग्रह होगा।

2) Univariate मॉडल सबसे सरल मॉडल है जिसे आप परिभाषा के अनुसार बना सकते हैं। यदि आप पहली बार किसी समस्या की जांच कर रहे हैं, तो यह ठीक है, और आप इसकी एकल, सबसे आवश्यक विशेषता को समझना चाहते हैं। लेकिन अगर आप इसकी गहरी समझ चाहते हैं, तो ऐसी समझ जिसे आप वास्तव में लाभ उठा सकते हैं क्योंकि आपको भरोसा है कि आप क्या कर रहे हैं, आप मल्टीवेरियन विश्लेषण का उपयोग करेंगे। और बहुभिन्नरूपी लोगों के बीच, आपको उन लोगों को पसंद करना चाहिए जो सहसंबंध पैटर्न को समझते हैं, यदि आप मॉडल सटीकता के बारे में परवाह करते हैं।

3) खेद है कि इसे पढ़ने का समय नहीं मिला।

4) मल्टीवेरेट तकनीकों का उपयोग करने वाले कागजात इन दिनों बहुत आम हैं - कुछ क्षेत्रों में भी बेहद सामान्य हैं। सर्न प्रयोगों में बड़े हैड्रॉन कोलाइडर डेटा (कण भौतिकी से एक उदाहरण लेने के लिए) का उपयोग करते हुए हर साल प्रकाशित होने वाले आधे से अधिक सैकड़ों पेपर एक या दूसरे तरीके से मल्टीवेरेट तकनीक का उपयोग करते हैं।

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0


मुझे लगता है कि आपके कहने का मतलब है, यूनीवेट मॉडल केवल इनपुट के साथ एक है और मल्टीवेरेट कई इनपुट के साथ मॉडल है। मेरा प्रश्न एक मॉडल में एक साथ विश्लेषण किए गए कई परिणामों के बारे में था।
कार्तिक्स

1
आपने कई / एकल प्रतिगमन के साथ बहुभिन्नरूपी / एकतरफा प्रतिगमन को मिलाया।
फायरबग

1

मेरा जवाब इस बात पर निर्भर करता है कि आप प्रतिगमन के साथ क्या करना चाहते हैं। यदि आप विभिन्न गुणांक के प्रभाव की तुलना करने की कोशिश कर रहे हैं, तो प्रतिगमन आपके लिए सही उपकरण नहीं हो सकता है। यदि आप अलग-अलग गुणांक का उपयोग करके भविष्यवाणियां करने की कोशिश कर रहे हैं, जो आपने साबित किया है कि वे स्वतंत्र हैं, तो शायद कई प्रतिगमन हैं जो आपको उपयोग करना चाहिए।

क्या कारक सहसंबद्ध हैं? यदि हां, तो एक बहुभिन्नरूपी प्रतिगमन आपको एक खराब मॉडल दे सकता है और आपको क्रॉस-सहसंबंधों को ट्रिम करने के लिए वीआईएफ या रिज प्रतिगमन जैसी विधि का उपयोग करना चाहिए। जब तक क्रॉस-सहसंबद्ध कारकों को समाप्त नहीं किया जाता है तब तक आपको गुणांक की तुलना नहीं करनी चाहिए। ऐसा करने से विपत्ति आएगी। यदि वे क्रॉस-सहसंबंधित नहीं हैं, तो बहुभिन्नरूपी गुणांक को एकतरफा गुणांक के रूप में तुलनीय होना चाहिए, और यह आश्चर्यजनक नहीं होना चाहिए।

परिणाम आपके द्वारा उपयोग किए जा रहे सॉफ़्टवेयर पैकेज पर भी निर्भर हो सकता है। मैं मज़ाक नहीं कर रहा हूँ। मल्टीवेरेट रिग्रेशन की गणना के लिए अलग-अलग सॉफ्टवेयर पैकेज के अलग-अलग तरीके हैं। (मुझ पर विश्वास न करें? देखें कि मानक आर प्रतिगमन पैकेज आर 2 की गणना कैसे करता है और अवरोधन के रूप में मूल को मजबूर किए बिना। आपके जबड़े को फर्श पर मारना चाहिए।) आपको यह समझने की आवश्यकता है कि सॉफ्टवेयर पैकेज प्रतिगमन कैसे कर रहा है। यह क्रॉस-सहसंबंधों के लिए क्षतिपूर्ति कैसे कर रहा है? क्या यह एक अनुक्रमिक या मैट्रिक्स समाधान प्रदर्शन कर रहा है? मुझे अतीत में इसके साथ निराशा हुई है। मेरा सुझाव है कि विभिन्न सॉफ्टवेयर पैकेजों पर अपने कई प्रतिगमन का प्रदर्शन करें और देखें कि आपको क्या मिलता है।

एक और अच्छा उदाहरण यहाँ:

ध्यान दें कि इस समीकरण में, प्रतिगमन गुणांक (या बी गुणांक) निर्भर चर की भविष्यवाणी के लिए प्रत्येक स्वतंत्र चर के स्वतंत्र योगदान का प्रतिनिधित्व करते हैं। इस तथ्य को व्यक्त करने का एक अन्य तरीका यह है कि, उदाहरण के लिए, अन्य सभी चर चर के लिए नियंत्रित करने के बाद, चर X1 को Y चर के साथ सहसंबद्ध किया जाता है। इस प्रकार के सहसंबंध को आंशिक सहसंबंध भी कहा जाता है (यह शब्द पहली बार यूल, 1907 द्वारा इस्तेमाल किया गया था)। शायद निम्नलिखित उदाहरण इस मुद्दे को स्पष्ट करेगा। आपको शायद आबादी में बालों की लंबाई और ऊंचाई के बीच एक महत्वपूर्ण नकारात्मक सहसंबंध मिलेगा (यानी, छोटे लोगों के बाल लंबे होते हैं)। पहले तो यह अजीब लग सकता है; हालाँकि, यदि हम कई प्रतिगमन समीकरण में परिवर्तनशील लिंग को जोड़ते हैं, तो यह सहसंबंध शायद गायब हो जाएगा। इसका कारण यह है कि महिलाओं, औसतन, पुरुषों की तुलना में लंबे बाल होते हैं; वे भी पुरुषों की तुलना में औसत पर कम हैं। इस प्रकार, जब हम लिंग को समीकरण में दर्ज करके इस लिंग अंतर को हटा देते हैं, तो बालों की लंबाई और ऊंचाई के बीच संबंध गायब हो जाता है क्योंकि बालों की लंबाई ऊंचाई की भविष्यवाणी में कोई अद्वितीय योगदान नहीं देती है, ऊपर और परे यह चर लिंग के साथ भविष्यवाणी में क्या साझा करता है । एक और तरीका रखो, चर लिंग के लिए नियंत्रित करने के बाद, बालों की लंबाई और ऊंचाई के बीच आंशिक सहसंबंध शून्य है। बालों की लंबाई और ऊंचाई के बीच का संबंध गायब हो जाता है क्योंकि बालों की लंबाई ऊँचाई की भविष्यवाणी में कोई अद्वितीय योगदान नहीं देती है, ऊपर और परे यह चर लिंग के साथ भविष्यवाणी में क्या साझा करता है। एक और तरीका रखो, चर लिंग के लिए नियंत्रित करने के बाद, बालों की लंबाई और ऊंचाई के बीच आंशिक सहसंबंध शून्य है। बालों की लंबाई और ऊंचाई के बीच का संबंध गायब हो जाता है क्योंकि बालों की लंबाई ऊँचाई की भविष्यवाणी में कोई अद्वितीय योगदान नहीं देती है, ऊपर और परे यह चर लिंग के साथ भविष्यवाणी में क्या साझा करता है। एक और तरीका रखो, चर लिंग के लिए नियंत्रित करने के बाद, बालों की लंबाई और ऊंचाई के बीच आंशिक सहसंबंध शून्य है। http://www.statsoft.com/Textbook/Multiple-Regression

कई प्रतिगमन का उपयोग करते हुए इतने नुकसान होते हैं कि मैं इसका उपयोग करने से बचने की कोशिश करता हूं। यदि आप इसका उपयोग करने वाले थे, तो परिणामों से बहुत सावधान रहें और उनकी जाँच करें। आपको सहसंबंध को सत्यापित करने के लिए हमेशा डेटा को प्लॉट करना चाहिए। (सिर्फ इसलिए कि आपके सॉफ़्टवेयर प्रोग्राम ने कहा था कि कोई सहसंबंध नहीं था, इसका मतलब यह नहीं है कि कोई भी नहीं है। दिलचस्प सहसंबंध ) हमेशा सामान्य ज्ञान के खिलाफ अपने परिणामों की जांच करें। यदि एक कारक एक अविभाजित प्रतिगमन में एक मजबूत सहसंबंध दिखाता है, लेकिन बहुभिन्नरूपी में कोई भी नहीं, तो आपको यह समझने की आवश्यकता है कि परिणाम साझा करने से पहले (ऊपर लिंग कारक एक अच्छा उदाहरण है)।


"यह देखें कि कैसे मानक R प्रतिगमन पैकेज R2 को इंटरसेप्ट के रूप में उत्पत्ति के बिना और उसके बिना गणना करता है। " जबकि यह संभावित रूप से उन लोगों से यह उम्मीद नहीं कर रहा है कि आर उस स्थिति में क्या करता है, मानक दृष्टिकोण है जो शाब्दिक रूप से हर आँकड़े सॉफ़्टवेयर में लागू होता है। पैकेज जहाँ मैंने यह जाँच की है।
जेक वेस्टफॉल

दिलचस्प। मैंने विश्लेषकों के प्रकाशित पत्रों को देखा है जो इस अंतर को नहीं समझते थे। क्या आपने इस विषय पर ऑनलाइन चर्चा की है? क्या मुझे सीवी पर एक नया प्रश्न प्रस्तुत करना चाहिए?
मैडेनकेर

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.