हम बोलचाल की भाषा कब बोल सकते हैं


16

रैखिक मॉडल में हमें यह जांचने की आवश्यकता है कि क्या व्याख्यात्मक चर के बीच एक संबंध मौजूद है। यदि वे बहुत अधिक सहसंबंधित होते हैं तो कोलिनैरिटी (यानी, चर एक दूसरे को आंशिक रूप से समझाते हैं)। मैं वर्तमान में केवल व्याख्यात्मक चर के बीच युग्म के सहसंबंध को देख रहा हूं।

प्रश्न 1: क्या बहुत अधिक सहसंबंध के रूप में वर्गीकृत करता है? उदाहरण के लिए, क्या पीयरसन सहसंबंध 0.5 का बहुत अधिक है?

प्रश्न 2: क्या हम पूरी तरह से यह निर्धारित कर सकते हैं कि सहसंबंध गुणांक के आधार पर दो चर के बीच सामंजस्य है या यह अन्य कारकों पर निर्भर करता है?

प्रश्न 3: क्या दो चर के बिखरने की चित्रमय जाँच से कुछ भी जुड़ता है जो सहसंबंध गुणांक इंगित करता है?


2
3+ चर के बीच Collinearity (एकवचन) केवल उच्च जोड़ीदार सहसंबंधों के लिए कम नहीं है। "मल्टीकोलिनरिटी" टैग किए गए प्रश्नों के लिए साइट खोजें। इसके अलावा, मैं आपको यह मेरा जवाब पढ़ने के लिए सलाह देता हूं: सांख्यिकी.स्टैकएक्सचेंज . com / a / 70910 / 3277
ttnphns

जवाबों:


15
  1. आर=1.0आर=.50आर.95एक बहु प्रतिगमन मॉडल में सहसंबद्ध भविष्यवाणियों के होने का क्या प्रभाव है?

  2. आर.95

  3. यह आपके डेटा को देखने के लिए हमेशा स्मार्ट होता है, न कि केवल संख्यात्मक सारांश / परीक्षा परिणाम। यहाँ विहित संदर्भ Anscomb की चौकड़ी है


3

तीन सवालों पर मेरी राय है

प्रश्न 1 क्या बहुत अधिक सहसंबंध के रूप में वर्गीकृत करता है? उदाहरण के लिए: 0.5 का एक पीयरसन सहसंबंध बहुत अधिक है?

कई लेखकों का तर्क है कि (बहु) समस्वरता कोई समस्या नहीं है। इस विषय पर अधिक एसिड राय के लिए यहां और यहां एक नज़र डालें । लब्बोलुआब यह है कि बहुस्तरीयता का कम (प्रभावी) नमूना आकार होने के अलावा परिकल्पना परीक्षण पर कोई प्रभाव नहीं पड़ता है। उदाहरण के लिए, यदि आप एक प्रतिगमन करते हैं, तो प्रतिगमन गुणांक की व्याख्या करना आपके लिए कठिन होगा, लेकिन यदि आप ऐसा करना चुनते हैं तो आप किसी भी बुनियादी धारणा का उल्लंघन नहीं करते हैं।

प्रश्न 2 क्या हम पूरी तरह से यह निर्धारित कर सकते हैं कि सहसंबंध गुणांक के आधार पर दो चर के बीच सामंजस्य है या यह अन्य कारकों पर निर्भर करता है?

मुझे लगता है कि पियरसन के सहसंबंध गुणांक (यदि आप रैखिकता मान लेते हैं, और जाहिर है आपने ऐसा किया है) की गणना करने से लेकर स्पीयरमैन के रैंक , दूरी सहसंबंध और यहां तक ​​कि अपने डेटासेट पर पीसीए करने के बीच दो चर के बीच संबंध को मापने के कई तरीके हैं । लेकिन मैं इस सवाल का जवाब अपने से बेहतर सूचित लोगों पर छोड़ दूंगा।

प्रश्न 3 क्या दो चर के बिखरे हुए भूखंड की चित्रमय जाँच से कुछ भी जुड़ता है जो सहसंबंध गुणांक इंगित करता है?

IMO, उत्तर ध्वनि नहीं है।


3
IMHO, (3) का उत्तर बहुत मजबूत हां के विपरीत है: जबकि सहसंबंध गुणांक किसी रिश्ते की रैखिकता का केवल एक ही संख्यात्मक मूल्यांकन दे सकता है, स्कैटलपॉट पर एक त्वरित नज़र उस बारे में अतिरिक्त जानकारी का खजाना प्रदान करेगी संबंध, पहले से अपेक्षित नहीं थे व्यवहार सहित। हालांकि, प्रश्नों के इस सेट में वास्तविक रुचि तीन या अधिक चर (कैसे (3) वास्तव में संपन्न थी) के बावजूद रिश्तों का आकलन करने में निहित है, और उस मामले में भी एक स्कैटलपॉट मैट्रिक्स सब कुछ प्रकट नहीं करता है, जैसा कि @ttnphns नोट्स।
whuber

1
जहाँ तक (1) जाता है, मैंने आपके संदर्भ (डेव गाइल के ब्लॉग पर) को अलग-अलग तरीके से पढ़ा: उनका तर्क है कि मल्टीकोलिनरिटी का औपचारिक परीक्षण गुमराह करने वाला है। मैं उसे यह दावा करते हुए नहीं देखता कि बहुसंस्कृतिवाद कोई समस्या नहीं है।
whuber

डेव गाइल के जवाब के बारे में मेरी समझ यह है कि मल्टीकोलिनरिटी का एकमात्र तरीका परिणाम को एक छोटे आकार के बराबर आकार के माध्यम से प्रभावित करेगा। तो जैसे यह छोटे नमूने के आकार के लिए परीक्षण करने के लिए कोई मतलब नहीं है, यह multicollinearity के प्रभाव का परीक्षण करने के लिए कोई मतलब नहीं है। लेकिन मुझे इस पर आपकी राय सुनकर खुशी होगी, शायद मैंने इसे गलत समझा।
पीडोफ्रेगाइरा

खैर, एक बड़े नमूने के आकार की आवश्यकता अधिकांश अध्ययनों के लिए एक बड़ा प्रभाव हो सकता है! निकट-कोलीनियरिटी चिंताओं का एक सूक्ष्म प्रभाव मॉडल निर्माण और परिवर्तनशील चयन, जैसा कि थ्रेड्स में चर्चा ( इंटर एलिया ) के रूप में होता है, जैसे कि आँकड़े ।stackexchange.com/questions/50537 और आँकड़े . stackexchange.com/a-28476/919 । लेकिन यह सुनिश्चित करें कि हम उन्हीं चीजों के बारे में बात कर रहे हैं: गिल्स मल्टीकोलिनरिटी के औपचारिक परीक्षणों पर चर्चा कर रहे हैं, जैसे कि स्वतंत्र चर को बेतरतीब ढंग से नमूना लिया गया था। यहां एक मॉडल की क्षमताओं और सीमाओं को समझने के लिए मल्टीकोलिनरिटी डायग्नोस्टिक्स के उपयोग पर ध्यान केंद्रित किया गया है ।
whuber

1

संपार्श्विकता का मूल्यांकन करने का एक सामान्य तरीका प्रसरण मुद्रास्फीति कारकों (VIF) के साथ है। यह 'कार' पैकेज के भीतर 'vif' फ़ंक्शन का उपयोग करके R में प्राप्त किया जा सकता है। इसका दो चर के बीच केवल सहसंबंधों को देखने पर एक फायदा है, क्योंकि यह एक साथ मॉडल में एक चर और बाकी चर के बीच संबंध का मूल्यांकन करता है। यह तब आपको मॉडल में प्रत्येक भविष्यवक्ता के लिए एक एकल स्कोर देता है।

जैसा कि ऊपर कहा गया है कि कोई कठिन और तेज कटऑफ नहीं है, लेकिन 5-10 के बीच होने पर वीआईएफ स्कोर अक्सर समस्याग्रस्त होने का निर्णय लिया जाता है। मैं इसके लिए अंगूठे के क्षेत्र विशिष्ट नियमों का उपयोग करता हूं। इसके अलावा- सहसंबंधित भविष्यवक्ताओं के उपयोग के बारे में आवश्यक रूप से कुछ भी अमान्य नहीं है (इसलिए जब तक वे पूरी तरह से सहसंबद्ध नहीं हैं)। आपको अलग-अलग प्रभावों के लिए अधिक डेटा की आवश्यकता होगी। जब आपके पास पर्याप्त डेटा नहीं होगा तो सहसंबद्ध भविष्यवाणियों के पैरामीटर अनुमानों में बड़ी अनिश्चितता होगी, और ये अनुमान फिर से नमूने के लिए संवेदनशील होंगे।

अपने सवालों के जवाब देने के लिए विशेष रूप से:

  1. सहसंबंध गुणांक का उपयोग न करें। सभी भविष्यवक्ताओं और कोई बातचीत के साथ मॉडल के VIF का उपयोग करें। 5-10 के VIF बहुत अधिक सहसंबंध का संकेत दे रहे हैं, आपका विशिष्ट कटऑफ इस बात पर निर्भर करता है कि आपको मॉडल के साथ क्या करने की आवश्यकता है।

  2. यह मॉडल में अन्य भविष्यवाणियों पर निर्भर करता है, यही वजह है कि वीआईएफ का उपयोग करना फायदेमंद है।

  3. नहीं! आंकड़े बेहतर तरीके से बताएंगे कि आप तितर बितर साजिश के साथ क्या कर रहे हैं। जब तक कि एक-दूसरे के खिलाफ अपने भविष्यवक्ताओं को पुनः प्राप्त करते समय ओएलएस की मान्यताओं का सुपर उल्लंघन न हो।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.