मैं जानता हूं कि सहसंबंध का अर्थ कार्य-कारण नहीं है, बल्कि संबंध की मजबूती और दिशा है। क्या सरल रेखीय प्रतिगमन सामान्य कारण है? या इसके लिए एक अनुमान (टी-टेस्ट, आदि) सांख्यिकीय परीक्षण आवश्यक है?
मैं जानता हूं कि सहसंबंध का अर्थ कार्य-कारण नहीं है, बल्कि संबंध की मजबूती और दिशा है। क्या सरल रेखीय प्रतिगमन सामान्य कारण है? या इसके लिए एक अनुमान (टी-टेस्ट, आदि) सांख्यिकीय परीक्षण आवश्यक है?
जवाबों:
त्वरित जवाब है नहीं। आप आसानी से गैर-संबंधित डेटा के साथ आ सकते हैं कि जब वापस आ जाए, तो सभी प्रकार के सांख्यिकीय परीक्षण पास कर लेंगे। नीचे विकिपीडिया से एक पुरानी तस्वीर है (जो, किसी कारण से हाल ही में हटा दी गई है) जिसका उपयोग डेटा-चालित "कारण" को दर्शाने के लिए किया गया है।
ग्रह को ठंडा करने के लिए हमें और अधिक समुद्री डाकू चाहिए?
समय श्रृंखला के लिए, "ग्रेंजर कॉजेलिटी" नामक एक शब्द है जिसका एक बहुत विशिष्ट अर्थ है।
http://en.wikipedia.org/wiki/Granger_causality
इसके अलावा, "कारण" देखने वाले की नजर में है।
प्रतिगमन की गणित में कुछ भी स्पष्ट नहीं है जो राज्य के कारण संबंधों को दर्शाता है, और इसलिए किसी को ढलान (ताकत और दिशा) की स्पष्ट रूप से व्याख्या करने की आवश्यकता नहीं है और न ही पी-मान (यानी संभावना एक संबंध जितना मजबूत या मजबूत होता है, अगर देखा गया होता तो संबंध कारण में जनसंख्या में शून्य थे)।
यह कहा जा रहा है, मैं कहूंगा कि प्रतिगमन का अधिक मजबूत अर्थ है कि एक स्पष्ट दिशात्मक संबंध का अनुमान लगा रहा है जो दो चर के बीच संबंध का अनुमान लगाता है। सहसंबंध द्वारा मान लेने का मतलब है कि आप पीयर्सन के आर हैं , इसमें आमतौर पर एक स्पष्ट कारण व्याख्या नहीं होती है क्योंकि मीट्रिक सममित है (यानी आप स्विच कर सकते हैं कि कौन सा चर X है और जो Y है और आपके पास अब भी वही माप होगा)। इसके अलावा बोलचाल की भाषा "सहसंबंध का अर्थ कार्य नहीं होता है" मुझे संदेह है कि यह अच्छी तरह से ज्ञात है कि दो चर बताते हुए सहसंबद्ध माना जाता है कि एक कारण बयान नहीं कर रहा है।
प्रतिगमन में अनुमानित प्रभाव विश्लेषण हालांकि सममित नहीं है, और इसलिए यह चुनकर कि चर दाहिने हाथ की तरफ बनाम बाएं हाथ की तरफ एक है जो सहसंबंध के विपरीत एक अंतर्निहित बयान कर रहा है। मुझे संदेह है कि किसी का भी उद्देश्य है कि जिन परिस्थितियों में प्रतिगमन का उपयोग किया जाता है, उनमें से अधिकांश में कुछ कारणवश बयान दिया जा सकता है। यहां तक कि बस सहसंबंधों के मामलों में भी मुझे संदेह है कि लोगों के मन में अक्सर कारण के अनुमान के कुछ निहित लक्ष्य होते हैं। कुछ बाधाओं को देखते हुए सहसंबंध पूरा किया जा सकता है, इसका कारण यह हो सकता है !
न तो सहसंबंध और न ही प्रतिगमन कार्य-कारण का संकेत कर सकता है (जैसा कि @ बिल_080 के उत्तर द्वारा चित्रित किया गया है) लेकिन जैसा कि @Andy W इंगित करता है कि प्रतिगमन अक्सर स्पष्ट रूप से तय (यानी, स्वतंत्र) चर और एक स्पष्ट (यानी: यादृच्छिक) निर्भर चर पर आधारित होता है। सहसंबंध विश्लेषण में ये पदनाम उपयुक्त नहीं हैं।
सोकल और रोहेल, 1969 को उद्धृत करने के लिए, पी। 496
"प्रतिगमन में हम एक चर की निर्भरता का वर्णन करने का इरादा Y एक स्वतंत्र चर पर एक्स ... में परिवर्तन के संभावित करणीय के बारे में परिकल्पना को समर्थन देने के लिए वाई में परिवर्तन से एक्स ..."
"सहसंबंध में, इसके विपरीत, हम बड़े पैमाने पर चिंतित हैं कि क्या दो चर अन्योन्याश्रित या सहसंयोजक हैं - जो एक साथ भिन्न होते हैं। हम एक को दूसरे के कार्य के रूप में व्यक्त नहीं करते हैं।"
सोकल, आरआर और एफजे रोहेल, 1969. बायोमेट्री। फ्रीमैन एंड कं।
सिमेंटिक दृष्टिकोण से, एक वैकल्पिक लक्ष्य कार्य-कारण सिद्ध करने के बजाय एक अच्छी भविष्य कहनेवाला मॉडल के लिए साक्ष्य का निर्माण करना है। एक प्रतिगमन मॉडल के अनुमानित मूल्य के लिए साक्ष्य के निर्माण के लिए एक सरल प्रक्रिया आपके डेटा को 2 भागों में विभाजित करना है और डेटा के एक हिस्से के साथ अपने प्रतिगमन को फिट करना है और डेटा परीक्षण के दूसरे भाग के साथ यह कितनी अच्छी तरह से भविष्यवाणी करता है।
ग्रेंजर कारण की धारणा दिलचस्प है।
जहाँ Var (।) और Cov (।) नमूने (डेटा) से अनुमान लगाया जाता है।
नतीजतन, ये पैरामीटर स्वयं एक्स और वाई के बीच सहसंबंध के कुछ कार्यों के अलावा और कुछ नहीं हैं। विशेष रूप से, बीटा सिर्फ एक "सामान्यीकृत" सहसंबंध गुणांक है। इसलिए, सहसंबंध की तुलना में उपचार में प्रतिगमन में कोई अधिक निहित कारण नहीं है। कारण प्रतिगमन अर्थमिति में एक विशेष तकनीक है, जहां किसी भी विशेष प्रतिगमन मॉडल के कारण की व्याख्या को अस्पष्ट करने वाले घटनाओं के आसपास प्राप्त करने के लिए उदाहरण के लिए वाद्य चर पर निर्भर रहना होगा।
मेरी बात है: प्रतिगमन किया जा सकता है बनाया कारण है, लेकिन यह है नहीं y डिफ़ॉल्ट कारण।
अधिक वीडियो के लिए ये देखें: https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz/index=55&t=0s
रुबिन द्वारा "रुबिन मॉडल": http://www.stat.columbia.edu/~cook/qr33.pdf
कारण पर महान परिचयात्मक पाठ्यक्रम (हालांकि, कोई प्रतिगमन अभी तक): https://www.coursera.org/learn/crash-course-in-causality
मेरी समझ (मैं एक कारण शुरुआत हूं) निम्नलिखित है:
रैखिक प्रतिगमन कार्यशीलता का तात्पर्य है यदि आपके सहसंयोजक एक नियंत्रित प्रयोग से हैं, और आपका प्रयोग उपकल्पित कारण कारक को अच्छी तरह से अलग करता है ( एक यादृच्छिक नियंत्रित प्रयोग में रैखिक प्रतिगमन और कारण देखें )।
वैकल्पिक रूप से, (टिप्पणियों के लिए अद्यतन धन्यवाद), कार्य-कारण के कई उल्लंघन होते हैं । ध्यान दें कि इसका मतलब है कि हम कारण निष्कर्ष नहीं निकाल सकते हैं, लेकिन इसका मतलब यह नहीं है कि हम कर सकते हैं।
ध्यान दें कि क्या हम परीक्षण नहीं कर सकते हैं , और यहाँ के तर्कों में कुछ गोलाकारता है।
Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....
Worse yet is when two variable have a feedback loop. One may cause the other at one point; only for the other to cause the one, later. This always happens in my field, economics: which is why most economic analysis isn't worth the paper it is printed on.