जब डेटा का आकार विशाल होता है तो प्रतिगमन में सांख्यिकीय महत्व क्या होता है?


13

मैं इस सवाल को बड़े पैमाने पर प्रतिगमन ( लिंक ) के बारे में पढ़ रहा था, जहां व्हीबर ने एक दिलचस्प बिंदु बताया है:

"आपके द्वारा चलाए जाने वाले लगभग कोई भी सांख्यिकीय परीक्षण इतना शक्तिशाली होगा कि" महत्वपूर्ण "प्रभाव की पहचान करना लगभग सुनिश्चित हो जाएगा। आपको महत्व के बजाय सांख्यिकीय महत्व, जैसे प्रभाव आकार, पर अधिक ध्यान केंद्रित करना होगा।"

--- व्हीबर

मैं सोच रहा था कि क्या यह कुछ ऐसा है जिसे साबित किया जा सकता है या व्यवहार में कुछ सामान्य घटनाएं हो सकती हैं?

प्रमाण / चर्चा / अनुकरण के लिए कोई भी सूचक वास्तव में सहायक होगा।


1
प्रभाव आकार मायने रखता है। (+1 ग्लेन_ब के जवाब के लिए)। एक त्वरित उदाहरण देने के लिए: यदि हम मोटे थे तो हम अपने मौजूदा आहार को एक और अधिक महंगे आहार में नहीं बदलेंगे, अगर इसके परिणामस्वरूप एक महीने के बाद 0.05 किलोग्राम वजन कम हो जाता है, भले ही इसमें -value । हम अभी भी मोटे होंगे, बस गरीब हैं। हम सभी जानते हैं कि स्वास्थ्य-क्लिनिक की वजह से इतनी कम वजन की कमी हो सकती है कि रिकॉर्डिंग जहां एक इमारत की जमीन से बिना किसी लिफ्ट के उसी मंजिल की चौथी मंजिल तक चलती है। (अच्छा सवाल + 1)00 0.0000000001p0.0000000001
usεr11852

जवाबों:


10

यह बहुत सामान्य है।

कल्पना कीजिए कि एक छोटा, लेकिन गैर-शून्य प्रभाव है (यानी शून्य से कुछ विचलन जो परीक्षण लेने में सक्षम है)।

छोटे नमूने के आकार पर, अस्वीकार करने का मौका I प्रकार की त्रुटि दर (शोर छोटे प्रभाव पर हावी होता है) के बहुत करीब होगा।

जैसा कि नमूना आकार बढ़ता है अनुमानित प्रभाव को उस जनसंख्या प्रभाव में परिवर्तित करना चाहिए, जबकि एक ही समय में अनुमानित प्रभाव की अनिश्चितता सिकुड़ जाती है (सामान्य रूप से ), जब तक कि संभावना नहीं है कि शून्य स्थिति अनुमानित प्रभाव के काफी करीब है। यह अभी भी आबादी से बेतरतीब ढंग से चयनित नमूने में प्रशंसनीय है, प्रभावी रूप से शून्य तक कम हो जाता है।n

जो कहना है, बिंदु नल के साथ, अंततः अस्वीकृति निश्चित हो जाती है, क्योंकि लगभग सभी वास्तविक स्थितियों में अनिवार्य रूप से हमेशा नल से कुछ विचलन होने वाला है।


"... क्योंकि लगभग सभी वास्तविक स्थितियों में अनिवार्य रूप से नल से विचलन की कुछ मात्रा हमेशा होती है।" तो यह वहाँ है और एक भी इसे देख सकता है। यह एक अच्छा संपत्ति होगी या यह नहीं होगा?
ट्रिलियन

यहाँ "नल" शून्य परिकल्पना को संदर्भित करता है कि गुणांक शून्य के बराबर है?
अरश हावैडा

मुझे लगता है कि Glen_b का उत्तर सामान्य है और किसी बिंदु पर चर्चा के साथ किसी भी परिकल्पना परीक्षण के लिए लागू है। प्रतिगमन के संदर्भ में, हाँ, शून्य यह है कि गुणांक शून्य के बराबर है। हालांकि मेरी अपनी समझ ...
Bayesric

4

यह एक सबूत नहीं है, लेकिन व्यवहार में नमूना आकार के प्रभाव को दिखाना मुश्किल नहीं है। मैं मामूली बदलाव के साथ विलकॉक्स (2009) से एक सरल उदाहरण का उपयोग करना चाहूंगा:

कल्पना करें कि चिंता के सामान्य उपाय के लिए, एक शोधकर्ता का दावा है कि कॉलेज के छात्रों की आबादी कम से कम 50 है। इस दावे पर एक जाँच के रूप में, मान लें कि दस कॉलेज के छात्रों को यादृच्छिक रूप से परीक्षण के लक्ष्य के साथ नमूना लिया गया है with । (विलकॉक्स, 2009: 143)α = .05H0:μ50α=.05

हम इस विश्लेषण के लिए टी-टेस्ट का उपयोग कर सकते हैं:

T=X¯μos/n

मान लें कि नमूना माध्य ( ) 45 है और नमूना मानक विचलन ( ) 11 है, एसX¯s

T=455011/10=1.44.

आप युक्त एक मेज को देखें, तो विद्यार्थी का के महत्वपूर्ण मूल्यों के साथ वितरण स्वतंत्रता की डिग्रीtν है, तो आप उस के लिए देखेंगे , । इसलिए , हम अशक्त परिकल्पना को अस्वीकार करने में विफल हैं। अब, मान लें कि हमारे पास समान नमूना माध्य और मानक विचलन है, लेकिन इसके बजाय 100 अवलोकनों:v=101P(T1.83)=.05T=1.44

T=455011/100=4.55

के लिए , , हम अस्वीकार कर सकते हैं शून्य परिकल्पना। बाकी सब कुछ स्थिर रखने के लिए, नमूना का आकार बढ़ाने से भाजक कम हो जाएगा और आपको नमूना वितरण के महत्वपूर्ण (अस्वीकृति) क्षेत्र में मान होने की संभावना होगी। ध्यान दें कि माध्य की मानक त्रुटि का अनुमान है। तो, आप देख सकते हैं कि कैसे एक समान व्याख्या लागू होती है, उदाहरण के लिए, रेखीय प्रतिगमन में प्राप्त प्रतिगमन गुणांक पर परिकल्पना परीक्षण, जहां ।v=1001P(T1.66)=.05s/nT=β^jβj(0)se(β^j)


विलकॉक्स, आरआर, 2009. बुनियादी सांख्यिकी: पारंपरिक तरीकों और आधुनिक अंतर्दृष्टि को समझना । ऑक्सफोर्ड यूनिवर्सिटी प्रेस, ऑक्सफोर्ड।


1
जवाब के लिए धन्यवाद। आपका उत्तर Glen_b के उत्तर का एक ठोस डेमो प्रदान करता है: जब नमूना का आकार बहुत बड़ा होता है, तो नल से छोटे विचलन (व्यवहार में हमेशा छोटे विचलन होते हैं) को महत्वपूर्ण प्रभाव के रूप में कैप्चर किया जाएगा।
बायसेरिक

2

प्रतिगमन में, समग्र मॉडल के लिए, परीक्षण F. Here पर है

F=RSS1RSS2p2p1RSS2np2
जहाँ RSS वर्ग का अवशिष्ट योग है और p मापदंडों की संख्या है। लेकिन, इस प्रश्न के लिए, निचले हर में कुंजी N है। कोई फर्क नहीं पड़ता कि , कितने करीब है , जब N बड़ा हो जाता है, F बड़ा हो जाता है। इसलिए, F को महत्वपूर्ण होने तक N को बढ़ाएं।RSS1RSS2

1
जवाब के लिए धन्यवाद। हालांकि, मुझे "जब एन बड़ा हो जाता है, एफ बड़ा हो जाता है" के बारे में संदेह है; जब N बढ़ता है, तो RSS2 भी बढ़ता है, यह मेरे लिए स्पष्ट नहीं है कि F बड़ा क्यों होगा।
बेयसिक्री

@Peter Flom यह अवास्तविक है, लेकिन क्या आप यहां एक नज़र डाल सकते हैं। आँकड़े .stackexchange.com
questions/
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.