"X में त्रुटि" मॉडल का अधिक व्यापक रूप से उपयोग क्यों नहीं किया जाता है?


11

जब हम एक प्रतिगमन गुणांक की मानक त्रुटि की गणना करते हैं, तो हम डिजाइन मैट्रिक्स में यादृच्छिकता के लिए जिम्मेदार नहीं हैं । उदाहरण के लिए OLS में, हम रूप में गणना करते हैंXvar(β^)var((XTX)1XTY)=σ2(XTX)1

यदि को यादृच्छिक माना जाता है, तो कुल विचरण का कानून, एक तरह से, के विचरण के अतिरिक्त योगदान की मांग करेगा । अर्थातXX

var(β^)=var(E(β^|X))+E(var(β^|X)).

जो, अगर ओएलएस का अनुमान लगाने वाला वास्तव में निष्पक्ष है, तो उम्मीद के मुताबिक पहला शब्द गायब हो जाता है। दूसरा शब्द वास्तव में बन जाता है: ।σ2cov(X)1

  1. यदि लिए एक पैरामीट्रिक मॉडल ज्ञात है, तो हम वास्तविक कोवरियन अनुमान के साथ को क्यों नहीं बदलते हैं । उदाहरण के लिए, यदि यादृच्छिक उपचार असाइनमेंट है, तो क्या द्विपद विचरण अधिक कुशल अनुमान होना चाहिए?XXTXएक्स(एक्स)(1-(एक्स))

  2. हम ओएलएस अनुमान में पूर्वाग्रह के संभावित स्रोतों का अनुमान लगाने के लिए लचीले नॉनपैरेमेट्रिक मॉडल का उपयोग करने पर विचार क्यों नहीं करते हैं और पहले कानून के कुल भिन्नता शब्द डिजाइन (यानी के वितरण ) की संवेदनशीलता के लिए ठीक से खाते हैं ?एक्सवर((β^|एक्स))


2
एक गणितीय कानून कुछ भी "मांग" क्यों करता है? हम विशेष उद्देश्यों को संबोधित करने के लिए डेटा के साथ तर्क करने के लिए एक मॉडल का उपयोग करते हैं। जब उन को समझते हैं या सशर्त एक विदित या मापा मूल्य के आधार पर प्रतिक्रिया की भविष्यवाणी कर रहे हैं में भिन्नता थोड़ा होता है (यदि कुछ भी) सब पर मूल प्रश्न से कोई लेना देना - वास्तव में, हमारे प्रक्रियाओं में इस बदलाव को शामिल प्रतीत होता है पूरी तरह से गलत, भ्रामक या निरर्थक होना। इसलिए आपके प्रश्न का उत्तर देना उन आवृत्तियों का आकलन करने के लिए नीचे आता है जिनके साथ विभिन्न प्रकार की सांख्यिकीय समस्याओं का सामना करना पड़ता है। एक्सएक्स,एक्स
whuber

1
@ मेरा पूरा ध्यान निष्कर्ष पर है। कुल भिन्नता का नियम अध्ययन परिणामों की लगातार व्याख्या के साथ अधिक इनलाइन लगता है। हम अक्सर "यदि अध्ययन को दोहराया गया था" की बात करते हैं ... इस तथ्य के लिए लेखांकन के बिना कि यदि अध्ययन को दोहराया गया तो का वितरण अलग हो सकता है। लिंग का संतुलन एक नमूने में 40% हो सकता है लेकिन दूसरे में 60% बस एक यादृच्छिक परिणाम के रूप में अध्ययन कैसे प्राप्त किया गया। विडंबना यह है कि बूटस्ट्रैप इसे दर्शाता है लेकिन कोवरिएट के एक विशेष संयोजन के परिणाम में कोई परिवर्तनशीलता उत्पन्न नहीं करता है। एक्स
एडमो

2
सबसे पहले, कई अध्ययनों ने को प्रायोगिक नियंत्रण में रखा , इसलिए यह यादृच्छिक भी नहीं है। दूसरा, अवलोकन संबंधी अध्ययन (जहां एक्स यादृच्छिक है) अक्सर केवल वाई के सशर्त वितरण के बारे में निष्कर्ष निकालने में रुचि रखते हैं इस प्रकार, निष्कर्ष पर ध्यान केंद्रित करने से एक स्थिति दूसरे से अलग नहीं होती है। जब पूर्ण (संयुक्त) वितरण ब्याज का होता है, तो आप कई लोगों को सहसंबंध विश्लेषण या विभिन्न बहुभिन्नरूपी प्रक्रियाओं के रूपों का सहारा लेते हुए देखेंगे। "बूटस्ट्रैप" जैसी कोई चीज नहीं है, क्योंकि इस स्थिति में आप कैसे फिर से तैयार होते हैं यह आपके उद्देश्यों के साथ-साथ आपके मॉडल पर भी निर्भर करता है। एक्सएक्सY
व्हीबर

1
@whuber प्रायोगिक नियंत्रण है बेतरतीब ढंग से अध्ययन प्रवेश द्वार पर सौंपा। जैसा कि मैंने उल्लेख किया है, यह एक सम्मोहक मामला है: मान लें कि यादृच्छिककरण बर्नौली है। अनुभवजन्य अनुमान का उपयोग क्यों करें ? अधिकतम संभावना का उपयोग करें: कोव ( एक्स ) = ( एक्स ) ( 1 - ( एक्स ) ) ? आप बूटस्ट्रैप के बारे में सही हैं, मैं गैर पैरामीट्रिक (बिना शर्त) बूटस्ट्रैप का उल्लेख कर रहा था जहां डेटा की "पंक्तियों" को प्रतिस्थापन के साथ नमूना लिया जाता है। cov(एक्स)=एक्सटीएक्सcov(एक्स)=(एक्स)(1-(एक्स))
एडमो

2
विशेष रूप से, विसंगत मामलों के बाहर, यह वास्तव में मायने नहीं रखता है यदि यादृच्छिक है, तो क्या होता है यदि X 1 में माप त्रुटि है । यदि हां, तो OLS तरीकों में से पक्षपाती और कम शक्ति के अनुमान के लिए नेतृत्व करेंगे β 1 । उस स्थिति में, चर विधियों में त्रुटियों का उपयोग किया जाना चाहिए। एक्स1एक्स1β1
गूँग - मोनिका

जवाबों:


8

आपका प्रश्न (टिप्पणियों में आगे की टिप्पणी) ज्यादातर उस मामले में रुचि रखता है, जहां हमारे पास एक यादृच्छिक नियंत्रित परीक्षण है, जहां शोधकर्ता यादृच्छिकता के कुछ उदाहरणों के आधार पर एक या एक से अधिक व्याख्यात्मक चर असाइन करता है। इस संदर्भ में, आप यह जानना चाहते हैं कि हम एक ऐसे मॉडल का उपयोग क्यों करते हैं, जो व्याख्यात्मक चर को ज्ञात स्थिरांक के रूप में व्यवहार करता है, बल्कि यादृच्छिक यादृच्छिकता द्वारा लगाए गए नमूना वितरण से यादृच्छिक चर के रूप में व्यवहार करता है। (आपका प्रश्न इससे व्यापक है, लेकिन यह टिप्पणी में प्राथमिक रुचि का मामला प्रतीत होता है, इसलिए यह वही है जिसे मैं संबोधित करूंगा।)

इस संदर्भ में व्याख्यात्मक चरों पर हमारी जो स्थिति है, वह यह है कि एक आरसीटी के लिए प्रतिगमन समस्या में, हम अभी भी भविष्यवाणियों को दिए गए प्रतिक्रिया चर के सशर्त वितरण में रुचि रखते हैं । वास्तव में, एक आरसीटी में हम प्रतिक्रिया चर वाई पर एक व्याख्यात्मक चर एक्स के कारण प्रभावों को निर्धारित करने में रुचि रखते हैं , जिसे हम सशर्त वितरण (उलझन को रोकने के लिए कुछ प्रोटोकॉल के अधीन) के बारे में अनुमान के माध्यम से निर्धारित करने जा रहे हैं। यादृच्छिकता को व्याख्यात्मक चर एक्स और किसी भी प्रकार के चर चर के बीच निर्भरता को तोड़ने के लिए लगाया जाता है (अर्थात, बैक-डोर एसोसिएशन को रोकना)। एक्सYएक्स हालांकि, समस्या में अनुमान की वस्तु अभी भी व्याख्यात्मक चर दिए गए प्रतिक्रिया चर का सशर्त वितरण है। इस प्रकार, यह अभी भी इस सशर्त वितरण में मापदंडों का अनुमान लगाने के लिए समझ में आता है, अनुमान विधियों का उपयोग करके जो सशर्त वितरण का संदर्भ देने के लिए अच्छे गुण हैं ।

यह सामान्य मामला है जो प्रतिगमन तकनीकों का उपयोग करके आरसीटी के लिए लागू होता है। बेशक, कुछ परिस्थितियां हैं जहां हमारे पास अन्य हित हैं, और हम व्याख्यात्मक चर के बारे में अनिश्चितता को शामिल करना चाहते हैं। व्याख्यात्मक चर में अनिश्चितता को शामिल करना आमतौर पर दो मामलों में होता है:

  • (१) जब हम प्रतिगमन विश्लेषण से परे और बहुभिन्नरूपी विश्लेषण में जाते हैं, तो हम रुचि रखते हैं व्याख्यात्मक और प्रतिक्रिया चर के संयुक्त वितरण में, बल्कि पूर्व में दिए गए उत्तरार्द्ध के सशर्त वितरण के बजाय। ऐसे अनुप्रयोग हो सकते हैं जहां यह हमारी रुचि है, और इसलिए हम फिर प्रतिगमन विश्लेषण से परे जाएंगे, और व्याख्यात्मक चर के वितरण के बारे में जानकारी शामिल करेंगे।

  • (2) कुछ प्रतिगमन अनुप्रयोगों में हमारी रुचि एक अंतर्निहित अप्रतिबंधित व्याख्यात्मक चर पर प्रतिक्रिया चर सशर्त के सशर्त वितरण में है, जहां हम मानते हैं कि मनाया व्याख्यात्मक चर त्रुटि ("त्रुटियों-में-चर") के अधीन था। इस मामले में हम "त्रुटियों-में-चर" के माध्यम से अनिश्चितता को शामिल करते हैं। इसका कारण यह है कि इन मामलों में हमारी रुचि सशर्त वितरण, बिना शर्त अंतर्निहित चर पर सशर्त है

ध्यान दें कि ये दोनों मामले गणितीय रूप से प्रतिगमन विश्लेषण की तुलना में अधिक जटिल हैं, इसलिए यदि हम प्रतिगमन विश्लेषण का उपयोग करके दूर हो सकते हैं, तो यह आमतौर पर बेहतर होता है। किसी भी मामले में, प्रतिगमन विश्लेषण के अधिकांश अनुप्रयोगों में, लक्ष्य को प्रतिक्रियाशील के सशर्त वितरण के बारे में एक अनुमान लगाना है, जिसे अवलोकन योग्य व्याख्यात्मक चर दिया जाता है, इसलिए ये सामान्यीकरण अनावश्यक हो जाते हैं।


ध्यान दें कि रैंडमाइजेशन चर को रैंडमाइज़ किए गए वेरिएबल से रैंडमाइज्ड वेरिएबल पर कारण प्रभाव डालता है, लेकिन यह रैंडमाइज्ड वेरिएबल से कन्फ्यूजिंग वेरिएबल्स और फिर रिस्पांस के लिए कारण संबंधी प्रभावों को गंभीर नहीं करता है। इसका मतलब यह है कि अन्य प्रोटोकॉल (जैसे, प्लेबोस, ब्लाइंडिंग, आदि) को एक कारण विश्लेषण में सभी बैक-डोर संघों को पूरी तरह से अलग करने की आवश्यकता हो सकती है।


2
अच्छा उत्तर। मुझे लगता है कि अगर आप गाऊसी त्रुटियों में चर और गाऊसी त्रुटि में सामान्य प्रतिक्रिया विधि काम करता है की तुलना में प्रतिक्रिया है कि यह AFAIK जोड़ देगा और यह केवल एक मुद्दा बन जाता है अगर आप) त्रुटि के बिना मनाया प्रतिक्रिया ख) एक अलग वितरण वितरण है
मार्टिन मोदक

2

शीर्षक "चर में त्रुटियां" और प्रश्न की सामग्री अलग-अलग लगती है, क्योंकि यह इस बारे में पूछता है कि हम सशर्त प्रतिक्रिया को मॉडलिंग करते समय एक्स में भिन्नता को ध्यान में नहीं रखते हैं , अर्थात् प्रतिगमन मापदंडों के लिए निष्कर्ष। वे दो पूर्वाग्रह मुझे रूढ़िवादी लगते हैं, इसलिए यहां मैं सामग्री पर प्रतिक्रिया देता हूं।

मैंने पहले भी इसी तरह के सवाल का जवाब दिया है, रजिस्टरों पर कंडीशनिंग के बीच क्या अंतर है? , इसलिए यहां मैं अपने उत्तर के भाग की प्रतिलिपि बनाऊंगा:

मैं कुछ हद तक औपचारिक रूप से regressors पर कंडीशनिंग के लिए एक तर्क को मांस देने की कोशिश करूंगा। आज्ञा देना (Y,एक्स) एक यादृच्छिक वेक्टर है, और ब्याज एक्स पर प्रतिगमन Y है , जहां प्रतिगमन का मतलब एक्स पर वाई की सशर्त अपेक्षा से लिया जाता है । एक बहुपक्षीय मान्यताओं के तहत जो एक रैखिक कार्य होगा, लेकिन हमारे तर्क उस पर निर्भर नहीं होते हैं। हम हमेशा की तरह संयुक्त घनत्व बाँटे के साथ शुरू ( y , x ) = ( y | x ) ( एक्स )एक्सYएक्स

(y,एक्स)=(y|एक्स)(एक्स)
लेकिन उन कार्यों ज्ञात नहीं हैं तो हम एक पैरामिट्रीकृत मॉडल का उपयोग
(y,एक्स;θ,ψ)=θ(y|एक्स)ψ(एक्स)
जहां θ सशर्त वितरण parameterizes और ψ के सीमांत वितरण एक्स । सामान्य रेखीय मॉडल में हम कर सकते हैं θ=(β,σ2) लेकिन वह नहीं माना जाता है। से भरा पैरामीटर अंतरिक्ष (θ,ψ) हैΘ×Ψ , एक कार्तीय उत्पाद, और दो पैरामीटर आम में कोई हिस्सा नहीं है।

इसे सांख्यिकीय प्रयोग के एक कारक के रूप में समझा जा सकता है, (या डेटा निर्माण प्रक्रिया, DGP), पहले एक्स को ψ(एक्स) अनुसार उत्पन्न किया जाता है , और दूसरे चरण के रूप में, Y , सशर्त घनत्व θ(y|एक्स=एक्स) अनुसार उत्पन्न होता है। θ ( y | एक्स = एक्स ) । ध्यान दें कि पहले कदम के बारे में कोई जानकारी का उपयोग नहीं करता θ , कि केवल दूसरे चरण में प्रवेश करती है। आँकड़ों एक्स के लिए सहायक है θ , देख https://en.wikipedia.org/wiki/Ancillary_statistic

लेकिन, पहले कदम के परिणामों पर निर्भर करता है, दूसरे चरण के बारे में और अधिक या कम जानकारी हो सकता है θ । वितरण के द्वारा दिए गए हैं ψ(एक्स) बहुत कम विचरण है, कहते हैं, जिसके तहत अवलोकन एक्स के एक छोटे से क्षेत्र में, केंद्रित किया जाएगा, ताकि यह अनुमान लगाने के लिए और अधिक कठिन हो जाएगा θ । तो, यह दो कदम प्रयोग के पहले भाग परिशुद्धता जिसके साथ निर्धारित करता है θ अनुमान लगाया जा सकता। इसलिए प्रतिगमन मापदंडों के बारे में अनुमान में एक्स=एक्स पर स्थिति होना स्वाभाविक है । यह सशर्त तर्क है, और उपरोक्त रूपरेखा इसकी धारणाओं को स्पष्ट करती है।

डिज़ाइन किए गए प्रयोगों में इसकी धारणा ज्यादातर धारण करेगी, अक्सर अवलोकन डेटा के साथ नहीं। समस्याओं के कुछ उदाहरण होंगे: भविष्यवाणियों के रूप में सुस्त प्रतिक्रियाओं के साथ प्रतिगमन। इस मामले में भविष्यवाणियों पर शर्त प्रतिक्रिया पर भी शर्त होगी! (मैं और उदाहरण जोड़ूंगा)।

§4.3


θएक्सθएक्सθ

यह पृथक्करण तर्क सहायक भी है क्योंकि यह उन मामलों की ओर इशारा करता है जहाँ इसका उपयोग नहीं किया जा सकता है, उदाहरण के लिए प्रतिगामी के रूप में पिछड़ी हुई प्रतिक्रियाओं के साथ प्रतिगमन।


1
एक्सYθψ

मैं PLS के बारे में नहीं जानता, लेकिन इसके बारे में सोचने की कोशिश करूँगा
kjetil b halvorsen

1
अच्छा जवाब! ...
रिचर्ड हार्डी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.