यहां मैं पतली बर्फ पर हूं, लेकिन मुझे कोशिश करने दें: मेरे पास एक भावना है (कृपया टिप्पणी करें!) कि सांख्यिकी और अर्थमिति के बीच एक मुख्य अंतर यह है कि आंकड़ों में हम रजिस्टरों को तय करने पर विचार करते हैं, इसलिए शब्दावली डिजाइन मैट्रिक्स जो स्पष्ट रूप से आता है प्रयोगों का डिजाइन, जहां दमन यह है कि हम पहले व्याख्यात्मक चर को चुन रहे हैं और फिर तय कर रहे हैं ।
लेकिन अधिकांश डेटा सेट, अधिकांश स्थितियों के लिए, यह एक खराब फिट है। हम वास्तव में व्याख्यात्मक चर देख रहे हैं, और इस अर्थ में वे प्रतिक्रिया चर के रूप में एक ही पायदान पर खड़े हैं, वे दोनों हमारे नियंत्रण के बाहर कुछ यादृच्छिक प्रक्रिया द्वारा निर्धारित होते हैं। विचार करकेएक्स"निश्चित" के रूप में, हम बहुत सारी समस्याओं पर विचार नहीं करने का निर्णय लेते हैं जो कि इसका कारण हो सकती हैं।
दूसरी ओर, regressors को स्टोकेस्टिक के रूप में देखते हुए, जैसा कि अर्थशास्त्री करते हैं, हम मॉडलिंग की संभावना को खोलते हैं जो इस तरह की समस्याओं पर विचार करने की कोशिश करते हैं। समस्याओं की एक छोटी सूची, जिस पर हम विचार कर सकते हैं, और मॉडलिंग में शामिल कर सकते हैं:
- रजिस्टरों में माप त्रुटियां
- रजिस्टरों और त्रुटि शर्तों के बीच संबंध
- प्रतिसाद के रूप में पिछड़ गई प्रतिक्रिया
- ...
शायद, यह अधिक बार किया जाना चाहिए कि यह आज किया जाता है?
EDIT
मैं कुछ हद तक औपचारिक रूप से regressors पर कंडीशनिंग के लिए एक तर्क को मांस देने की कोशिश करूंगा। चलो( य, एक्स) एक यादृच्छिक वेक्टर बनें, और रुचि प्रतिगमन में है Y पर एक्स, जहां प्रतिगमन का मतलब सशर्त अपेक्षा के लिए लिया जाता है Y पर एक्स। एक बहुपक्षीय मान्यताओं के तहत जो एक रैखिक कार्य होगा, लेकिन हमारे तर्क उस पर निर्भर नहीं होते हैं। हम सामान्य तरीके से संयुक्त घनत्व को फैक्टरिंग के साथ शुरू करते हैं
च( y, x ) = एफ( y| X ) च( x )
लेकिन उन कार्यों को ज्ञात नहीं है इसलिए हम एक मानकीकृत मॉडल का उपयोग करते हैं
च( y, x ; θ , ψ ) =चθ( y∣ x )चψ( x )
कहाँ पे θ सशर्त वितरण को मापता है और ψ का सीमांत वितरण एक्स। सामान्य रैखिक मॉडल में हम हो सकते हैंθ = ( β,σ2)लेकिन यह नहीं माना जाता है। का पूर्ण पैरामीटर स्थान( Θ , ψ ) है Θ × Ψएक कार्टेशियन उत्पाद, और दो मापदंडों का कोई हिस्सा नहीं है।
इसे सांख्यिकीय प्रयोग, (या डेटा निर्माण प्रक्रिया, डीजीपी) के कारक के रूप में व्याख्या की जा सकती है एक्स के अनुसार उत्पन्न होता है चψ( x ), और दूसरे चरण के रूप में, Y सशर्त घनत्व के अनुसार उत्पन्न होता है चθ( y∣ एक्स= x )। ध्यान दें कि पहला चरण किसी भी ज्ञान का उपयोग नहीं करता हैθ, जो केवल दूसरे चरण में प्रवेश करता है। आँकड़ाएक्स के लिए सहायक है θ, https://en.wikipedia.org/wiki/Ancillary_statistic देखें ।
लेकिन, पहले चरण के परिणामों के आधार पर, दूसरा चरण कम या ज्यादा जानकारीपूर्ण हो सकता है θ। यदि वितरण द्वारा दिया गया हैचψ( x ) बहुत कम विचरण करते हैं, कहते हैं, मनाया गया एक्सयह एक छोटे से क्षेत्र में केंद्रित होगा, इसलिए अनुमान लगाना अधिक कठिन होगा θ। तो, इस दो-चरण प्रयोग का पहला भाग सटीकता के साथ निर्धारित करता हैθअनुमान लगाया जा सकता है। इसलिए इस पर स्थिति स्वाभाविक हैएक्स= एक्सप्रतिगमन मापदंडों के बारे में अनुमान। यह सशर्त तर्क है, और उपरोक्त रूपरेखा इसकी धारणाओं को स्पष्ट करती है।
डिज़ाइन किए गए प्रयोगों में इसकी धारणा ज्यादातर धारण करेगी, अक्सर अवलोकन डेटा के साथ नहीं। समस्याओं के कुछ उदाहरण होंगे: भविष्यवाणियों के रूप में सुस्त प्रतिक्रियाओं के साथ प्रतिगमन। इस मामले में भविष्यवाणियों पर शर्त प्रतिक्रिया पर भी शर्त होगी! (मैं और उदाहरण जोड़ूंगा)।
एक पुस्तक जो इस समस्या पर बहुत विस्तार से चर्चा करती है, वह है सूचना और घातीय परिवार: O. E Barndorff-Nielsen द्वारा सांख्यिकीय सिद्धांत में । विशेष रूप से अध्याय 4 देखें। लेखक का कहना है कि इस स्थिति में अलगाव तर्क शायद ही कभी पता लगाया गया हो, लेकिन निम्नलिखित संदर्भ देता है: आरए फिशर (1956) सांख्यिकीय तरीके और वैज्ञानिक आविष्कार § 4.3और सेवरड्रुप (1966) निर्णय सिद्धांत और नेमन-पियर्सन सिद्धांत की वर्तमान स्थिति ।