जब आप भविष्यवाचक चर होते हैं तो आप क्या कर सकते हैं जो विभिन्न नमूना आकारों के समूह औसत पर आधारित होते हैं?

शास्त्रीय डेटा विश्लेषण समस्या पर विचार करें जहां आपके पास एक परिणाम और यह किस तरह से कई भविष्यवक्ताओं । यहां ध्यान में रखने वाला मूल प्रकार यह है $Y_{i}$ $X_{i1}, ..., X_{ip}$

$Y_{i}$ कुछ समूह-स्तरीय परिणाम हैं जैसे शहर में अपराध दर । $i$
भविष्यवक्ताओं इस तरह शहर के जनसांख्यिकीय सुविधाओं के रूप में समूह स्तर विशेषताएं हैं । $i$

मूल लक्ष्य एक प्रतिगमन मॉडल फिट करना है (शायद यादृच्छिक प्रभावों के साथ लेकिन अभी के लिए भूल जाओ):

E (Y_{i} | X_{i}) = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p}

$E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip}$

क्या कुछ तकनीकी कठिनाई उत्पन्न होती है जब भविष्यवक्ताओं में से एक (या अधिक) एक सर्वेक्षण का परिणाम होता है जिसमें प्रत्येक इकाई के लिए अलग-अलग नमूना आकार होते हैं? उदाहरण के लिए, मान लीजिए शहर के लिए एक सारांश स्कोर है उस शहर से व्यक्तियों के उदाहरण से औसत प्रतिक्रिया है लेकिन नमूना आकार इन औसत पर आधारित थे बेतहाशा अलग हैं: $X_{i1}$ $i$ $i$

\begin{array}{cc} C i t y & S a m p l e s i z e \\ 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ ⋮ & ⋮ \end{array}

$\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}$

चूंकि भविष्यवक्ता चर सभी का एक ही अर्थ नहीं है, कुछ अर्थों में, प्रत्येक शहर के लिए, मुझे डर है कि एक प्रतिगमन मॉडल में इन चरों पर कंडीशनिंग के रूप में हालांकि वे सभी "समान बनाए गए" कुछ भ्रामक इनफ़ॉर्मेशन पैदा कर सकते हैं।

क्या इस प्रकार की समस्या का कोई नाम है? यदि हां, तो क्या इस पर शोध किया जाना है?

मेरा विचार है कि इसे त्रुटि के साथ मापा गया एक पूर्वसूचक चर के रूप में समझो और इन पंक्तियों के साथ कुछ करो लेकिन माप त्रुटियों में विषमता है, ताकि यह बहुत जटिल हो। मैं इस गलत तरीके के बारे में सोच सकता था या इसे इससे अधिक जटिल बना सकता था लेकिन यहां कोई भी चर्चा उपयोगी होगी।

regression measurement-error errors-in-variables

— मैक्रो
स्रोत

इसे "हेटेरोसिस्टैस्टिक एरर्स-इन-चर" समस्या कहा जाता है। (यह वाक्यांश Google खोज के लिए एक अच्छा लक्ष्य है।) हाल ही में (2007), डेलिगेल और मिस्टर ने एक जेएएसए लेख में एक गैरपारंपरिक कर्नेल घनत्व अनुमानक का प्रस्ताव दिया । कुछ पैरामीट्रिक तरीकों (क्षणों और एमएलई की विधि) के बारे में एक सार कुछ अतिरिक्त दृष्टिकोणों का सुझाव देता है: scirectirect.com/science/article/pii/S1572312709000045 । (मैं अनुसंधान आप कैसे अपने विशेष डाटासेट संभाल करने के बारे में एक आधिकारिक जवाब देने के लिए साथ परिचित नहीं हूँ।)

— whuber

@whuber +1 दोनों टिप्पणियों के लिए। मुझे लगता है कि "त्रुटि-में-चर" वह अनुपलब्ध कीवर्ड था जिसकी मुझे तलाश थी। अगर कोई भी नीचे एक मजबूत जवाब नहीं देता है कि मैं स्वीकार कर सकता हूं तो मैं साहित्य में देखूंगा और जवाब के रूप में जो कुछ भी कर रहा हूं उसे पोस्ट करने के लिए वापस आऊंगा।

— मैक्रों

जवाबों:

पेपर "एक विषम संरचनात्मक त्रुटियों में समीकरण त्रुटि के साथ चर मॉडल" लेखक के पेज पर डाउनलोड किया जा सकता है:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

मूल रूप से आपको असंगत अनुमानकों, गैर-विश्वसनीय परिकल्पना परीक्षणों और आत्मविश्वास अंतरालों से बचने के लिए दोनों चर की परिवर्तनशीलता को ध्यान में रखना चाहिए।

— अलेक्जेंड्रे पैट्रियोटा
स्रोत

$σ^2$ $X_i$ $σ^2/n_i$ $n_i$ $i$

— माइकल आर
स्रोत

यह उचित लगता है, हालांकि मैं माप त्रुटि को मॉडल करने से बचने की उम्मीद कर रहा था। अगर मैं उस दिशा में गया, तो आप त्रुटि के साथ मापा गया एक भविष्यवक्ता के प्रभाव का अनुमान लगाने के लिए क्या उपयोग करेंगे? मैंने SIMEX नामक एक विधि का उपयोग किया है, लेकिन यह असामान्य प्रतीत होता है और मैं सोच रहा हूं कि क्या अन्य विकल्प हैं।

— मैक्रो

@ मैक्रो मैं अनुमान लगाने के लिए विचरण समारोह के साथ मॉडलिंग प्रतिगमन के लिए विशिष्ट सॉफ्टवेयर से परिचित नहीं हूं।

— माइकल आर। चेरिक जूल

मैक्रो, होमोसिस्टेस्टिक एरर्स-इन-वैरिएबल रिग्रेशन में अंगूठे के एक नियम के रूप में, अगर IV में त्रुटियां DV की त्रुटियों की तुलना में छोटी हैं, तो आप पूर्व की अनदेखी कर सकते हैं और साधारण रिग्रेशन का सहारा ले सकते हैं। यह आपको समस्या को दूर करने का एक त्वरित, सरल तरीका देता है।

— whuber

@ शुभंकर, धन्यवाद - यह उपयोगी है। ऐसा लगता है कि यदि अंगूठे का नियम समझ में आता है, तो इसका उपयोग करने के लिए हेटेरोसेडस्टिक मामले में समझदारी होगी "अगर IV में सबसे बड़ी त्रुटि विचलन DV में त्रुटि विचरण की तुलना में छोटा है, तो आप समस्या को सुरक्षित रूप से अनदेखा कर सकते हैं" अंगूठे का एक उचित नियम जो एक शर्त है जो वास्तव में मेरे द्वारा देखे जा रहे डेटा में संतुष्ट हो सकता है।

— मैक्रो

σ^{2} \approx 1

$\sigma^2 \approx 1$

\approx 1 / n

$\approx 1/n$

(.05, 1)

$(.05,1)$

Y_{i}

$Y_i$