त्रुटि शब्द का वितरण प्रतिक्रिया के वितरण को कैसे प्रभावित करता है?


14

इसलिए जब मैं यह मानता हूं कि त्रुटि की शर्तें आम तौर पर एक रेखीय प्रतिगमन में वितरित की जाती हैं, तो प्रतिक्रिया चर, लिए इसका क्या मतलब है ?y

जवाबों:


7

शायद मैं बंद कर रहा हूँ, लेकिन मुझे लगता है कि हम के बारे में सोच किया जाना चाहिए , जिसके कारण मैं ओपी पढ़ें। रेखीय प्रतीपगमन की बहुत सबसे सामान्य स्थिति में यदि आपके मॉडल है y = एक्स β + ε त्रुटि अवधि फिर अपने मॉडल में केवल स्टोकेस्टिक घटक है। जैसे कि यह y के नमूने वितरण को निर्धारित करता है । यदि ε ~ एन ( 0 , σ 2 मैं ) तो y | एक्स , β ~ एन ( एक्स β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) । क्या @Aniko का कहना है की निश्चित रूप से सच है( y ) (मामूली से अधिक एक्स , β हालांकि),। इसलिए जैसा कि यह खड़ा है सवाल थोड़ा अस्पष्ट है।y|X,βN(Xβ,σ2I)f(y)X,β


मुझे सभी टिप्पणियाँ पसंद हैं! और वे सब सही होने लगते हैं। लेकिन मैं सिर्फ सबसे आसान जवाब खोज रहा था :) क्या होता है जब आप मानते हैं कि गलत शब्द सामान्य वितरित है। यह वास्तव में बहुत बार होता है, अन्य उत्तरों से स्पष्ट हो जाता है! आपका बहुत बहुत धन्यवाद!
मार्कडॉलर

17

संक्षिप्त उत्तर यह है कि आप के वितरण के बारे में कुछ भी निष्कर्ष नहीं निकाल सकते , क्योंकि यह x के वितरण और संबंध की मजबूती और आकार पर निर्भर करता है । औपचारिक रूप से, y में "मानदंडों का मिश्रण" वितरण होगा, जो व्यवहार में बहुत कुछ भी हो सकता है।yxy

इसका वर्णन करने के लिए यहां दो चरम उदाहरण हैं:

  1. मान लें कि केवल दो संभावित मान हैं, 0 a 1, और y = 10 x + N ( 0 , 1 ) । तब xy=10x+N(0,1)y में 0 और 10 पर धक्कों के साथ एक जोरदार बाइमोडल वितरण होगा।
  2. अब एक ही रिश्ते को मान लें, लेकिन को बहुत सारे मूल्यों के साथ 0-1 अंतराल पर समान रूप से वितरित किया जाए। तब xy लगभग समान रूप से 0-10 अंतराल (किनारों पर कुछ आधा सामान्य पूंछ के साथ) पर वितरित किया जाएगा।

वास्तव में, चूंकि प्रत्येक वितरण को मानदंडों के मिश्रण के साथ मनमाने ढंग से अच्छी तरह से लगाया जा सकता है, आप वास्तव में लिए कोई भी वितरण प्राप्त कर सकते हैं ।y


8
+1 अंतिम विवरण पुन: मैंने एक बार सोचने की गलती की है। गणितीय रूप से आप सही हैं लेकिन व्यवहार में मानदंड (जैसे कि J- या U- आकार के वितरण) के साथ गैर-विभेदीकृत स्पाइक को अनुमानित करना लगभग असंभव है: स्पाइक्स में घनत्व को पकड़ने के लिए मानदंड अपनी चोटियों पर बहुत सपाट हैं। आपको कई घटकों की आवश्यकता है। सामान्य वितरण वितरण के लिए अच्छे हैं जिनके pdfs बहुत चिकने हैं।
whuber

1
@ शुभंकर सहमत। मैं व्यवहार में किसी भी वितरण के लिए एक सामान्य-मिश्रण सन्निकटन का उपयोग करने का सुझाव नहीं दूंगा, मैं बस एक चरम प्रति-उदाहरण देने की कोशिश कर रहा था।
ऐकोआ

5

हम वास्तविक डेटा पर एक काल्पनिक मॉडल लगाकर त्रुटि शब्द का आविष्कार करते हैं; त्रुटि शब्द का वितरण प्रतिक्रिया के वितरण को प्रभावित नहीं करता है।

हम अक्सर यह मान लेते हैं कि त्रुटि सामान्य रूप से वितरित की जाती है और इस प्रकार मॉडल का निर्माण करने का प्रयास करते हैं ताकि हमारे अनुमानित अवशेष सामान्य रूप से वितरित हो सकें। यह कुछ वितरण के लिए मुश्किल हो सकता है । इन मामलों में, मुझे लगता है कि आप कह सकते हैं कि प्रतिक्रिया का वितरण त्रुटि अवधि को प्रभावित करता है।y


2
"हम अक्सर मॉडल ऐसा है कि हमारे त्रुटि अवधि सामान्य रूप से वितरित किया जाता है का निर्माण करने की कोशिश" - सटीक होना करने के लिए, मुझे लगता है कि आप बच की बात कर रहे । ये हैं अनुमान उसी तरह से त्रुटि पदों की कि एक्स β का अनुमान है ( y ) = एक्स β । हम चाहते हैं कि अवशिष्ट सामान्य दिखें क्योंकि यही हमने शुरू करने के लिए त्रुटि शब्दों के बारे में माना था। हम एक मॉडल निर्दिष्ट करके त्रुटि शब्द का "आविष्कार" करते हैं, इसे फिटिंग नहीं। yXβ^Xβ^E(y)=Xβ
जेएमएस

मैं आपकी सटीकता से सहमत हूं, जेएमएस। +1 और मैं अपना उत्तर समायोजित करूंगा।
थॉमस लेविन

2

यदि आप प्रतिक्रिया को रूप में लिखते हैं जहां m "मॉडल" ( y के लिए भविष्यवाणी ) और e "त्रुटियां" है, तो यह y - m = e को इंगित करने के लिए फिर से व्यवस्थित किया जा सकता है । इसलिए त्रुटियों के लिए एक वितरण असाइन करना वही तरीका है जो आपके मॉडल के अधूरे होने के तरीकों को इंगित करता है। इसे दूसरे तरीके से रखने के लिए यह इंगित करता है कि आप किस हद तक नहीं जानते हैं कि क्यों मनाया प्रतिक्रिया का मूल्य था कि यह वास्तव में था, और न कि मॉडल ने क्या भविष्यवाणी की थी। यदि आपको पता था कि आपका मॉडल सही था, तो आप त्रुटियों के लिए शून्य पर इसके सभी द्रव्यमान के साथ एक संभाव्यता वितरण असाइन करेंगे। एक एन असाइन करना (

y=m+e
myeym=e मूल रूप से कहा गया है कि त्रुटियों की इकाइयों में छोटे हैं σ । विचार यह है कि मॉडल भविष्यवाणियों "गलत" विभिन्न टिप्पणियों के लिए इसी तरह की राशि के आधार पर हो जाते हैं है, और के पैमाने पर "सही" के बारे में है σN(0,σ2)σσ । एक विपरीत के रूप में, एक वैकल्पिक काम है Cauchy(0,γ) जो कहता है कि त्रुटियों का सबसे छोटे हैं, लेकिन कुछ त्रुटियाँ काफी बड़े हैं - मॉडल कभी कभी "गलती" या संदर्भ में "घिनौना आदमी" है प्रतिक्रिया की भविष्यवाणी करना।

एक अर्थ में त्रुटि वितरण प्रतिक्रिया की तुलना में मॉडल से अधिक निकटता से जुड़ा हुआ है। यह उपरोक्त समीकरण के गैर identifiability से देखा जा सकता है, अगर दोनों के लिए और अज्ञात हैं तो करने के लिए एक मनमाना वेक्टर जोड़ने मीटर और इसे से घटाकर सुराग का एक ही मूल्य के लिए y , y = मीटर + = ( मीटर + ) + ( - ) = मीटर ' + 'memeyy=m+e=(m+b)+(eb)=m+e। एक त्रुटि वितरण और एक मॉडल समीकरण का काम मूल रूप से कहता है कि कौन से मनमानी वैक्टर दूसरों की तुलना में अधिक प्रशंसनीय हैं।


H0:yf0H1:yf1

nyiYxiY=Xβ+ϵϵY|β,X

@ जेएमएस - मुझे लगता है कि मैं उस पहले पैराग्राफ को हटा सकता हूं। मुझे नहीं लगता कि यह मेरे जवाब (भ्रम के अलावा) के लिए कुछ भी जोड़ता है।
probabilityislogic

मेरे पसंदीदा चीजों में से एक मेरे उत्तरों में जोड़ने के लिए :)
जेएमएस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.