प्रतिगमन मॉडल में त्रुटि की अवधारणा कैसे करें?


11

मैं एक डेटा विश्लेषण वर्ग में भाग ले रहा हूं और मेरे कुछ अच्छे विचारों को हिलाया जा रहा है। अर्थात्, यह विचार कि त्रुटि (एप्सिलॉन), साथ ही साथ किसी अन्य प्रकार का विचरण, केवल एक समूह (एक नमूना या पूरी आबादी) पर लागू होता है। अब, हमें सिखाया जा रहा है कि प्रतिगमन धारणाओं में से एक यह है कि विचरण "सभी व्यक्तियों के लिए समान है"। यह किसी तरह मुझे चौंकाने वाला है। मैंने हमेशा सोचा था कि यह एक्स के सभी मूल्यों के साथ वाई में भिन्नता थी जिसे निरंतर माना गया था।

मेरे पास प्रोफेसर के साथ एक चैट थी, जिसने मुझे बताया कि जब हम एक प्रतिगमन करते हैं, तो हम अपने मॉडल को सच मानते हैं। और मुझे लगता है कि यह मुश्किल हिस्सा है। मेरे लिए, त्रुटि शब्द (एप्सिलॉन) का हमेशा कुछ मतलब होता था, "जो भी तत्व हम नहीं जानते हैं और जो हमारे परिणाम चर, और कुछ माप त्रुटि को प्रभावित कर सकते हैं"। जिस तरह से कक्षा को पढ़ाया जाता है, उसमें "अन्य सामान" जैसी कोई चीज नहीं है; हमारे मॉडल को सही और पूर्ण माना जाता है। इसका मतलब यह है कि सभी अवशिष्ट भिन्नता को माप त्रुटि के उत्पाद के रूप में सोचा जाना चाहिए (इस प्रकार, किसी व्यक्ति को 20 बार मापने से एक ही संस्करण को 20 बार मापने के समान उत्पादन की उम्मीद होगी)।

मुझे लगता है कि कहीं न कहीं कुछ गलत है, मैं इस पर कुछ विशेषज्ञ की राय लेना चाहूंगा ... क्या व्याख्या के लिए कोई जगह है जो त्रुटि शब्द है, वैचारिक रूप से बोल रहा है?


3
शायद उनका क्या मतलब था, भले ही मॉडल सही हो, फिर भी प्रतिक्रियाओं में यादृच्छिक भिन्नता है - यह त्रुटि विचरण द्वारा कब्जा कर लिया गया है - यह, उदाहरण के लिए, अपूर्ण माप उपकरण के लिए जिम्मेदार ठहराया जा सकता है। अन्य लोग कभी-कभी त्रुटि विचरण की अवधारणा करते हैं क्योंकि अनुपलब्ध भविष्यवाणियों के कारण (मॉडल के रूप में आवश्यक रूप से त्रुटियां नहीं हैं), जिसका अर्थ है कि यदि सभी संभावित भविष्यवक्ताओं को मापा गया, तो त्रुटि विचरण 0. होगा। यह पहले के साथ असंगत नहीं है - त्रुटियां माप में "लापता भविष्यवक्ता" के रूप में सोचा जा सकता है।
मैक्रो

मुझे लगता है कि एक बात जो हमेशा कठिन होती है, वह यह है कि "त्रुटि" इस उदाहरण में अलग-अलग चीजों का मतलब हो सकता है। "त्रुटि" हमारे मॉडल से प्राप्त फिट किए गए मूल्यों और देखे गए मूल्यों के बीच अंतर को संदर्भित कर सकता है (विसंगति एक काफी परमानेंट मॉडल, जैसे) के कारण हो सकती है। "त्रुटि" का अर्थ मनाया मानों और सच्चे मूल्यों के बीच अंतर भी हो सकता है (विसंगति निकटतम पूर्णांक / दशम दशमलव / आदि के मानों को मापने के लिए आपके द्वारा उपयोग किए जाने वाले उपकरण के कारण हो सकती है)। [पहला प्रकार वह है जहाँ आप "अवशिष्ट / अवशिष्ट विचरण" जैसे शब्द सुनेंगे।]

@ मैक्रो हाँ, यह मुझे लगता है कि त्रुटि के प्राकृतिक तरीके की तरह है। मैं यह समझने की कोशिश कर रहा हूं कि प्रोफेसर ने इसकी सख्त परिभाषा पर जोर क्यों दिया (यह सोचकर प्रत्येक व्यक्ति पर लागू होता है, जबकि हम वास्तविकता में जानते हैं, यह सच नहीं है)।
डोमिनिक कोमोटिस

@ मायके वियरज़बिकि राइट। और अगर मैं सही ढंग से समझूं, तो यह सब "सख्त" दृष्टिकोण में एक साथ है। मतलब यह है कि अवलोकन और अनुमानित मूल्यों के बीच का सारा अंतर माप त्रुटि से आता है, क्योंकि हमारा मॉडल "सच होना है"।
डोमिनिक कोमोटिस

जवाबों:


2

यदि ऐसे व्यक्तियों के पहलू हैं जिनके परिणामस्वरूप y मानों पर प्रभाव पड़ता है, तो या तो उन पहलुओं को प्राप्त करने का कोई तरीका है (जिस स्थिति में उन्हें भविष्यवक्ता x का हिस्सा होना चाहिए), या उस पर कभी भी कोई रास्ता नहीं है जानकारी।

अगर इस जानकारी में कोई रास्ता नहीं है और व्यक्तियों के लिए बार-बार y मानों को मापने का कोई तरीका नहीं है, तो यह वास्तव में मायने नहीं रखता है। यदि आप y को बार-बार माप सकते हैं, और यदि आपके डेटा सेट में वास्तव में कुछ व्यक्तियों के लिए बार-बार माप शामिल हैं, तो आपके हाथों पर एक संभावित समस्या आ गई है, क्योंकि सांख्यिकीय सिद्धांत माप त्रुटियों / अवशिष्टों की स्वतंत्रता को मानता है।

उदाहरण के लिए, मान लीजिए कि आप फॉर्म का एक मॉडल फिट करने की कोशिश कर रहे हैं

,y=β0+β1एक्स

और प्रत्येक व्यक्ति के लिए,

,yमैंn=100+10एक्स+z

जहाँ z व्यक्ति पर निर्भर करता है और सामान्य रूप से 0 और मानक विचलन के साथ वितरित किया जाता है। 10. किसी व्यक्ति के बार-बार माप के लिए,

, yरों=100+10एक्स+z+

जहां को आम तौर पर माध्य 0 और मानक विचलन 0.1 के साथ वितरित किया जाता है।

आप इसे मॉडल करने का प्रयास कर सकते हैं

,y=β0+β1एक्स+ε

जहां सामान्य रूप से मतलब 0 और मानक विचलन के साथ वितरित किया जाता हैε

σ=102+0.12=100.01

जब तक आपके पास प्रत्येक व्यक्ति के लिए केवल एक माप है, तब तक यह ठीक रहेगा। हालांकि, यदि आपके पास एक ही व्यक्ति के लिए कई माप हैं, तो आपके अवशेष अब स्वतंत्र नहीं होंगे!

उदाहरण के लिए, यदि आपके पास z = 15 के साथ एक व्यक्ति है (1.5 मानक विचलन, तो अनुचित नहीं है), और उस व्यक्ति के एक सौ दोहराया माप, तो और β 1 = 10 (सटीक मान) का उपयोग कर! आप लगभग +1.5 मानक विचलन के 100 अवशिष्टों के साथ समाप्त होंगे, जो कि बहुत ही कम दिखेंगे। यह stat 2 आँकड़ा को प्रभावित करेगा । β0=100β1=10χ2


मैंने अपने जवाब में डरावना शब्द "मल्टीलेवल मॉडलिंग" का उपयोग करने से बचने की कोशिश की, लेकिन आपको पता होना चाहिए कि कुछ मामलों में यह इस तरह की स्थिति से निपटने का एक तरीका प्रदान करता है।
ब्रायन बोरचर्स

1

मुझे लगता है कि "त्रुटि" को "टिप्पणियों का हिस्सा जो अप्रत्याशित है हमारी वर्तमान जानकारी दी गई है" के रूप में वर्णित किया गया है। जनसंख्या बनाम नमूना के संदर्भ में सोचने की कोशिश करने से वैचारिक समस्याएं होती हैं (वैसे भी यह मेरे लिए अच्छा है), जैसा कि त्रुटियों के बारे में कुछ वितरण से खींची गई "विशुद्ध रूप से यादृच्छिक" के रूप में होती है। भविष्यवाणी और "पूर्वानुमान" के संदर्भ में सोच मेरे लिए बहुत मायने रखती है।

पी(1,...,n)(1nΣमैं=1nमैं2)=σ2σ2σ

n


σ2

पी(1,...,n)α1

और करीब से मेरा मतलब है कि kl विचलन को कम से कम किया जाता है
प्रायिकता

दुविधा नमूना और आबादी के बीच नहीं है। यह त्रुटि के बारे में है जैसा कि व्यक्तियों के लिए नमूना / जनसंख्या पर लागू होता है।
डोमिनिक कॉमिको

1

सरल रेखीय प्रतिगमन को समझाने के लिए यहां बहुत उपयोगी लिंक है: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html शायद यह "त्रुटि" अवधारणा को समझने में मदद कर सकता है।

एफडी


यह एक बहुत अच्छा एप्लेट है! इसे संदर्भित करने के लिए धन्यवाद। यह मुझे याद दिलाता है कि मैंने एक और प्रश्न के लिए बहुत सारे चित्र तैयार किए हैं , जहां आपका उत्तर अधिक प्रासंगिक हो सकता है।
whuber

1

मैं इस के प्रोफेसर के गठन से असहमत हूं। जैसा कि आप कहते हैं, यह विचार कि प्रत्येक व्यक्ति के लिए भिन्नता समान है, का अर्थ है कि त्रुटि शब्द केवल माप त्रुटि का प्रतिनिधित्व करता है। यह आमतौर पर नहीं है कि बुनियादी एकाधिक प्रतिगमन मॉडल का निर्माण कैसे किया जाता है। जैसा कि आप कहते हैं, विचरण को एक समूह के लिए परिभाषित किया जाता है (चाहे वह अलग-अलग विषयों का समूह हो या माप का समूह)। यह व्यक्तिगत स्तर पर लागू नहीं होता, जब तक कि आपके पास बार-बार उपाय न हों।

एक मॉडल को पूरा करने की आवश्यकता है कि त्रुटि शब्द में किसी भी चर से प्रभाव नहीं होना चाहिए जो भविष्यवक्ताओं के साथ सहसंबद्ध हैं। धारणा यह है कि त्रुटि शब्द भविष्यवक्ताओं से स्वतंत्र है। यदि कुछ सहसंबंधित चर को छोड़ दिया जाता है, तो आपको पक्षपाती गुणांक मिल जाएगा (इसे लोपेज चर पूर्वाग्रह कहा जाता है )।


मुझे यह उत्तर बिलकुल समझ में नहीं आता है। यह फिट और यादृच्छिक त्रुटि की कमी के कारण त्रुटि के बीच अंतर को पहचानता प्रतीत होता है, लेकिन अंतिम बयानबाजी सवाल भ्रामक लगता है। एक शुद्ध रूप से औपचारिक दृष्टिकोण से, अनिवार्य रूप से किसी प्रतिगमन मॉडल के संबंध में किए गए किसी भी अनुमान को शोर संरचना के बारे में बहुत स्पष्ट मान्यताओं पर टिका है।
कार्डिनल

1
मेरा कहना है कि कई मामलों में, प्रतिगमन मॉडलिंग का उद्देश्य यह पता लगाना है कि जब हम किसी विशेष परिणाम के सभी कारणों को नहीं जानते हैं तब भी क्या हो रहा है। लेकिन जैसा कि यह स्पष्ट नहीं है, मैं उस प्रश्न को हटा दूंगा।
ऐनी जेड

धन्यवाद। आपकी टिप्पणी में बिंदु अच्छा है। आपके द्वारा कहा गया पिछला प्रश्न पूरे आधार पर प्रश्न के रूप में पढ़ा जा सकता है, जिस पर प्रतिगमन सिद्धांत टिकी हुई है। :)
कार्डिनल

मैं आपकी असहमति (इसलिए मेरा सवाल!) में आपसे सहमत हूं, और लोप किया गया चर पूर्वाग्रह मुद्दे के लिए काफी प्रासंगिक है। धन्यवाद।
डोमिनिक कोमोटिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.