क्या रैखिक प्रतिगमन में पूर्वाग्रह-विचरण व्यापार का चित्रमय प्रतिनिधित्व है?


18

मैं एक अंधकार से पीड़ित हूं। मुझे रेखीय प्रतिगमन के संदर्भ में पूर्वाग्रह-विचरण व्यापार का प्रदर्शन करने के लिए निम्नलिखित चित्र प्रस्तुत किया गया था:

डेटा, सरल और जटिल मामले के लिए बहुपद मॉडल

मैं देख सकता हूं कि दोनों में से कोई भी मॉडल एक अच्छा फिट नहीं है - "सरल" एक्सवाई संबंध की जटिलता की सराहना नहीं कर रहा है और "जटिल" सिर्फ ओवरफिटिंग है, मूल रूप से दिल से प्रशिक्षण डेटा सीख रहा है। हालाँकि मैं इन दोनों चित्रों में पूर्वाग्रह और विचरण को देखने में पूरी तरह से विफल हूँ। क्या कोई मुझे यह दिखा सकता है?

पुनश्च: पूर्वाग्रह- परिवर्तन व्यापार की सहज व्याख्या का उत्तर ? वास्तव में मेरी मदद नहीं की, मुझे खुशी होगी अगर कोई उपरोक्त तस्वीर के आधार पर एक अलग दृष्टिकोण प्रदान कर सके।

जवाबों:


11

पूर्वाग्रह विचलन व्यापार-बंद माध्य वर्ग त्रुटि के टूटने पर आधारित है:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

पूर्वाग्रह-विचरण व्यापार को देखने का एक तरीका यह है कि मॉडल फिट में डेटा सेट के गुणों का उपयोग किया जाए। सरल मॉडल के लिए, यदि हम मानते हैं कि ओएलएस प्रतिगमन को सीधी रेखा में फिट करने के लिए उपयोग किया गया था, तो लाइन को फिट करने के लिए केवल 4 नंबर का उपयोग किया जाता है:

  1. X और y के बीच का नमूना covariance
  2. X का नमूना प्रसरण
  3. नमूना का मतलब एक्स
  4. Y का नमूना मतलब

तो, जो भी ग्राफ ऊपर 4 की संख्या में ले जाता है, वह ठीक उसी लाइन (10 अंक, 100 अंक, 100000000 अंक) तक ले जाएगा। तो एक मायने में यह विशेष नमूने के प्रति असंवेदनशील है। इसका मतलब यह है कि यह "पक्षपाती" होगा क्योंकि यह प्रभावी रूप से डेटा के हिस्से की अनदेखी करता है। यदि डेटा का वह उपेक्षित हिस्सा महत्वपूर्ण हुआ, तो भविष्यवाणियां लगातार त्रुटि में रहेंगी। यदि आप एक डेटा बिंदु को हटाने से प्राप्त फिट लाइनों के लिए सभी डेटा का उपयोग करके फिट लाइन की तुलना करते हैं, तो आप इसे देखेंगे। वे काफी स्थिर होंगे।

अब दूसरा मॉडल डेटा के प्रत्येक स्क्रैप का उपयोग करता है, जो इसे प्राप्त कर सकता है, और जितना संभव हो उतना डेटा फिट बैठता है। इसलिए, हर डेटा बिंदु की सटीक स्थिति मायने रखती है, और इसलिए आप OLS के लिए फिट किए गए मॉडल को बदले बिना प्रशिक्षण डेटा को आसपास स्थानांतरित नहीं कर सकते। इस प्रकार आपके द्वारा निर्धारित विशेष प्रशिक्षण के लिए मॉडल बहुत संवेदनशील है। यदि आप एक ही ड्रॉप-वन डेटा पॉइंट प्लॉट करते हैं, तो फिट किया गया मॉडल बहुत अलग होगा।


पूर्वाग्रह और मॉडल पैरामीटर अनुमान के विचरण θ या भविष्यवाणी की उत्पादन मूल्य y ? कुछ लोग मुझे बताते हैं कि शर्तें पूर्वाग्रह हैंθ^y^θx,y

मुझे नहीं लगता कि यह सच है करते हैं, मुझे लगता है कि आप भविष्यवाणी के बारे में बात कर रहे हैं ( yy^θ^

θ^bias(θ^)=θE[θ^]θf(x)=a+bx+cx2h(x)=d+ex(a,b,c)(d,e)bias(d)bias(e)

@loganecolss - यह एक विरोधाभास नहीं है क्योंकि पूर्वाग्रह की धारणा केवल "स्थानीय रूप से" मौजूद है - अर्थात, एक दिए गए सांख्यिकीय मॉडल के संबंध में। "विरोधाभास" उस व्यक्ति के लिए मौजूद है जो: 1) "सच्चा मॉडल" जानता है, और 2) इसका उपयोग नहीं करने का फैसला करता है। वह व्यक्ति मेरी पुस्तक में एक मूर्ख व्यक्ति है। यदि आप "असली मॉडल" नहीं जानते हैं, तो कोई समस्या नहीं है - जब तक कि आपको एक अच्छा मॉडल नहीं मिला है और इसका उपयोग नहीं करने का फैसला किया है ...
संभावना 7

1
f(x,z1,z2,,zK)ziK

5

गैर-गणितीय तरीके से मैं जो कुछ भी जानता हूं, उसे संक्षेप में प्रस्तुत करना:

  • पूर्वाग्रह - जब आप सरल मॉडल का उपयोग करते हैं तो आपकी भविष्यवाणी गलत होने वाली है और यह कि आप जिस मॉडल का उपयोग करते हैं, उस पर कोई भी डेटासेट नहीं होगा। आपकी भविष्यवाणी गलत होने की उम्मीद है
  • भिन्नता - यदि आप जटिल मॉडल का उपयोग करते हैं, तो आप जो भी डेटासेट उपयोग कर रहे हैं, उसके आधार पर आपको बहुत भिन्न भविष्यवाणी मिलेगी

इस पृष्ठ में आपके द्वारा पोस्ट किए गए आरेखों के साथ एक बहुत अच्छी व्याख्या है। (मैंने शीर्ष भाग को छोड़ दिया, हालांकि, केवल आरेखों के साथ भाग पढ़ें) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (माउसओवर एक अलग नमूना दिखाता है यदि आपने ध्यान नहीं दिया!)


यह एक दिलचस्प पृष्ठ और अच्छा चित्रण है, लेकिन मैं उन्हें तब अधिक भ्रमित करता हूं, तब मददगार होता है क्योंकि (ए) प्रतिगमन के संदर्भ में चर्चा की गई "पूर्वाग्रह" और "विचरण" पूर्वाग्रह और विचरण प्रतीत नहीं होते हैं जैसा कि शुरुआत में परिभाषित किया गया था। पृष्ठ और (ख) यह बिल्कुल स्पष्ट नहीं है कि किए जा रहे बयान (पूर्वाग्रह और विचरण कितने मापदंडों के साथ बदलते हैं) सही हैं।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.