मैं रैखिक प्रतिगमन विश्लेषण के संदर्भ में पूर्वाग्रह की अवधारणा को समझने के लिए संघर्ष कर रहा हूं।
पूर्वाग्रह की गणितीय परिभाषा क्या है?
क्या वास्तव में पक्षपाती है और क्यों / कैसे?
उदाहरण?
मैं रैखिक प्रतिगमन विश्लेषण के संदर्भ में पूर्वाग्रह की अवधारणा को समझने के लिए संघर्ष कर रहा हूं।
पूर्वाग्रह की गणितीय परिभाषा क्या है?
क्या वास्तव में पक्षपाती है और क्यों / कैसे?
उदाहरण?
जवाबों:
पूर्वाग्रह एक अनुमानक के अपेक्षित मूल्य और अनुमानित मूल्य के बीच का अंतर है। उदाहरण के लिए एक साधारण यादृच्छिक नमूने (SRS) के लिए नमूना मतलब जनसंख्या का एक निष्पक्ष अनुमानक है, क्योंकि यदि आप सभी संभव SRS के साधन ढूंढते हैं, और उन साधनों का मतलब निकालते हैं, तो आपको जनसंख्या का मतलब मिलेगा (परिमित के लिए) आबादी यह दिखाने के लिए सिर्फ बीजगणित है)। लेकिन अगर हम एक नमूनाकरण तंत्र का उपयोग करते हैं जो किसी तरह मूल्य से संबंधित है, तो इसका मतलब पक्षपाती बन सकता है, आय के बारे में सवाल पूछने वाले यादृच्छिक अंक डायलिंग नमूने के बारे में सोचें।
कुछ अनुमानक भी हैं जो स्वाभाविक रूप से पक्षपाती हैं। छंटनी का मतलब तिरछी आबादी / वितरण के लिए पक्षपाती होगा। मानक विचलन SRS के लिए निष्पक्ष है यदि या तो जनसंख्या माध्य हर साथ प्रयोग किया जाता है या नमूना माध्य हर का प्रयोग साथ किया जाता है । एन - 1
आर का उपयोग करके यहां एक सरल उदाहरण है, हम औसत 0 और मानक विचलन 1 के साथ एक सामान्य से नमूनों का एक गुच्छा उत्पन्न करते हैं, फिर नमूनों से औसत औसत, विचरण और मानक विचलन की गणना करते हैं। ध्यान दें कि माध्य और विचरण औसत के कितने सही मान हैं (नमूना त्रुटि का अर्थ है कि वे सटीक नहीं होंगे), अब माध्य एसडी की तुलना करें, यह एक पक्षपाती अनुमानक है (हालांकि बेहद पक्षपाती नहीं है)।
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
रिग्रेशन में हम स्टेप वाइज रिग्रेशन कर ढलानों के पक्षपाती अनुमानक प्राप्त कर सकते हैं। एक चर को एक स्टेपवाइज रिग्रेशन में रखे जाने की संभावना है यदि अनुमानित ढलान 0 से आगे है और अधिक होने की संभावना है अगर यह 0 के करीब है, तो यह पक्षपाती नमूना है और अंतिम मॉडल में ढलान आगे होगा। 0 सही ढलान से। लसो और रिज रिग्रेशन पूर्वाग्रह ढलान की तरह तकनीकें 0 से दूर चयन पूर्वाग्रह का मुकाबला करने के लिए 0 की ओर जाती हैं।
पूर्वाग्रह का अर्थ है कि अनुमानक का अपेक्षित मूल्य जनसंख्या पैरामीटर के बराबर नहीं है।
प्रतिगमन विश्लेषण में सहजता से, इसका मतलब यह होगा कि किसी एक पैरामीटर का अनुमान बहुत अधिक है या बहुत कम है। हालांकि, साधारण कम से कम वर्ग प्रतिगमन अनुमान BLUE हैं, जो सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानकर्ताओं के लिए खड़ा है। प्रतिगमन के अन्य रूपों में, पैरामीटर का अनुमान पक्षपाती हो सकता है। यह एक अच्छा विचार हो सकता है, क्योंकि अक्सर पूर्वाग्रह और विचरण के बीच एक व्यापार है। उदाहरण के लिए, रिज रिग्रेशन का उपयोग कभी-कभी अनुमानों के विचरण को कम करने के लिए किया जाता है जब कोलीनियरिटी होती है।
एक साधारण उदाहरण इसे बेहतर तरीके से समझा सकता है, हालांकि प्रतिगमन संदर्भ में नहीं। मान लें कि आपका वजन 150 पाउंड है (एक बैलेंस स्केल पर सत्यापित है जो आपके पास एक टोकरी में है और दूसरी टोकरी में वजन का ढेर है)। अब, आपके पास दो बाथरूम तराजू हैं। आप प्रत्येक पर अपना वजन 5 गुना करते हैं।
स्केल 1 152, 151, 151.5, 150.5 और 152 का वजन देता है।
स्केल 2 145, 155, 154, 146 और 150 के वज़न देता है।
स्केल 1 पक्षपाती है, लेकिन कम विचरण करता है; वजन का औसत आपका सही वजन नहीं है। स्केल 2 निष्पक्ष है (औसत 150 है), लेकिन इसमें बहुत अधिक भिन्नता है।
कौन सा पैमाना "बेहतर" है? यह इस बात पर निर्भर करता है कि आप क्या करना चाहते हैं।
रैखिक प्रतिगमन विश्लेषण में, पूर्वाग्रह उस त्रुटि को संदर्भित करता है जो एक वास्तविक जीवन की समस्या का अनुमान लगाकर पेश की जाती है, जो कि बहुत सरल मॉडल द्वारा जटिल हो सकती है। सरल शब्दों में, आप एक साधारण रैखिक मॉडल जैसे कि y * = (a *) x + b * मानते हैं, जहां वास्तविक जीवन में व्यवसाय की समस्या y = ax ^ 3 + bx ^ 2 + c हो सकती है।
यह कहा जा सकता है कि एक प्रतिगमन समस्या से अपेक्षित परीक्षण एमएसई (मतलब चुकता त्रुटि) नीचे के रूप में विघटित हो सकता है। E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)
f * -> रेखीय प्रतिगमन मॉडल y0 के लिए कार्यात्मक रूप ग्रहण किया - परीक्षण डेटा में दर्ज की गई मूल प्रतिक्रिया मान x0 -> परीक्षण डेटा में रिकॉर्ड किए गए मूल भविष्यवक्ता मान -> इरोड्यूसबल त्रुटि तो, लक्ष्य एक मॉडल को प्राप्त करने में सबसे अच्छा तरीका चुन रहा है कि कम विचरण और कम पूर्वाग्रह को प्राप्त करता है।
नोट: ट्रेवर हस्ती और रॉबर्ट टिब्शिरानी द्वारा सांख्यिकीय सीखने का एक परिचय इस विषय पर एक अच्छी अंतर्दृष्टि है