क्या सहज रूप से "पूर्वाग्रह" है?


21

मैं रैखिक प्रतिगमन विश्लेषण के संदर्भ में पूर्वाग्रह की अवधारणा को समझने के लिए संघर्ष कर रहा हूं।

  • पूर्वाग्रह की गणितीय परिभाषा क्या है?

  • क्या वास्तव में पक्षपाती है और क्यों / कैसे?

  • उदाहरण?

जवाबों:


28

पूर्वाग्रह एक अनुमानक के अपेक्षित मूल्य और अनुमानित मूल्य के बीच का अंतर है। उदाहरण के लिए एक साधारण यादृच्छिक नमूने (SRS) के लिए नमूना मतलब जनसंख्या का एक निष्पक्ष अनुमानक है, क्योंकि यदि आप सभी संभव SRS के साधन ढूंढते हैं, और उन साधनों का मतलब निकालते हैं, तो आपको जनसंख्या का मतलब मिलेगा (परिमित के लिए) आबादी यह दिखाने के लिए सिर्फ बीजगणित है)। लेकिन अगर हम एक नमूनाकरण तंत्र का उपयोग करते हैं जो किसी तरह मूल्य से संबंधित है, तो इसका मतलब पक्षपाती बन सकता है, आय के बारे में सवाल पूछने वाले यादृच्छिक अंक डायलिंग नमूने के बारे में सोचें।

कुछ अनुमानक भी हैं जो स्वाभाविक रूप से पक्षपाती हैं। छंटनी का मतलब तिरछी आबादी / वितरण के लिए पक्षपाती होगा। मानक विचलन SRS के लिए निष्पक्ष है यदि या तो जनसंख्या माध्य हर साथ प्रयोग किया जाता है या नमूना माध्य हर का प्रयोग साथ किया जाता है । एन - 1nn-1

आर का उपयोग करके यहां एक सरल उदाहरण है, हम औसत 0 और मानक विचलन 1 के साथ एक सामान्य से नमूनों का एक गुच्छा उत्पन्न करते हैं, फिर नमूनों से औसत औसत, विचरण और मानक विचलन की गणना करते हैं। ध्यान दें कि माध्य और विचरण औसत के कितने सही मान हैं (नमूना त्रुटि का अर्थ है कि वे सटीक नहीं होंगे), अब माध्य एसडी की तुलना करें, यह एक पक्षपाती अनुमानक है (हालांकि बेहद पक्षपाती नहीं है)।

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

रिग्रेशन में हम स्टेप वाइज रिग्रेशन कर ढलानों के पक्षपाती अनुमानक प्राप्त कर सकते हैं। एक चर को एक स्टेपवाइज रिग्रेशन में रखे जाने की संभावना है यदि अनुमानित ढलान 0 से आगे है और अधिक होने की संभावना है अगर यह 0 के करीब है, तो यह पक्षपाती नमूना है और अंतिम मॉडल में ढलान आगे होगा। 0 सही ढलान से। लसो और रिज रिग्रेशन पूर्वाग्रह ढलान की तरह तकनीकें 0 से दूर चयन पूर्वाग्रह का मुकाबला करने के लिए 0 की ओर जाती हैं।


एसआरएस?  
कार्डिनल

@ कार्डिनल सिंपल रैंडम सैंपल।
whuber

@ शुभकर्ता: वाह। जबकि संक्षिप्त में समझ में आता है, मुझे याद नहीं है कि यह किसी भी अधिक औपचारिक सेटिंग में आया है। क्या विशेष उप-क्षेत्र या लागू क्षेत्र हैं जहां यह "मानक" प्रारंभिकवाद है?
कार्डिनल


(+1) @ व्ह्यूबर का संपादन इस उत्तर को स्पष्ट करने में सहायक था।
कार्डिनल

7

पूर्वाग्रह का अर्थ है कि अनुमानक का अपेक्षित मूल्य जनसंख्या पैरामीटर के बराबर नहीं है।

प्रतिगमन विश्लेषण में सहजता से, इसका मतलब यह होगा कि किसी एक पैरामीटर का अनुमान बहुत अधिक है या बहुत कम है। हालांकि, साधारण कम से कम वर्ग प्रतिगमन अनुमान BLUE हैं, जो सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानकर्ताओं के लिए खड़ा है। प्रतिगमन के अन्य रूपों में, पैरामीटर का अनुमान पक्षपाती हो सकता है। यह एक अच्छा विचार हो सकता है, क्योंकि अक्सर पूर्वाग्रह और विचरण के बीच एक व्यापार है। उदाहरण के लिए, रिज रिग्रेशन का उपयोग कभी-कभी अनुमानों के विचरण को कम करने के लिए किया जाता है जब कोलीनियरिटी होती है।

एक साधारण उदाहरण इसे बेहतर तरीके से समझा सकता है, हालांकि प्रतिगमन संदर्भ में नहीं। मान लें कि आपका वजन 150 पाउंड है (एक बैलेंस स्केल पर सत्यापित है जो आपके पास एक टोकरी में है और दूसरी टोकरी में वजन का ढेर है)। अब, आपके पास दो बाथरूम तराजू हैं। आप प्रत्येक पर अपना वजन 5 गुना करते हैं।

स्केल 1 152, 151, 151.5, 150.5 और 152 का वजन देता है।

स्केल 2 145, 155, 154, 146 और 150 के वज़न देता है।

स्केल 1 पक्षपाती है, लेकिन कम विचरण करता है; वजन का औसत आपका सही वजन नहीं है। स्केल 2 निष्पक्ष है (औसत 150 है), लेकिन इसमें बहुत अधिक भिन्नता है।

कौन सा पैमाना "बेहतर" है? यह इस बात पर निर्भर करता है कि आप क्या करना चाहते हैं।


1
यद्यपि पूर्वाग्रह की परिभाषा सही है, मुझे डर है कि उदाहरण इसे अशुद्धि के साथ भ्रमित करते हैं, जो पूरी तरह से अलग है! पूर्वाग्रह एक सांख्यिकीय प्रक्रिया (एक अनुमानक) की संपत्ति है जबकि सटीकता माप प्रक्रिया की एक संपत्ति है । (-1)।
whuber

1
@ शुभकर्ता: हां, मैं इससे सहमत हूं। और, मुझे अभी भी लगता है कि, यहां तक ​​कि, गणितीय अपेक्षा और एक नमूना औसत के बीच अंतर को स्पष्ट करना आवश्यक है, क्योंकि वे पूर्वाग्रह से संबंधित हैं।
कार्डिनल

1
नहीं, मैं "अशुद्धि" के बारे में कुछ भी कहने की कोशिश नहीं कर रहा था (जो कि परिभाषित करना मुश्किल है) लेकिन "विचरण" के बारे में। एक पैमाने निष्पक्ष है, दूसरे पैमाने पर कम विचरण है। मैंने "सटीक" या "सटीकता" शब्द का उपयोग नहीं किया। एक पैमाना जो आपके वजन का बहुत अधिक अनुमान लगाता है (या बहुत कम) पक्षपाती।
पीटर फ्लॉम - मोनिका

1
लेकिन "पूर्वाग्रह" का यह अर्थ गलत के लिए एक पर्यायवाची है; यह पहली पंक्ति में आपके द्वारा दी गई परिभाषा के समान नहीं है। इसके अलावा, जैसा कि @ कार्डिनल बताते हैं, उदाहरण भी एक विशेष नमूने के माध्यम से एक अपेक्षा को भ्रमित करता है।
whuber

3
मैं यहाँ @whuber से सहमत हूँ। पूर्वाग्रह के उचित (उचित) अर्थों के बारे में, जो ओपी के बारे में पूछ रहा है, यह वह पैमाना नहीं है जो पक्षपाती या निष्पक्ष है, बल्कि आपके वजन का जो भी अनुमान है, जो आप इसके माप से प्राप्त करते हैं!
कार्डिनल

0

रैखिक प्रतिगमन विश्लेषण में, पूर्वाग्रह उस त्रुटि को संदर्भित करता है जो एक वास्तविक जीवन की समस्या का अनुमान लगाकर पेश की जाती है, जो कि बहुत सरल मॉडल द्वारा जटिल हो सकती है। सरल शब्दों में, आप एक साधारण रैखिक मॉडल जैसे कि y * = (a *) x + b * मानते हैं, जहां वास्तविक जीवन में व्यवसाय की समस्या y = ax ^ 3 + bx ^ 2 + c हो सकती है।

यह कहा जा सकता है कि एक प्रतिगमन समस्या से अपेक्षित परीक्षण एमएसई (मतलब चुकता त्रुटि) नीचे के रूप में विघटित हो सकता है। E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)

f * -> रेखीय प्रतिगमन मॉडल y0 के लिए कार्यात्मक रूप ग्रहण किया - परीक्षण डेटा में दर्ज की गई मूल प्रतिक्रिया मान x0 -> परीक्षण डेटा में रिकॉर्ड किए गए मूल भविष्यवक्ता मान -> इरोड्यूसबल त्रुटि तो, लक्ष्य एक मॉडल को प्राप्त करने में सबसे अच्छा तरीका चुन रहा है कि कम विचरण और कम पूर्वाग्रह को प्राप्त करता है।

नोट: ट्रेवर हस्ती और रॉबर्ट टिब्शिरानी द्वारा सांख्यिकीय सीखने का एक परिचय इस विषय पर एक अच्छी अंतर्दृष्टि है


3
इसे अक्सर "मॉडल मिस-स्पेसिफिकेशन एरर" जैसी किसी चीज़ से संदर्भित किया जाता है ताकि इसे स्वीकार किए गए उत्तर में दिए गए पूर्वाग्रह की मानक परिभाषा के साथ भ्रमित न किया जाए। अन्यथा (सही) कथन की समझ बनाना असंभव होगा कि OLS रजिस्टरों के गुणांकों का निष्पक्ष अनुमानक है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.