क्या रेखीय मॉडल को फिट करने के बाद पूर्वाग्रह और विचरण में सज्जित अवशेषों को विघटित करना संभव है?


9

मैं डेटा बिंदुओं को वर्गीकृत करना चाहता हूं क्योंकि या तो अधिक जटिल मॉडल की आवश्यकता है, या अधिक जटिल मॉडल की आवश्यकता नहीं है। मेरी वर्तमान सोच सभी डेटा को एक सरल रेखीय मॉडल में फिट करना है, और इस वर्गीकरण को बनाने के लिए अवशिष्टों के आकार का निरीक्षण करना है। फिर मैंने त्रुटि के लिए पूर्वाग्रह और विचरण योगदान के बारे में कुछ पढ़ा, और महसूस किया कि अगर मैं सीधे पूर्वाग्रह की गणना कर सकता हूं, तो यह एक बेहतर उपाय हो सकता है जो कुल त्रुटि (अवशिष्ट या मानकीकृत अवशिष्ट) के साथ काम कर रहा है।

क्या एक रैखिक मॉडल के साथ सीधे पूर्वाग्रह का अनुमान लगाना संभव है? परीक्षण डेटा के साथ या बिना? क्या यहां सत्यापन मदद को पार करेगा?

यदि नहीं, तो क्या एक अनुमानित बूटस्ट्रैपिंग लीनियर मॉडल (मुझे लगता है कि इसे बैगिंग कहा जाता है) का उपयोग लगभग पूर्वाग्रह के लिए किया जा सकता है?


1
शायद ये समतुल्य (अवशिष्ट बनाम पूर्वाग्रह) हैं क्योंकि स्थिरांक में विचरण?
किमी।

1
क्या आप स्पष्ट कर सकते हैं कि आप अपने पोस्ट के पहले बयान से क्या मतलब है? इसमें आप "डेटा पॉइंट" (व्यक्तिगत अवलोकन) को वर्गीकृत करना चाहते हैं या तो "अधिक जटिल और अधिक जटिल मॉडल की आवश्यकता नहीं है।" यह मेरे लिए बिल्कुल स्पष्ट नहीं है कि इसका क्या मतलब है (हालांकि यह एक बाहरी पहचान या अन्य अच्छाई-की-फिट प्रकार की समस्या की तरह लगता है), या यह पूर्वाग्रह के आकलन के बारे में बाद के सवालों से कैसे संबंधित है।
रयान सीमन्स

मेरा मतलब है कि मेरे नमूनों का एक सबसेट है जो एक अलग लक्ष्य समारोह है f(x)। तो चलिए बताते हैं कि ज्यादातर नमूनों के लिए, सही लक्ष्य फ़ंक्शन निम्नानुसार है:f1(x)=3x1+2x2 और नमूनों की अल्पसंख्यक के लिए, लक्ष्य समारोह है: f2(x)=3x1+2x2+x1x2। यदि मैं अपने मॉडल में बातचीत की शर्तों के लिए अनुमति नहीं देता (मेरी परिकल्पना सेट में उन्हें शामिल नहीं किया गया है), तो मुझे सभी डेटा को फिट करना चाहिए, और यह देखना चाहिए कि जिन नमूनों में बड़ी त्रुटि है, उनमें संभवतः लक्ष्य फ़ंक्शन हैf2
किमी

2
जैसा कि रेयान ने पहले ही कहा था, सवाल बहुत स्पष्ट रूप से नहीं कहा गया है। आपकी टिप्पणी "अच्छाई-की-फिट" की दिशा में इंगित करती है। लेकिन इसे मोड़ना असंभव है। आपको लगता है कि मन में एक पूर्व अवधारणा है, जो भ्रामक है। यदि आप एक मॉडल और कुछ डेटा को जोड़ते हैं और मॉडल मापदंडों को निर्धारित करते हैं तो आप बहुत सी चीजों की गणना कर सकते हैं। लेकिन यह देखते हुए कि आप हमेशा सांख्यिकीय रूप से सीमित डेटा सेट के साथ शुरुआत करते हैं, इसमें कोई सच्चाई नहीं है कि आप कठिन खुदाई करके या अधिक फावड़ियों के साथ उजागर कर सकते हैं। आपके द्वारा लागू की गई कोई भी विधि सत्य नहीं होगी, लेकिन यह संकेत दे सकती है कि आप कितने गलत हो सकते हैं।
करूब

जवाबों:


12

आप आम तौर पर पूर्वाग्रह और विचरण घटकों में त्रुटि (अवशिष्ट) को विघटित नहीं कर सकते। सरल कारण यह है कि आप आम तौर पर सही कार्य नहीं जानते हैं। याद करें किbias(f^(x))=E[f^(x)f(x)], और वह f(x) वह अज्ञात चीज है जिसका आप अनुमान लगाना चाहते हैं।

बूटस्ट्रैपिंग के बारे में क्या? बूटस्ट्रैपिंग द्वारा एक अनुमानक के पूर्वाग्रह का अनुमान लगाना संभव है, लेकिन यह बैगिंग मॉडल के बारे में नहीं है, और मुझे विश्वास नहीं है कि पूर्वाग्रह का आकलन करने के लिए बूटस्ट्रैप का उपयोग करने का एक तरीका हैf^(x), क्योंकि बूटस्ट्रैपिंग अभी भी सत्य की कुछ धारणा पर आधारित है और इसके नाम की उत्पत्ति के बावजूद, बिना कुछ के कुछ भी बना सकते हैं।

स्पष्ट करने के लिए: अनुमानक में पूर्वाग्रह का बूटस्ट्रैप अनुमान θ^ है

bias^B=θ^()θ^,

साथ में θ^() आपके आंकड़े की औसत पर गणना की जा रही है B बूटस्ट्रैप के नमूने । यह प्रक्रिया कुछ आबादी से नमूने लेने और आपकी मात्रा की गणना करने का अनुकरण करती है। यह केवल अगर काम करता हैθ^सिद्धांत रूप में जनसंख्या से सीधे गणना की जा सकती है। पूर्वाग्रह का बूटस्ट्रैप अनुमान यह आकलन करता है कि क्या प्लग-इन अनुमान- यानी आबादी के बजाय एक नमूने पर एक ही गणना करना - पक्षपाती है।

यदि आप बस मॉडल के मूल्यांकन के लिए अपने अवशेषों का उपयोग करना चाहते हैं, तो यह पूरी तरह से संभव है। यदि आप, जैसा कि आप टिप्पणियों में कहते हैं, नेस्टेड मॉडल की तुलना करना चाहते हैंf1(x)=3x1+2x2 तथा f2(x)=3x1+2x2+x1x2, आप यह जांचने के लिए एनोवा कर सकते हैं कि क्या बड़ा मॉडल चुकता त्रुटि के योग को काफी कम कर देता है।


8

एक स्थिति जहां आप अपघटन का अनुमान लगा सकते हैं यदि आपके पास प्रतिकृति अंक हैं (यानी भविष्यवक्ताओं के विभिन्न संयोजनों के लिए एक से अधिक प्रतिक्रिया है)।

यह ज्यादातर उन स्थितियों तक सीमित होता है जहां आपके पास स्वतंत्र चर (जैसे प्रयोगों में) का नियंत्रण होता है या जहां वे सभी असतत होते हैं (जब बहुत अधिक एक्स-संयोजन नहीं होते हैं और आप एक बड़ा पर्याप्त नमूना ले सकते हैं जो x- मूल्य संयोजन है कई अंक प्राप्त करें)।

प्रतिकृति बिंदु आपको सशर्त माध्य का अनुमान लगाने का एक मॉडल-मुक्त तरीका देते हैं। ऐसी स्थितियों में वर्गों की अवशिष्ट राशि के शुद्ध विघटन और फिट की कमी के अपघटन की संभावना है , लेकिन आपके पास एक्स-मूल्यों के प्रत्येक संयोजन पर पूर्वाग्रह के प्रत्यक्ष (हालांकि जरूरी शोर) का अनुमान है जिसके लिए आपके पास कई प्रतिक्रियाएं हैं।


मुझे नहीं लगता कि यह काम करेगा। उस मामले पर विचार करें जहां आपने अपने मॉडल से एक महत्वपूर्ण व्याख्यात्मक चर छोड़ा था। यदि यह व्याख्यात्मक चर अन्य सभी व्याख्यात्मक चर के लिए रूढ़िवादी है, तो मेरा मानना ​​है कि इसके प्रभाव (या कमी) को इस या अन्य उत्तर में सुझाई गई किसी भी कार्यप्रणाली के साथ नहीं पाया जा सकता है।
Cagdas Ozgenc

2
@ कागदास यह सभी परिस्थितियों में काम नहीं करता है; यह गलत तरीके से बनाए गए मॉडल-रूप से पूर्वाग्रह का पता लगाता है, जरूरी नहीं कि भविष्यवाणियाँ याद हों
Glen_b -Reinstate Monica

1

कुछ हद तक अधिक जटिल कलमन फ़िल्टरिंग क्षेत्र में, कभी-कभी लोग मॉडल परिवर्तन या गलती की स्थिति को देखने के लिए अवशिष्ट (मनाया माप माइनस अनुमानित माप) का परीक्षण करते हैं। सिद्धांत रूप में, यदि मॉडल एकदम सही है, और शोर गाऊसी है, तो अवशिष्ट भी शून्य माध्य के साथ गाऊसी होना चाहिए और एक पूर्वानुमानित सहसंयोजक मैट्रिक्स के अनुरूप भी होना चाहिए। लोग अनुक्रमिक संभाव्यता अनुपात परीक्षण (SPRT) जैसे अनुक्रमिक परीक्षणों के साथ नॉनजरो माध्य के लिए परीक्षण कर सकते हैं। आपकी स्थिति अलग है क्योंकि आपके पास नए डेटा की एक स्थिर धारा के बजाय डेटा का एक निश्चित बैच है। लेकिन अवशेषों के नमूना वितरण को देखने का मूल विचार अभी भी लागू हो सकता है।

आप इंगित करते हैं कि आप जो प्रक्रिया कर रहे हैं वह कभी-कभी बदल सकती है। फिर, आपके पास मौजूद डेटा के साथ और अधिक करने के लिए, आपको संभवतः उस परिवर्तन के कारण अन्य कारकों की पहचान करने की आवश्यकता होगी। 2 संभावनाओं पर विचार करें: (1) हो सकता है कि आपको एक वैश्विक मॉडल के बजाय स्थानीय मॉडल की आवश्यकता हो, उदाहरण के लिए, क्योंकि केवल कुछ ऑपरेटिंग क्षेत्रों में गंभीर गैर-भिन्नताएं हैं, या (2), शायद प्रक्रिया समय के साथ बदलती है।

यदि यह एक भौतिक प्रणाली है, और आपके नमूनों को अलग-अलग समय अंतराल में नहीं लिया गया है, तो संभव है कि ये प्रक्रिया महत्वपूर्ण समय अवधि में बनी रहे। यही है, कुछ समय की अवधि के लिए सही मॉडल पैरामीटर कभी-कभी बदल सकते हैं। यदि आपके डेटा पर समय की मुहर लगी है, तो आप समय के साथ अवशेष देख सकते हैं। उदाहरण के लिए, मान लें कि आपने अपने सभी डेटा का उपयोग करके ए और बी का उपयोग करके y = Ax + b फिट किया है। फिर वापस जाएं और अवशिष्ट अनुक्रम r [k] = y [k] - Ax [k] - b का परीक्षण करें, जहां k अनुक्रमिक क्रम में कई बार एक अनुक्रमणिका है। समय के साथ प्रतिमानों की तलाश करें, जैसे, समयावधि जहाँ सारांश आँकड़े जैसे || r [k] || कुछ समय के लिए सामान्य से अधिक रहता है। अनुक्रमिक परीक्षण त्रुटियों के निरंतर पूर्वाग्रह प्रकारों का पता लगाने के लिए सबसे अधिक संवेदनशील होंगे, व्यक्तिगत वेक्टर सूचकांकों के लिए SPRT या यहां तक ​​कि CUSUM जैसी कोई चीज।


1

इसका जवाब नहीं है , क्योंकि पूर्वाग्रह और भिन्नता मॉडल मापदंडों की विशेषता है, बजाय डेटा का अनुमान लगाने के लिए उनका उपयोग किया जाता है। उस कथन का एक आंशिक अपवाद है, जो भविष्यवक्ता स्थान के माध्यम से पूर्वाग्रह और भिन्नता (हा!) से संबंधित है; उस पर और अधिक। ध्यान दें कि यह भविष्यवाणियों और प्रतिक्रिया चर से संबंधित कुछ "सच" फ़ंक्शन को जानने के लिए बिल्कुल कुछ नहीं है।

के अनुमान पर विचार करें एक रेखीय प्रतिगमन, में है, जहां एक है भविष्यवक्ताओं की मैट्रिक्स, एक है पैरामीटर अनुमान के वेक्टर, और प्रतिक्रियाओं का एक वेक्टर है। आइए तर्क के लिए मान लें कि हमारे पास डेटा की एक अनंत आबादी है, जिसमें से ड्रा करना है (यह पूरी तरह से हास्यास्पद नहीं है, अगर हम सक्रिय रूप से कुछ भौतिक प्रक्रिया से डेटा रिकॉर्ड कर रहे थे, तो हम एक त्वरित दर पर भविष्यवक्ता और प्रतिक्रिया डेटा रिकॉर्ड कर सकते हैं , इस प्रकार व्यावहारिक रूप से इस धारणा को संतुष्ट करना)। तो हम टिप्पणियों, प्रत्येक एक प्रतिक्रिया मूल्य और प्रत्येक के लिए एक मूल्य से मिलकर आकर्षित करते हैंββ^=(XTX)1XTYXN×Pβ^P×1YN×1NP भविष्यवाणियों। हम तो हमारे द्वारा अनुमानित गणना और मूल्यों रिकॉर्ड है। आइए फिर हम इस पूरी प्रक्रिया को लेते हैं और इसे बार दोहराते हैं , हर बार जनसंख्या से स्वतंत्र ड्रा बनाते हैं । हम जमा हो के अनुमान जिस पर हम पैरामीटर वेक्टर में प्रत्येक तत्व के विचरण की गणना कर सकते हैं। ध्यान दें कि इन पैरामीटर अनुमानों का विचलन विपरीत आनुपातिक है और समानुपाती है , भविष्यवाणियों की रूढ़िवादिता को मानते हुए।β^NiterNNiterβ^NP

प्रत्येक पैरामीटर के पूर्वाग्रह का अनुमान इसी तरह लगाया जा सकता है। हालांकि हमारे पास "सही" फ़ंक्शन तक पहुंच नहीं हो सकती है, मान लीजिए कि हम आबादी से एक बड़ी संख्या में ड्रॉ बना सकते हैं ताकि गणना की जा , जो "सही" पैरामीटर मान के लिए एक प्रॉक्सी के रूप में काम करेगा। । हम मान लेंगे कि यह एक निष्पक्ष अनुमान है (साधारण न्यूनतम वर्ग) और उपयोग की गई टिप्पणियों की संख्या पर्याप्त रूप से इतनी बड़ी थी कि इस अनुमान का विचरण नगण्य है। से प्रत्येक के लिए मापदंडों, हम गणना , जहां से लेकर को । हम इन अंतरों के औसत को संबंधित पैरामीटर में पूर्वाग्रह के अनुमान के रूप में लेते हैं।β^bestPβ^bestjβ^jj1Niter

डेटा से संबंधित पूर्वाग्रह और भिन्नता के समान तरीके हैं, लेकिन वे थोड़े अधिक जटिल हैं। जैसा कि आप देख सकते हैं, रैखिक मॉडल के लिए पूर्वाग्रह और विचरण का अनुमान लगाया जा सकता है, लेकिन आपको काफी हद तक होल्ड-आउट डेटा की आवश्यकता होगी। एक और अधिक गंभीर समस्या यह है कि एक बार जब आप एक निश्चित डेटासेट के साथ काम करना शुरू कर देते हैं, तो आपके विश्लेषण आपके व्यक्तिगत परिवर्तन से प्रदूषित हो जाएंगे , इसमें आप पहले से ही पथरीले रास्तों के बगीचे से भटकना शुरू कर देंगे और यह जानने का कोई तरीका नहीं है कि कैसे जब तक आप सिर्फ एक मॉडल के साथ नहीं आए (तब तक यह विश्लेषण चला और इसे उसके बाद अकेले छोड़ने के लिए प्रतिबद्ध)।

डेटा के मामले के बारे में खुद को इंगित करता है, सबसे सही (और तुच्छ) उत्तर यह है कि यदि और बीच कोई अंतर हैYY^, आपको एक अधिक जटिल मॉडल की आवश्यकता है (यह मानते हुए कि आप सभी प्रासंगिक भविष्यवाणियों की सही पहचान कर सकते हैं; आप नहीं कर सकते)। "त्रुटि" की दार्शनिक प्रकृति पर एक उबाऊ ग्रंथ में जाने के बिना, लब्बोलुआब यह है कि वहाँ कुछ चल रहा था जिससे आपके मॉडल को अपना निशान चूक गया। समस्या यह है कि जटिलता को जोड़ने से विचरण बढ़ जाता है, जो संभवतः अन्य डेटा बिंदुओं पर निशान से चूक जाएगा। इसलिए, व्यक्तिगत डेटा बिंदु स्तर पर त्रुटि के आरोप के बारे में चिंता करना एक सार्थक प्रयास होने की संभावना नहीं है। अपवाद (पहले पैराग्राफ में उल्लिखित) इस तथ्य से उपजा है कि पूर्वाग्रह और विचरण वास्तव में स्वयं भविष्यवक्ताओं के कार्य हैं, इसलिए आपके पास भविष्यवक्ता के एक भाग में बड़े पूर्वाग्रह और दूसरे में छोटे पूर्वाग्रह हो सकते हैं (विचरण के लिए समान)।YY^कई बार (जहां और not का अनुमान पर आधारित नहीं था ) और के मूल्यों के एक फ़ंक्शन के रूप में इसके पूर्वाग्रह (औसत) और विचरण की साजिश रच रहा था । हालांकि, मुझे लगता है कि यह एक विशेष चिंता का विषय है।Y^=Xβ^β^ YX

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.