रैखिक प्रतिगमन के पूर्वाग्रह-विघटन अपघटन में भिन्न शब्द


9

'द एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग' में, रैखिक-मॉडल के पूर्वाग्रह-विघटन के लिए अभिव्यक्ति के रूप में दिया गया है

Err(x0)=σϵ2+E[f(x0)Ef^(x0)]2+||h(x0)||2σϵ2,
कहाँ पे f(x0)वास्तविक लक्ष्य समारोह, है मॉडल में यादृच्छिक त्रुटि के विचरण है और के रैखिक आकलनकर्ता है ।σϵ2y=f(x)+ε^(एक्स)(एक्स)

विचरण शब्द मुझे यहां परेशान कर रहा है क्योंकि समीकरण का अर्थ है कि यदि लक्ष्य नीरव हैं, अर्थात, , तो विचरण शून्य होगालेकिन इसका मुझे कोई मतलब नहीं है क्योंकि शून्य शोर के साथ भी मैं अलग-अलग प्रशिक्षण सेटों के लिए अलग- अलग अनुमानक प्राप्त कर सकता हूं जिसका अर्थ है कि विचरण गैर-शून्य है।σε2=0।^(एक्स0)

उदाहरण के लिए, मान लीजिए कि लक्ष्य फ़ंक्शन एक द्विघात है और प्रशिक्षण डेटा में इस द्विघात से यादृच्छिक पर दो अंक हैं; स्पष्ट रूप से, मुझे द्विआधारी रूप से एक अलग रैखिक फिट मिलेगा I द्विघात लक्ष्य से यादृच्छिक रूप से दो अंक। फिर विचरण शून्य कैसे हो सकता है?(एक्स0)

क्या कोई मुझे यह पता लगाने में मदद कर सकता है कि पूर्वाग्रह-विघटन की मेरी समझ में क्या गलत है?

जवाबों:


6

पूर्वाग्रह और विचरण के उपचार में हमेशा एक गुप्त सूक्ष्मता होती है, और अध्ययन करते समय इस पर ध्यान देना महत्वपूर्ण है। यदि आप उस अध्याय के एक खंड में ईएसएल के पहले कुछ शब्दों को फिर से पढ़ते हैं, तो लेखक इसे कुछ सम्मान देंगे।

त्रुटि दर के आकलन की चर्चा भ्रामक हो सकती है, क्योंकि हमें यह स्पष्ट करना होगा कि कौन सी मात्राएं निर्धारित हैं और कौन सी यादृच्छिक हैं

सूक्ष्मता जो तय है, और जो यादृच्छिक है

रेखीय प्रतिगमन के पारंपरिक उपचार में, डेटा एक्सतय और ज्ञात के रूप में माना जाता है। यदि आप ईएसएल में तर्कों का पालन करते हैं, तो आप पाएंगे कि लेखक भी यह धारणा बना रहे हैं। इन मान्यताओं के तहत, आपका उदाहरण खेल में नहीं आता है, क्योंकि सशर्त वितरण से यादृच्छिकता का एकमात्र शेष स्रोत हैy दिया हुआ एक्स। यदि यह मदद करता है, तो आप नोटेशन को बदलना चाह सकते हैंआरआर(एक्स0) आपके मन में आरआर(एक्स0|एक्स)

यह कहना नहीं है कि आपकी चिंता अमान्य है, यह निश्चित रूप से सच है कि प्रशिक्षण डेटा का चयन वास्तव में हमारे मॉडल एल्गोरिथ्म में यादृच्छिकता का परिचय देता है, और एक मेहनती चिकित्सक अपने परिणामों पर इस यादृच्छिकता के प्रभाव को निर्धारित करने का प्रयास करेगा। वास्तव में, आप काफी स्पष्ट रूप से देख सकते हैं कि बूटस्ट्रैपिंग और क्रॉस-वैधीकरण की सामान्य प्रथाएं स्पष्ट रूप से यादृच्छिकता के इन स्रोतों को अपने निष्कर्षों में शामिल करती हैं।

एक यादृच्छिक प्रशिक्षण डेटा सेट के संदर्भ में एक रैखिक मॉडल के पूर्वाग्रह और विचरण के लिए एक स्पष्ट गणितीय अभिव्यक्ति प्राप्त करने के लिए, किसी को यादृच्छिकता की संरचना के बारे में कुछ धारणाएं बनाने की आवश्यकता होगी। एक्सडेटा। इसमें वितरण पर कुछ अनुमान शामिल होंगेएक्स। यह किया जा सकता है, लेकिन इन विचारों के मुख्यधारा के विस्तार का हिस्सा नहीं बन गया है।


इस तथ्य को साफ करने के लिए बहुत बहुत धन्यवाद कि लेखकों ने मान लिया है एक्स तय किया जाना है, इसलिए यहाँ अपेक्षा wrt है Y|एक्स नहीं (एक्स,Y)। लेकिन हम लिख सकते हैं=एक्सY|एक्स, जिसका अर्थ है कि एक्स को यादृच्छिक मानने से हमें मिलेगा वीआर(^(एक्स0))=एक्स[||(एक्स0)||2σε2]। यह अभी भी शून्य होगाσε2शून्य है। मुझे इस समीकरण के बारे में एक समान संदेह था, आप इस पोस्ट पर मेरी व्युत्पत्ति का पता लगा सकते हैं: आंकड़े.stackexchange.com/questions/307110/…
अभिनव गुप्ता

मेरा अनुमान है कि लेखक मान रहे हैं कि मॉडल सही ढंग से निर्दिष्ट है, यानी सही परिवर्तनों के साथ सभी और केवल प्रासंगिक भविष्यवाणियों को शामिल किया गया है। हालांकि मुझे पुष्टि करने के लिए अपनी मेमोरी पर निर्भर रहने के बजाय पुस्तक पर वापस जाना होगा।
मैथ्यू ड्र्यू

यदि 'सही ढंग से निर्दिष्ट' से आपका मतलब है कि लक्ष्य फ़ंक्शन वास्तव में रैखिक है, तो मैं समझता हूं कि शून्य शोर शून्य पूर्वाग्रह होगा। लेकिन यह पता चला है कि भले ही लक्ष्य फ़ंक्शन रैखिक नहीं है, हमें विचरण के लिए सटीक समान अभिव्यक्ति मिलती है।
अभिनव गुप्ता

1
यह सच है, लेकिन उस मामले में "सही ढंग से निर्दिष्ट" का मतलब होगा कि आप सही भविष्यवक्ताओं सहित एक मॉडल को फिट करने के लिए रैखिक प्रतिगमन का उपयोग कर रहे थे । इसलिए यदि सच्चा रिश्ता द्विघात है, तो आप मान लेंगे कि आपके मॉडल में द्विघात शब्द शामिल हैं।
मैथ्यू ड्र्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.