पूर्वाग्रह-विघटन अपघटन


13

बिशप के पैटर्न मान्यता और मशीन लर्निंग की धारा 3.2 में , वह पूर्वाग्रह-विघटन अपघटन पर चर्चा करता है, जिसमें कहा गया है कि एक चुकता नुकसान फ़ंक्शन के लिए, अपेक्षित नुकसान एक स्क्वैयर बायस टर्म में विघटित हो सकता है (जो वर्णन करता है कि अब तक औसत पूर्वानुमान सही हैं मॉडल), एक विचरण शब्द (जो औसत के आसपास की भविष्यवाणियों के प्रसार का वर्णन करता है), और एक शोर शब्द (जो डेटा के आंतरिक शोर देता है)।

  1. क्या पूर्वाग्रह-विघटन अपघटन को नुकसान वाले कार्यों के अलावा चुकता नुकसान के साथ किया जा सकता है?
  2. किसी दिए गए मॉडल डेटासेट के लिए, क्या एक से अधिक मॉडल हैं जिनकी अपेक्षित हानि सभी मॉडलों पर न्यूनतम है, और यदि ऐसा है, तो क्या इसका मतलब यह है कि पूर्वाग्रह और भिन्नता के विभिन्न संयोजन हो सकते हैं जो समान न्यूनतम अपेक्षित नुकसान देते हैं?
  3. यदि किसी मॉडल में नियमितीकरण शामिल है, तो क्या पूर्वाग्रह, विचरण और नियमितीकरण गुणांक बीच एक गणितीय संबंध है ?λ
  4. यदि आप सच्चे मॉडल को नहीं जानते हैं तो आप पूर्वाग्रह की गणना कैसे कर सकते हैं?
  5. क्या ऐसी परिस्थितियां हैं, जिनमें अपेक्षित हानि (वर्गित पूर्वाग्रह और भिन्नता का योग) के बजाय पूर्वाग्रह या विचरण को कम करना अधिक समझ में आता है?

जवाबों:


3

... अपेक्षित [चुकता त्रुटि] नुकसान एक चुकता पूर्वाग्रह अवधि में विघटित हो सकता है (जो वर्णन करता है कि सच्चे मॉडल से औसत भविष्यवाणियां कितनी दूर हैं), एक विचरण शब्द (जो औसत के आसपास की भविष्यवाणियों के प्रसार का वर्णन करता है), और एक शोर शब्द (जो डेटा का आंतरिक शोर देता है)।

जब चुकता त्रुटि को देखते हुए अपघटन मुझे केवल दो शब्द दिखाई देते हैं: एक पूर्वाग्रह के लिए और दूसरा एक अनुमानक या भविष्यवक्ता के विचरण के लिए, । अपेक्षित नुकसान में कोई अतिरिक्त शोर नहीं है। चूँकि परिवर्तनशीलता होनी चाहिए क्योंकि परिवर्तनशीलता , न कि केवल नमूने की।

Eθ[(θδ(X1:n))2]=(θEθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]δ(X1:n))2]
δ ( एक्स 1 : एन )δ(X1:n)δ(X1:n)
  1. क्या पूर्वाग्रह-विघटन अपघटन को नुकसान वाले कार्यों के अलावा चुकता नुकसान के साथ किया जा सकता है?

चुकता पूर्वाग्रह + विचरण विघटन [और जिस तरह से मैं इसे सिखाता हूं] की मेरी व्याख्या यह है कि यह पाइथागोर के प्रमेय के सांख्यिकीय समतुल्य है, अर्थात् एक अनुमानक और एक निश्चित सेट के भीतर एक बिंदु के बीच चुकता दूरी वर्ग दूरी का योग है। एक अनुमानक और सेट के बीच, सेट पर ऑर्थोगोनल प्रक्षेपण और सेट के भीतर बिंदु के बीच की चुकता दूरी। किसी दिए गए मॉडल के डेटासेट के साथ एक दूरी के आधार पर कोई भी नुकसान, क्या एक से अधिक मॉडल है जिसकी अपेक्षित हानि सभी मॉडलों पर न्यूनतम है, और यदि ऐसा है, तो इसका मतलब है कि पूर्वाग्रह और भिन्नता के विभिन्न संयोजन हो सकते हैं जो उपज देते हैं समान न्यूनतम अपेक्षित हानि; ओर्थोगोनल प्रक्षेपण की भावना, अर्थात, एक आंतरिक उत्पाद, अर्थात, अनिवार्य रूप से हिल्बर्ट रिक्त स्थान, इस अपघटन को संतुष्ट करता है।

  1. किसी दिए गए मॉडल डेटासेट के लिए, क्या एक से अधिक मॉडल हैं जिनकी अपेक्षित हानि सभी मॉडलों पर न्यूनतम है, और यदि ऐसा है, तो क्या इसका मतलब यह है कि पूर्वाग्रह और भिन्नता के विभिन्न संयोजन हो सकते हैं जो समान न्यूनतम अपेक्षित नुकसान देते हैं?

प्रश्न स्पष्ट नहीं है: यदि न्यूनतम मॉडल से अधिक है, तो आप तो कई उदाहरण हैं सांख्यिकीय मॉडल और एक निरंतर अपेक्षित हानि (या जोखिम) के साथ जुड़े निर्णय । उदाहरण के लिए MLE को एक सामान्य साधन के लिए लें।

minθEθ[(θδ(X1:n))2]
  1. यदि आप सच्चे मॉडल को नहीं जानते हैं तो आप पूर्वाग्रह की गणना कैसे कर सकते हैं?

एक सामान्य अर्थ में, पूर्वाग्रह वितरण के ग्रहण किए गए परिवार के भीतर सच्चे मॉडल और निकटतम मॉडल के बीच की दूरी है। यदि सही मॉडल अज्ञात है, तो बूटस्ट्रैप द्वारा पूर्वाग्रह का पता लगाया जा सकता है।

  1. क्या ऐसी परिस्थितियां हैं, जिनमें अपेक्षित हानि (वर्गित पूर्वाग्रह और भिन्नता का योग) के बजाय पूर्वाग्रह या विचरण को कम करना अधिक समझ में आता है?

जब दूसरे नुकसान के कार्य पर विचार किया जाता है, जैसे धक्का शून्य करने के लिए कहते हैं पूर्वाग्रह पर मूल्यांकन का सबसे धक्का जबकि अनंत को स्विच विचरण पर ध्यान दें।

(θEθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]δ(X1:n))2]0<α
αα

ओपी का शोर शब्द इस तथ्य के कारण है कि अनुमानक एक पैरामीटर के लिए नहीं है, लेकिन मॉडल में फ़ंक्शन के लिए , जहां (स्वतंत्र) शोर माना जाता है शून्य माध्य और विचरण । जोड़ा जा रहा है और पहली घटाकर तो में , एक उल्लेखित अपघटनfY=f(X)+ϵϵσϵf(X)E[f^(X)]E[(Yf(X))2|X=x]σϵ2+Bias2f^(x)+Varf^(x)
मिगुएल

यह माना जाता है कि से स्वतंत्र है , जो यथार्थवादी नहीं लगता है। f^ϵ
शीआन

हम्म, आप निश्चित रूप से सही हैं। लेकिन मुझे लगता है कि यह मुद्दा मेरी मैला व्युत्पत्ति का एक कारण है। Hastie & Tibshirani के ESLII
मिगेल

@ मिग्युएल: वास्तव में हम मान लेते हैं कि एक्स से स्वतंत्र होने के लिए , न कि । व्यक्तिगत रूप से मुझे ईएसएल (और कई अन्य) की व्युत्पत्ति कठोर नहीं लगती है, इस प्रकार भ्रामक है। "डेटा से सीखना" में प्रो मुस्तफा की व्युत्पत्ति वही होनी चाहिए जो आप देख रहे हैं, या इस पोस्ट में देखें: आंकड़े.stackexchange.com/questions/164378/…ϵf^
14:32 पर SiXUlm
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.