पूर्वाग्रह-विचरण व्यापार के बारे में प्रश्न


15

मैं पूर्वाग्रह-विचरण व्यापार को समझने की कोशिश कर रहा हूं, अनुमानक के पूर्वाग्रह और मॉडल के पूर्वाग्रह के बीच संबंध, और अनुमानक के विचरण और मॉडल के विचरण के बीच संबंध।

मैं इन नतीजों पर आया:

  • जब हम अनुमानक के पूर्वाग्रह को नजरअंदाज करते हैं, तब हम डेटा को ओवरफिट करते हैं, जब हम केवल मॉडल के विचरण को नजरअंदाज करते हुए मॉडल के पूर्वाग्रह को कम करने का लक्ष्य रखते हैं (दूसरे शब्दों में हम केवल बिना विचार किए आकलनकर्ता के विचरण को कम करने का लक्ष्य रखते हैं। अनुमानक का पूर्वाग्रह भी)
  • इसके विपरीत, हम डेटा को कम आंकते हैं जब हम अनुमानक के विचरण की उपेक्षा करते हैं, जब हम केवल मॉडल के पूर्वाग्रह की उपेक्षा करते हुए मॉडल के विचरण को कम करने का लक्ष्य रखते हैं (दूसरे शब्दों में हम केवल पूर्वाग्रह को कम करने का लक्ष्य रखते हैं। अनुमानक के विचरण पर विचार किए बिना भी अनुमानक)।

क्या मेरे निष्कर्ष सही हैं?


जॉन, मुझे लगता है कि आप ताल यारकोनी और जैकब वेस्टफॉल के इस लेख को पढ़ने का आनंद लेंगे - यह पूर्वाग्रह-व्यापार-बंद की एक सहज व्याख्या प्रदान करता है: jakewestfall.org/publications/…
इसाबेला घीमे

जवाबों:


22

अच्छी तरह की। जैसा कि कहा गया है, आप वैज्ञानिक से पूर्वाग्रह या भिन्नता को कम करने के इरादे का उल्लेख करते हैं। व्यवहार में, आप अपने मॉडल के पूर्वाग्रह या भिन्नता का स्पष्ट रूप से निरीक्षण नहीं कर सकते हैं (यदि आप कर सकते हैं, तो आपको सही संकेत पता होगा, जिस स्थिति में आपको मॉडल की आवश्यकता नहीं होगी)। सामान्य तौर पर, आप केवल एक विशिष्ट डेटा सेट पर अपने मॉडल की त्रुटि दर का निरीक्षण कर सकते हैं, और आप विभिन्न रचनात्मक तकनीकों का उपयोग करके नमूना त्रुटि दर का अनुमान लगा सकते हैं।

अब आप करते हैं कि पता है, सैद्धांतिक रूप से कम से कम, इस त्रुटि दर पूर्वाग्रह और विचरण मामले में विघटित किया जा सकता है, लेकिन आप सीधे किसी भी विशिष्ट ठोस स्थिति में इस संतुलन का पालन नहीं कर सकते हैं। इसलिए मैं आपकी टिप्पणियों को थोड़ा संशोधित करूंगा:

  • एक मॉडल डेटा से कम है जब पूर्वाग्रह शब्द नमूना त्रुटि के बहुमत से योगदान देता है।
  • जब मॉडल शब्द नमूना त्रुटि से बाहर के बहुमत का योगदान देता है, तो एक मॉडल डेटा से ओवरफिट होता है।

सामान्य तौर पर, निश्चित रूप से जानने का कोई वास्तविक तरीका नहीं है, क्योंकि आप कभी भी मॉडल पूर्वाग्रह का पालन नहीं कर सकते हैं। बहरहाल, व्यवहार के विभिन्न पैटर्न हैं जो एक स्थिति या किसी अन्य में होने का संकेत देते हैं:

  • ओवरफिट मॉडल में परीक्षण डेटासेट बनाम प्रशिक्षण डेटा सेट पर फिट प्रदर्शन की बहुत खराब अच्छाई होती है।
  • अंडरफिट मॉडल में एक परीक्षण बनाम प्रशिक्षण डेटा सेट पर फिट प्रदर्शन के समान अच्छाई होती है।

ये पैटर्न हैं जो मॉडल जटिलता द्वारा त्रुटि दर के प्रसिद्ध भूखंडों में प्रकट होते हैं, यह एक द स्टैटिस्टिकल ऑफ़ स्टैटिस्टिकल लर्निंग से है:

modelComplexity

अक्सर ये भूखंड एक पूर्वाग्रह और विचरण वक्र के साथ अतिच्छादित होते हैं। मैंने इसे इस अच्छे प्रदर्शन से लिया :

यहाँ छवि विवरण दर्ज करें

लेकिन, यह महसूस करना बहुत महत्वपूर्ण है कि आपको वास्तव में किसी भी यथार्थवादी स्थिति में इन अतिरिक्त घटता को देखने के लिए कभी नहीं मिलता है।


4

एक उदाहरण का उपयोग करके पूर्वाग्रह - भिन्न व्यापार को दर्शाना

जैसा कि @ मैथ्यू डॉरी बताते हैं, यथार्थवादी स्थितियों में आपको अंतिम ग्राफ़ देखने को नहीं मिलता है, लेकिन निम्न खिलौना उदाहरण उन लोगों के लिए दृश्य व्याख्या और अंतर्ज्ञान प्रदान कर सकता है जो इसे उपयोगी पाते हैं।

दसेटसेट और मान्यताओं

उन डेटासेटों पर विचार करें, जिनमें से नमूने के रूप में iid नमूने शामिल हैंY

  • Y=रोंमैंn(πएक्स-0.5)+εε~यूnमैंआर(-0.5,0.5)
  • Y=(एक्स)+ε

एक्सYवीआर(Y)=वीआर(ε)=112

^(एक्स)=β0+β1एक्स+β1एक्स2++βपीएक्सपी

विभिन्न बहुपत्नी मॉडल फिटिंग

सहज रूप से, आप एक सीधी रेखा वक्र की अपेक्षा करेंगे कि बुरी तरह से प्रदर्शन करें क्योंकि डेटासेट स्पष्ट रूप से गैर रेखीय है। इसी तरह, बहुत उच्च क्रम बहुपद की फिटिंग अत्यधिक हो सकती है। यह अंतर्ज्ञान नीचे दिए गए ग्राफ़ में परिलक्षित होता है जो विभिन्न मॉडलों और ट्रेन और परीक्षण डेटा के लिए इसी माध्य स्क्वायर त्रुटि को दर्शाता है।

यहाँ छवि विवरण दर्ज करें

उपरोक्त ग्राफ एकल ट्रेन / परीक्षण विभाजन के लिए काम करता है लेकिन हम कैसे जानते हैं कि यह सामान्य है?

अपेक्षित ट्रेन और परीक्षण MSE का अनुमान लगाना

यहां हमारे पास कई विकल्प हैं, लेकिन एक दृष्टिकोण बेतरतीब ढंग से ट्रेन / परीक्षण के बीच डेटा को विभाजित करने के लिए है - दिए गए विभाजन पर मॉडल को फिट करें, और इस प्रयोग को कई बार दोहराएं। परिणामी MSE को प्लॉट किया जा सकता है और औसत अपेक्षित त्रुटि का अनुमान है।

यहाँ छवि विवरण दर्ज करें

यह देखना दिलचस्प है कि डेटा के विभिन्न ट्रेन / परीक्षण विभाजन के लिए परीक्षण MSE में बेतहाशा उतार-चढ़ाव होता है। लेकिन औसतन पर्याप्त संख्या में प्रयोग करने से हमें बेहतर आत्मविश्वास प्राप्त होता है।

ग्रे बिंदीदार रेखा पर ध्यान दें जो कि के विचरण को दर्शाता है Yशुरुआत में गणना की। ऐसा लगता है कि औसतन परीक्षण एमएसई इस मान से कम नहीं है

 पूर्वाग्रह - भिन्नता अपघटन

जैसा कि यहाँ बताया गया है कि MSE को 3 मुख्य घटकों में विभाजित किया जा सकता है:

[(Y-^)2]=σε2+बीमैंरों2[^]+वीआर[^]
[(Y-^)2]=σε2+[-[^]]2+[^-[^]]2

हमारे खिलौने के मामले में कहां:

  • प्रारंभिक डेटासेट से जाना जाता है
  • σε2 के समान वितरण से जाना जाता है ε
  • [^] ऊपर के रूप में गणना की जा सकती है
  • ^ एक हल्के रंग की रेखा से मेल खाती है
  • [^-[^]]2 औसत लेकर अनुमान लगाया जा सकता है

निम्नलिखित संबंध देते हुए

यहाँ छवि विवरण दर्ज करें

नोट: ऊपर दिया गया ग्राफ मॉडल को फिट करने के लिए प्रशिक्षण डेटा का उपयोग करता है और फिर ट्रेन + परीक्षण पर MSE की गणना करता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.