प्रस्तावना
यह एक लंबी पोस्ट है। यदि आप इसे दोबारा पढ़ रहे हैं, तो कृपया ध्यान दें कि मैंने प्रश्न भाग को संशोधित कर दिया है, हालांकि पृष्ठभूमि सामग्री समान है। इसके अतिरिक्त, मुझे विश्वास है कि मैंने समस्या का समाधान तैयार कर लिया है। वह समाधान पोस्ट के नीचे दिखाई देता है। यह बताने के लिए कि मेरा मूल समाधान (इस पोस्ट से बाहर संपादित किया गया; उस समाधान के लिए इतिहास संपादित करें) को इंगित करने के लिए क्लिफब के लिए धन्यवाद आवश्यक रूप से पक्षपाती अनुमानों का उत्पादन किया।
संकट
मशीन सीखने की वर्गीकरण समस्याओं में, मॉडल के प्रदर्शन का आकलन करने का एक तरीका आरओसी वक्रों या आरओसी वक्र (एयूसी) के तहत क्षेत्र की तुलना करना है। हालाँकि, यह मेरा अवलोकन है कि आरओसी घटता या एयूसी के अनुमानों की परिवर्तनशीलता की बहुत कम चर्चा है; यही है, वे आंकड़ों से अनुमानित आंकड़े हैं, और इसलिए उनके साथ कुछ त्रुटि जुड़ी हुई है। इन अनुमानों में त्रुटि को चित्रित करने से चरित्र निर्माण में मदद मिलेगी, उदाहरण के लिए, चाहे एक क्लासिफायरियर, वास्तव में, दूसरे से बेहतर हो।
मैंने निम्नलिखित दृष्टिकोण को विकसित किया है, जिसे मैं इस समस्या को हल करने के लिए आरओसी घटता के बायेसियन विश्लेषण कहता हूं। समस्या के बारे में मेरी सोच में दो महत्वपूर्ण टिप्पणियां हैं:
आरओसी वक्र डेटा से अनुमानित मात्रा से बना है, और बायेसियन विश्लेषण के लिए उत्तरदायी हैं।
ROC वक्र झूठी सकारात्मक दर खिलाफ वास्तविक सकारात्मक दर साजिश रचकर बनाई गई है , जिनमें से प्रत्येक, स्वयं, डेटा से अनुमानित है। मैं विचार और के कार्यों (एक रसद प्रतिगमन में एक यादृच्छिक जंगल में पेड़ वोट, SVM में एक hyperplane से दूरी, भविष्यवाणी की संभावनाओं, आदि), निर्णय दहलीज प्रकार वर्ग एक के लिए बी से इस्तेमाल किया। निर्णय थ्रेसहोल्ड के मान को भिन्न करने से और विभिन्न अनुमान वापस आ जाएंगे । इसके अलावा, हम पर विचार कर सकते हैंबर्नौली परीक्षणों के अनुक्रम में सफलता की संभावना का अनुमान होना। वास्तव में, TPR को रूप में परिभाषित किया गया है जो सफलताओं और कुल परीक्षणों के साथ एक प्रयोग में द्विपद सफलता संभावना का MLE भी है ।
तो के उत्पादन पर विचार करके और एफ पी आर ( θ ) यादृच्छिक परिवर्तनीय होना करने के लिए, हम एक द्विपद प्रयोग की सफलता संभावना है, जिसमें सफलताओं और असफलताओं की संख्या वास्तव में जाना जाता है का आकलन करने के लिए एक समस्या का सामना कर रहे ( टी पी , , एफ एन और टी एन द्वारा दिया गया , जो मुझे लगता है कि सभी निश्चित हैं)। पारंपरिक, बस MLE का उपयोग करता है, और मानता है कि TPR और FPR के विशिष्ट मानों के लिए निर्धारित किया जाता है θ। लेकिन आरओसी घटता के मेरे बायेसियन विश्लेषण में, मैं आरओसी घटता के पीछे के सिमुलेशन को आकर्षित करता हूं, जो आरओसी घटता पर पीछे वितरण से नमूने खींचकर प्राप्त किया जाता है। इस समस्या के लिए एक मानक बेयसन मॉडल एक द्विपदीय संभावना है जो सफलता की संभावना पर एक बीटा से पहले है; सफलता संभावना पर पिछला वितरण भी बीटा है, इसलिए प्रत्येक के लिए , हम TPR और FPR मूल्यों की एक पिछला वितरण की है। यह हमें मेरे दूसरे अवलोकन में लाता है।
- आरओसी घटता गैर-घटता है। तो एक बार एक के कुछ मूल्य नमूना है और एफ पी आर ( θ ) , वहाँ आरओसी अंतरिक्ष नमूना बिंदु के "दक्षिण पूर्व" में एक बिंदु नमूने के शून्य संभावना है। लेकिन आकार-विवश नमूना एक कठिन समस्या है।
बेयसियन दृष्टिकोण का उपयोग अनुमानों के एक सेट से बड़ी संख्या में एयूसी का अनुकरण करने के लिए किया जा सकता है। उदाहरण के लिए, मूल डेटा की तुलना में 20 सिमुलेशन इस तरह दिखते हैं।
इस विधि के कई फायदे हैं। उदाहरण के लिए, एक मॉडल का एयूसी दूसरे की तुलना में अधिक होने की संभावना को सीधे उनके पश्चवर्ती योगों के एयूसी की तुलना करके अनुमान लगाया जा सकता है। विचरण के अनुमानों को सिमुलेशन के माध्यम से प्राप्त किया जा सकता है, जो कि पुनरुत्पादन विधियों की तुलना में सस्ता है, और ये अनुमान सहसंबद्ध नमूनों की समस्या को उत्पन्न नहीं करते हैं जो कि पुनरुत्पादन के तरीकों से उत्पन्न होते हैं।
समाधान
मैंने उपरोक्त दो के अलावा, समस्या की प्रकृति के बारे में तीसरा और चौथा अवलोकन करके इस समस्या का हल विकसित किया।
और एफ पी आर ( θ ) सीमांत घनत्व जो अनुकरण के लिए उत्तरदायी होते है।
अगर (उपाध्यक्ष एफ पी आर ( θ ) ) एक बीटा वितरित मानकों के साथ यादृच्छिक चर है टी पी और एफ एन (उपाध्यक्ष एफ पी और टी एन ), हम भी विचार कर सकते हैं क्या TPR का घनत्व औसत है कई अलग-अलग मूल्यों पर θ जो हमारे विश्लेषण के अनुरूप हैं। है यही कारण है कि, हम एक पदानुक्रमित प्रक्रिया पर विचार कर सकते हैं जहां एक नमूने एक मूल्य ~ θ के संग्रह से θहमारे आउट-ऑफ-नमूना मॉडल भविष्यवाणियों द्वारा प्राप्त मूल्य, और फिर एक मूल्य का नमूना लेते हैं । परिणामस्वरूप नमूनों पर एक वितरण टी पी आर ( ~ θ ) मूल्यों सच सकारात्मक दर उस पर बिना शर्त है की एक घनत्व है θ ही। क्योंकि हम के लिए एक बीटा मॉडल मानते हुए कर रहे हैं टी पी आर ( θ ) , जिसके परिणामस्वरूप वितरण बीटा वितरण का एक मिश्रण है, घटकों की संख्या के साथ c के हमारे संग्रह के आकार के बराबर θ , और मिश्रण गुणांक 1 / ।
इस उदाहरण में, मैंने TPR पर निम्न CDF प्राप्त किया। विशेष रूप से, बीटा डिस्ट्रिब्यूशन की गिरावट के कारण जहां मापदंडों में से एक शून्य है, मिश्रण घटकों में से कुछ 0 या 1 पर डीरेका डेल्टा कार्य कर रहे हैं। यही कारण है कि 0 और 1 पर अचानक स्पाइक्स होते हैं। ये "स्पाइक्स" का मतलब है कि ये घनत्व न तो निरंतर हैं और न ही असतत हैं। पूर्व का एक विकल्प जो दोनों मापदंडों में सकारात्मक है, इन अचानक स्पाइक्स को "चौरसाई" करने का प्रभाव होगा (दिखाया नहीं गया), लेकिन परिणामस्वरूप आरओसी घटता को पूर्व की ओर खींच लिया जाएगा। FPR के लिए भी ऐसा ही किया जा सकता है (दिखाया नहीं गया)। सीमांत घनत्व से नमूने खींचना उलटा रूपांतर नमूनाकरण का एक सरल अनुप्रयोग है।
आकार-बाधा आवश्यकता को हल करने के लिए, हमें बस स्वतंत्र रूप से TPR और FPR को सॉर्ट करना होगा।
बूटस्ट्रैप से तुलना करें
इस प्रदर्शन से पता चलता है कि बूटस्ट्रैप का मतलब मूल नमूने के माध्यम से नीचे पक्षपाती है, और बूटस्ट्रैप का केडीई अच्छी तरह से परिभाषित "कूबड़" पैदा करता है। इन कूबड़ की उत्पत्ति शायद ही रहस्यमय है - आरओसी वक्र प्रत्येक बिंदु को शामिल करने के लिए संवेदनशील होगा, और एक छोटे से नमूने (यहां, n = 20) का प्रभाव यह है कि अंतर्निहित सांख्यिकीय प्रत्येक के समावेश के लिए अधिक संवेदनशील है बिंदु। (जोर से, यह पैटर्निंग कर्नेल बैंडविड्थ की एक कलाकृति नहीं है - गलीचा साजिश पर ध्यान दें। प्रत्येक पट्टी कई बूटस्ट्रैप प्रतिकृति है जिनका समान मूल्य है। बूटस्ट्रैप में 2000 प्रतिकृति हैं, लेकिन अलग-अलग मानों की संख्या स्पष्ट रूप से बहुत छोटी है। यह निष्कर्ष निकाल सकता है कि कूबड़ बूटस्ट्रैप प्रक्रिया की एक आंतरिक विशेषता है।) इसके विपरीत, इसका मतलब है कि बायेसियन एयूसी अनुमान मूल अनुमान के बहुत करीब हैं।
सवाल
मेरा संशोधित प्रश्न यह है कि क्या मेरा संशोधित समाधान गलत है। एक अच्छा उत्तर साबित होगा (या अस्वीकृत) कि आरओसी घटता के परिणामस्वरूप नमूने पक्षपाती हैं, या इसी तरह इस दृष्टिकोण के अन्य गुणों को साबित या बाधित करते हैं।