स्तरीकृत क्रॉस-सत्यापन को समझना


54

स्तरीकृत क्रॉस-वेलिडेशन और क्रॉस-वैलिडेशन के बीच अंतर क्या है ?

विकिपीडिया कहता है:

में स्तरीकृत कश्मीर गुना पार सत्यापन , परतों का चयन किया जाता है, ताकि मतलब प्रतिक्रिया मूल्य सभी परतों में लगभग बराबर है। एक द्विबीजपत्री वर्गीकरण के मामले में, इसका मतलब है कि प्रत्येक तह में लगभग दो प्रकार के वर्ग लेबल के समान अनुपात होते हैं।

लेकिन मैं अभी भी उलझन में हूं।

  1. mean response valueइस संदर्भ में क्या मतलब है?
  2. # 1 महत्वपूर्ण क्यों है?
  3. व्यवहार में कोई # 1 कैसे प्राप्त करता है?

जवाबों:


43

डेटाबेस सिस्टम के विश्वकोश में क्रॉस-मान्यता लेख कहता है:

स्तरीकरण डेटा को फिर से व्यवस्थित करने की प्रक्रिया है क्योंकि यह सुनिश्चित करना है कि प्रत्येक गुना पूरे का एक अच्छा प्रतिनिधि है। उदाहरण के लिए एक द्विआधारी वर्गीकरण समस्या में जहां प्रत्येक वर्ग में 50% डेटा शामिल होता है, डेटा को व्यवस्थित करना सबसे अच्छा होता है जैसे कि प्रत्येक तह में प्रत्येक वर्ग में लगभग आधे उदाहरण शामिल होते हैं।

स्तरीकरण के महत्व के बारे में, कोहवी (सटीकता अनुमान और मॉडल चयन के लिए क्रॉस-सत्यापन और बूटस्ट्रैप का एक अध्ययन) यह निष्कर्ष निकालता है:

स्तरीकरण आम तौर पर एक बेहतर योजना है, नियमित क्रॉस-सत्यापन की तुलना में पूर्वाग्रह और विचरण दोनों के संदर्भ में।


5
क्या आप बता सकते हैं कि सहज ज्ञान युक्त, यह बेहतर क्यों है कि नियमित सी.वी.
मोहम्मद इज़

शायद एक पैराग्राफ भी शामिल है कि स्तरीकरण के विभिन्न डिग्री हैं जिन्हें आप लक्ष्य कर सकते हैं और यह कि वे सिलवटों की यादृच्छिकता के साथ विभिन्न डिग्री में हस्तक्षेप करते हैं। कभी-कभी, आपको यह सुनिश्चित करने की आवश्यकता होती है कि प्रत्येक तह में प्रत्येक कक्षा का कम से कम एक रिकॉर्ड हो। तब आप केवल बेतरतीब ढंग से सिलवटों को उत्पन्न कर सकते हैं, जांचें कि क्या वह शर्त पूरी हुई है और केवल अप्रत्याशित स्थिति में यह सिलवटों से फेरबदल नहीं किया गया है।
डेविड अर्न्स्ट

37

स्तरीकरण यह सुनिश्चित करना चाहता है कि प्रत्येक तह डेटा के सभी स्तरों का प्रतिनिधि है। आम तौर पर यह वर्गीकरण के लिए एक पर्यवेक्षित तरीके से किया जाता है और यह सुनिश्चित करना है कि प्रत्येक परीक्षण तह में प्रत्येक कक्षा को (लगभग) समान रूप से प्रतिनिधित्व किया जाता है (जो कि प्रशिक्षण सिलवटों के पूरक तरीके से संयुक्त हैं)।

इसके पीछे अंतर्ज्ञान अधिकांश वर्गीकरण एल्गोरिदम के पूर्वाग्रह से संबंधित है। वे प्रत्येक उदाहरण को समान रूप से भारित करते हैं, जिसका अर्थ है कि ओवररप्रिटेड कक्षाएं बहुत अधिक वजन प्राप्त करती हैं (उदाहरण के लिए एफ-माप, सटीकता या त्रुटि का पूरक रूप)। एक एल्गोरिथ्म के लिए स्तरीकरण इतना महत्वपूर्ण नहीं है कि प्रत्येक वर्ग को समान रूप से तौलता है (उदाहरण के लिए Kappa, सूचना या ROC AUC का अनुकूलन) या एक लागत मैट्रिक्स के अनुसार (जैसे कि प्रत्येक वर्ग को सही ढंग से भारित और / या हर तरह से लागत का मूल्य दे रहा है) misclassifying)। देखें, उदाहरण के लिए DMW पॉवर्स (2014), एफ-माप क्या मापता नहीं है: विशेषताएं, फ़ॉल्स, फ़ालिजिस और फ़िक्सेस। http://arxiv.org/pdf/1503.06410

एक विशिष्ट मुद्दा जो निष्पक्ष या संतुलित एल्गोरिदम में महत्वपूर्ण है, वह यह है कि वे एक वर्ग को सीखने या परीक्षण करने में सक्षम नहीं हैं जो एक तह में बिल्कुल भी प्रतिनिधित्व नहीं करता है, और इसके अलावा मामला जहां केवल एक वर्ग है। एक तह में प्रतिनिधित्व सामान्यीकृत सम्मान करने की अनुमति नहीं देता है। का मूल्यांकन किया। हालाँकि यह विचार भी सार्वभौमिक नहीं है और उदाहरण के लिए एक-वर्गीय शिक्षा पर इतना अधिक लागू नहीं होता है, जो यह निर्धारित करने की कोशिश करता है कि किसी व्यक्ति के वर्ग के लिए सामान्य क्या है, और एक अलग वर्ग के रूप में बाहरी रूप से प्रभावी ढंग से पहचान करता है, जिसे क्रॉस-मान्यता प्रदान की जाती है एक विशिष्ट क्लासिफायरियर जेनरेट नहीं करने वाले आंकड़ों के निर्धारण के बारे में है।

दूसरी ओर, पर्यवेक्षित स्तरीकरण मूल्यांकन की तकनीकी शुद्धता से समझौता करता है क्योंकि परीक्षण डेटा के लेबल को प्रशिक्षण को प्रभावित नहीं करना चाहिए, लेकिन प्रशिक्षण के उदाहरणों के चयन में स्तरीकरण का उपयोग किया जाता है। केवल डेटा की विशेषताओं को देखने के आसपास समान डेटा फैलाने के आधार पर अनसुनीकृत स्तरीकरण भी संभव है, न कि सही वर्ग। उदाहरण के लिए, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), सटीकता आकलन के लिए क्रॉस-सत्यापन की अवांछित स्तरीकरण।

वर्गीकरण के बजाय स्तरीकरण को प्रतिगमन पर भी लागू किया जा सकता है, जिसमें पहचान के बजाय असुरक्षित स्तरीकरण की तरह समानता का उपयोग किया जाता है, लेकिन पर्यवेक्षित संस्करण ज्ञात सही फ़ंक्शन मान का उपयोग करता है।

आगे की जटिलताओं दुर्लभ कक्षाएं और मल्टीलेबेल वर्गीकरण हैं, जहां वर्गीकरण कई (स्वतंत्र) आयामों पर किया जा रहा है। यहाँ सभी आयामों में सच्चे लेबल के टूप्स को क्रॉस-वैलिडेशन के उद्देश्य से कक्षाओं के रूप में माना जा सकता है। हालांकि, सभी संयोजन आवश्यक रूप से नहीं होते हैं, और कुछ संयोजन दुर्लभ हो सकते हैं। दुर्लभ वर्ग और दुर्लभ संयोजन एक समस्या है जिसमें एक वर्ग / संयोजन जो कम से कम एक बार होता है, लेकिन K समय से कम (K-CV में) सभी परीक्षण परतों में प्रतिनिधित्व नहीं किया जा सकता है। इस तरह के मामलों में, कोई इसके बदले स्तरीकृत बूचड़खाना के रूप में विचार कर सकता है (प्रत्यावर्तन के साथ एक पूर्ण आकार के प्रशिक्षण गुना उत्पन्न करने के लिए प्रतिस्थापन के साथ नमूनाकरण और परीक्षण के लिए 36.8% अपेक्षित अचयनित, प्रत्येक वर्ग के एक उदाहरण के साथ शुरू में परीक्षण गुना के प्रतिस्थापन के बिना चयनित) ।

मल्टीलेबेल स्तरीकरण के लिए एक और दृष्टिकोण संयोजनों के प्रतिनिधि चयन को सुनिश्चित करने के लिए अलग-अलग प्रत्येक वर्ग आयाम को अलग करने या बूटस्ट्रैप करने की कोशिश करना है। लेबल l के लिए L और N उदाहरण और वर्ग k के Kkl उदाहरणों के साथ, हम बेतरतीब ढंग से लेबल किए गए उदाहरण Dkl लगभग N / LKkl उदाहरणों के संगत सेट से चुन सकते हैं। यह इष्टतम संतुलन सुनिश्चित नहीं करता है, बल्कि संतुलित रूप से संतुलन चाहता है। जब तक कि कोई विकल्प न हो (जब तक कि कुछ संयोजन नहीं होते हैं या दुर्लभ होते हैं) पर लेबल के चयन को रोककर इसे बेहतर बनाया जा सकता है। समस्याओं का मतलब या तो यह है कि बहुत कम डेटा है या कि आयाम स्वतंत्र नहीं हैं।


5

सभी सिलवटों में माध्य प्रतिक्रिया का मान लगभग समान होता है, सभी तह में प्रत्येक वर्ग के अनुपात के कहने का एक और तरीका है।

उदाहरण के लिए, हमारे पास 80 क्लास 0 रिकॉर्ड और 20 क्लास 1 रिकॉर्ड के साथ एक डेटासेट है। हम (80 * 0 + 20 * 1) / 100 = 0.2 का माध्य प्रतिक्रिया मान प्राप्त कर सकते हैं और हम चाहते हैं कि 0.2 सभी मोहरों का माध्य प्रतिक्रिया मान हो। यह भी ईडीए में एक त्वरित तरीका है कि अगर डेटासेट की गिनती के बजाय असंतुलन को मापने के लिए एक त्वरित तरीका है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.