क्रॉस सत्यापन में मीन (स्कोर) बनाम स्कोर (कॉन्सेप्टन)


15

TLDR:

मेरा डेटासेट बहुत छोटा है (120) नमूने। 10-गुना क्रॉस सत्यापन करते समय, मुझे चाहिए:

  1. प्रत्येक परीक्षण गुना से आउटपुट लीजिए, उन्हें एक सदिश में समेटना, और फिर भविष्यवाणियों के इस पूर्ण वेक्टर पर त्रुटि की गणना करें (120 नमूने)?

  2. या क्या मुझे इसके बजाय प्रत्येक गुना पर मिलने वाले आउटपुट पर त्रुटि की गणना करनी चाहिए (12 नमूने प्रति गुना के साथ), और फिर 10 गुना त्रुटि अनुमान के औसत के रूप में मेरा अंतिम त्रुटि अनुमान प्राप्त करें?

क्या कोई वैज्ञानिक कागजात हैं जो इन तकनीकों के बीच अंतर का तर्क देते हैं?


पृष्ठभूमि: मल्टी-लेबल वर्गीकरण में मैक्रो / माइक्रो स्कोर के संभावित संबंध:

मुझे लगता है कि यह सवाल सूक्ष्म और मैक्रो औसत के बीच के अंतर से संबंधित हो सकता है जो अक्सर बहु-लेबल वर्गीकरण कार्य (जैसे कि अन्य लेबल) में उपयोग किए जाते हैं।

मल्टी-लेबल सेटिंग में, 120 नमूनों पर सभी 5 क्लासिफायर भविष्यवाणियों के लिए वास्तविक सकारात्मक, झूठी सकारात्मक, वास्तविक नकारात्मक, झूठी नकारात्मक की कुल आकस्मिक तालिका बनाकर माइक्रो औसत स्कोर की गणना की जाती है । इस आकस्मिक तालिका का उपयोग तब सूक्ष्म परिशुद्धता, माइक्रो रिकॉल और माइक्रो एफ-माप की गणना करने के लिए किया जाता है। इसलिए जब हमारे पास 120 नमूने और पांच वर्गीकरण हैं, तो सूक्ष्म उपायों की गणना 600 पूर्वानुमानों (120 नमूने * 5 लेबल) पर की जाती है।

मैक्रो वेरिएंट का उपयोग करते समय, प्रत्येक लेबल पर स्वतंत्र रूप से उपायों (सटीक, याद, आदि) की गणना की जाती है और अंत में, इन उपायों का औसत होता है।

माइक्रो बनाम मैक्रो अनुमानों के बीच अंतर के पीछे के विचार को एक बाइनरी वर्गीकरण समस्या में के-फोल्ड सेटिंग में क्या किया जा सकता है, इसे बढ़ाया जा सकता है। 10 गुना के लिए हम या तो 10 मानों ( मैक्रो माप) से औसत कर सकते हैं या 10 प्रयोगों को संक्षिप्त कर सकते हैं और सूक्ष्म उपायों की गणना कर सकते हैं ।

पृष्ठभूमि - विस्तारित उदाहरण:

निम्न उदाहरण प्रश्न का चित्रण करता है। मान लें कि हमारे पास 12 परीक्षण नमूने हैं और हमारे पास 10 गुना हैं:

  • गुना 1 : टीपी = 4, एफपी = 0, टीएन = 8 परिशुद्धता = 1.0
  • गुना 2 : टीपी = 4, एफपी = 0, टीएन = 8 परिशुद्धता = 1.0
  • गुना 3 : टीपी = 4, एफपी = 0, टीएन = 8 परिशुद्धता = 1.0
  • तह 4 : टीपी = 0, एफपी = 12, परिशुद्धता = 0
  • गुना 5 .. गुना 10 : सभी में एक ही टीपी = 0, एफपी = 12 और सटीक = 0 है

जहाँ मैंने निम्नलिखित संकेतन का उपयोग किया:

टीपी = # ट्रू पॉज़िटिव्स की, एफपी = # झूठी पॉज़िटिव, टीएन = # ट्रू नेगेटिव्स की

परिणाम हैं:

  • 10 गुना = 3/10 = 0.3 के पार औसत परिशुद्धता
  • 10 गुना = टीपी / टीपी + एफपी = 12/12 + 84 = 0.125 की भविष्यवाणियों के निष्कर्ष पर सटीकता

ध्यान दें कि मान 0.3 और 0.125 बहुत भिन्न हैं !


सीवी वास्तव में भविष्य के प्रदर्शन की भविष्यवाणी करने का एक बड़ा उपाय नहीं है। विचरण अभी बहुत छोटा है। अपने मॉडल को मान्य करने के लिए बूटस्ट्रैप के साथ जाना बेहतर है।
user765195

2
@ user765195: क्या आप कुछ उद्धरणों के साथ अपने दावे का बैकअप ले सकते हैं?
ज़च

मैं खोज रहा हूँ लेकिन मुझे कुल CV विधि के बारे में कोई साहित्य नहीं मिला है। यह माप की गणना करने के लिए अधिक उपयुक्त तरीका लगता है क्योंकि इसमें कम विचरण होता है।
user13420

1
@Zach, यहाँ कुछ चर्चा है, हैरेल की पुस्तक में: tinyurl.com/92fsmuv (पृष्ठ 93 में अंतिम पैराग्राफ और पृष्ठ 94 में पहले पैराग्राफ को देखें।) मैं अन्य संदर्भों को याद करने की कोशिश करूंगा जो अधिक स्पष्ट हैं।
user765195

1
AFAIK, आउट-ऑफ-बूटस्ट्रैप और iterated -fold क्रॉस सत्यापन के बीच निर्णय लेना काफी स्पष्ट नहीं है। यह आपके पास मौजूद डेटा के प्रकार और उस व्याख्या पर निर्भर हो सकता है जो आप करना चाहते हैं।
cbeleites

जवाबों:


3

वर्णित अंतर IMHO फर्जी है।

आप इसका केवल तभी अवलोकन करेंगे जब ट्रू पॉजिटिव केस (यानी रेफरेंस मेथड इसे पॉजिटिव केस है) का वितरण सिलवटों (उदाहरण के अनुसार) और संबंधित परीक्षण मामलों की संख्या (प्रदर्शन माप के भाजक ) पर बहुत असमान है हम इस बारे में बात कर रहे हैं, यहां फोल्ड औसत के औसत होने पर वास्तव में सकारात्मक नहीं है)।

यदि आप साथ पहले तीन गुना औसत वजन करते हैं412=13


संपादित करें: मूल प्रश्न भी मान्यता को पुनरावृत्त / दोहराने के बारे में पूछा गया:

k

  • यदि कुछ प्रशिक्षण नमूनों का आदान-प्रदान करके प्रशिक्षण के आंकड़ों को उलझा दिया जाए तो भविष्यवाणियाँ कितनी बदल जाती हैं?
  • यानी, विभिन्न "सरोगेट" मॉडल की भविष्यवाणियां एक ही परीक्षण नमूने के लिए कितनी भिन्न हैं?

आप वैज्ञानिक कागजात मांग रहे थे :

अंत में विचरण को कम करके , आपके डेटा सेट में परिमित (n = 120) नमूना आकार होता है, भले ही आप बूटस्ट्रैप के कितने पुनरावृत्तियों या क्रॉस वैरिफिकेशन करते हों।

  • आपके पास (कम से कम) पुनरुत्पादन में भिन्नता के 2 स्रोत हैं (क्रॉस सत्यापन और बूटस्ट्रैप से बाहर) सत्यापन परिणाम:

    • (परीक्षण) नमूने की परिमित संख्या के कारण विचरण
    • सरोगेट मॉडल की भविष्यवाणियों की अस्थिरता के कारण विचरण
  • यदि आपके मॉडल स्थिर हैं, तो

    • k
    • हालाँकि, परीक्षण नमूनों की परिमित संख्या के कारण प्रदर्शन अनुमान अभी भी विचरण के अधीन है।
    • यदि आपकी डेटा संरचना "सरल" है (यानी प्रत्येक सांख्यिकीय स्वतंत्र मामले के लिए एक एकल माप वेक्टर), तो आप मान सकते हैं कि परीक्षा परिणाम एक बर्नौली प्रक्रिया (सिक्का फेंकने) के परिणाम हैं और परिमित-परीक्षण-सेट विचरण की गणना करते हैं।
  • nk


इसके अलावा, मैं चार क्लासीफायर के साथ मल्टी-लेबल वर्गीकरण कर रहा हूं। इसलिए मैं 4 कार्य में माइक्रो और मैक्रो एफ-उपायों पर गौर करना चाहता हूं। मुझे लगता है कि "संयुक्त" क्रॉस-मान्यता इस मामले में भी आवश्यक होगी? इसके अलावा अगर मैं आउट-ऑफ-बूटस्ट्रैप "संयुक्त" सीवी विधि के समान ही हूं तो मैं निश्चित नहीं हूं। आँकड़ों
questions

@ user13420: न तो मुझे यकीन है कि आप संयुक्त सीवी के साथ क्या मतलब है ... यहाँ एक जवाब है जहां मैंने लिखा है कि मेरे लिए क्या आउट-ऑफ-बूटस्ट्रैप और क्रॉस सत्यापन का मतलब है: आंकड़े.stackexchange.com/a/26548/4598
cbeleites का समर्थन करता है मोनिका

@ user13420: विभिन्न क्षेत्रों में शब्दावली बहुत अलग है। क्या आप माइक्रो और मैक्रो एफ-उपायों के बारे में जानकारी के साथ अपना जवाब अपडेट कर सकते हैं? हालांकि, क्रॉस सत्यापन एक बहुत ही सामान्य तकनीक है: यह मॉडल परीक्षण के परिणामों की गणना के लिए एक योजना है। आप किसी भी प्रदर्शन माप की गणना कर सकते हैं जो प्रत्येक मामले के संदर्भ मूल्य और प्रत्येक मामले के लिए अनुमानित मूल्य के इनपुट के रूप में आवश्यक है।
cbeleites

संयुक्त सीवी का मतलब होगा कि आप प्रत्येक होल्डआउट की भविष्यवाणी एकत्र करेंगे और सभी 10 होल्डआउट के बाद माप की गणना करेंगे। इसलिए, यदि मैं सटीक मापता हूं, तो एक वर्गीकरण कार्य के लिए याद रखें, इसमें एक ही सटीकता होगी, 10 मानों और एक औसत (जो सामान्य सीवी में मामला है) के विपरीत याद करें
user13420

2
धन्यवाद cbeleites - मैंने उन स्पष्टीकरणों को जोड़ा क्योंकि मुझे मूल प्रश्न का शब्दांकन थोड़ा उलझा हुआ लगा। मुझे आशा है कि मेरे संपादन बेहतर के लिए थे - मैंने दुविधा को बेहतर ढंग से उजागर करने की कोशिश की - लेकिन कृपया मुझे अन्यथा बताएं। उस सभी ने कहा, जब आपने उल्लेख किया कि आप अंतर फर्जी पाते हैं - मैं यह ध्यान रखना चाहूंगा कि @ user13420 को 1 या 2 का अनुसरण करते समय उसके ओपी के निचले भाग में दो अलग-अलग परिणाम मिलते हैं । मैंने खुद को इस दुविधा का सामना करते हुए पाया है। मेरा मानना ​​है कि दूसरा दृष्टिकोण हालांकि अधिक सामान्य है, लेकिन इस पर आपका ध्यान रखना बहुत अच्छा होगा।
जोश

1

आपको स्कोर (कॉन्सेप्टन) करना चाहिए। यह इस क्षेत्र में एक आम गलत धारणा है कि इसका मतलब (स्कोर) सबसे अच्छा तरीका है। यह आपके अनुमान में अधिक पूर्वाग्रह पेश कर सकता है, विशेष रूप से दुर्लभ वर्गों पर, जैसा कि आपके मामले में है। यहाँ एक कागज इस समर्थन है:

http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf

कागज में, वे आपके "माध्य (स्कोर)" और "फीट, एफपी" के स्थान पर आपके "स्कोर (कॉन्सेटेशन)" के स्थान पर "फेवग" का उपयोग करते हैं।

खिलौना उदाहरण:

कल्पना करें कि आपके पास 10 गुना क्रॉस सत्यापन है और एक वर्ग जो 10 बार दिखाई देता है, और इसे असाइन किया जाना है ताकि यह प्रत्येक गुना में एक बार दिखाई दे। इसके अलावा कक्षा को हमेशा सही ढंग से भविष्यवाणी की जाती है लेकिन डेटा में एक भी गलत-सकारात्मक होता है। झूठी सकारात्मक वाले परीक्षण गुना में 50% सटीकता होगी, जबकि अन्य सभी सिलवटों में 100% होगा। तो एवीजी (स्कोर) = 95%। दूसरी ओर, स्कोर (संघ) 10/11 है, लगभग 91% है।

यदि हम मानते हैं कि डेटा द्वारा सही जनसंख्या का अच्छी तरह से प्रतिनिधित्व किया गया है, और यह कि 10 क्रॉस-वेलिडेशन क्लासिफायर अच्छी तरह से अंतिम क्लासिफायरियर का प्रतिनिधित्व करते हैं, तो वास्तविक विश्व सटीकता 91% होगी, और 95% का औसत (स्कोर) अनुमान पक्षपाती है ।

व्यवहार में, आप उन धारणाओं को नहीं बनाना चाहेंगे। इसके बजाय आप विश्वास का अनुमान लगाने के लिए वितरण आँकड़ों का उपयोग कर सकते हैं, डेटा को बेतरतीब ढंग से अनुमति देकर और कई बार बूट-क्रैपिंग के साथ-साथ (कंप्यूटिंग) पुनः-गणना स्कोर।


यह एक महान कागज है! मुझे लगता है कि मूल प्रश्न की भाषा में परिणाम (कागज में उपयोग नहीं किया गया है) यह है कि जब एफ स्कोर की गणना करते हैं, तो "सूक्ष्म औसत" दृष्टिकोण का उपयोग करें; विशेष रूप से, सभी सिलवटों से टीपी, टीएन, एफपी, एफएन को एक एकल भ्रम मैट्रिक्स प्राप्त करने के लिए, और फिर एफ स्कोर (या अन्य वांछित मैट्रिक्स) की गणना करें।
travelingbones
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.