TLDR:
मेरा डेटासेट बहुत छोटा है (120) नमूने। 10-गुना क्रॉस सत्यापन करते समय, मुझे चाहिए:
प्रत्येक परीक्षण गुना से आउटपुट लीजिए, उन्हें एक सदिश में समेटना, और फिर भविष्यवाणियों के इस पूर्ण वेक्टर पर त्रुटि की गणना करें (120 नमूने)?
या क्या मुझे इसके बजाय प्रत्येक गुना पर मिलने वाले आउटपुट पर त्रुटि की गणना करनी चाहिए (12 नमूने प्रति गुना के साथ), और फिर 10 गुना त्रुटि अनुमान के औसत के रूप में मेरा अंतिम त्रुटि अनुमान प्राप्त करें?
क्या कोई वैज्ञानिक कागजात हैं जो इन तकनीकों के बीच अंतर का तर्क देते हैं?
पृष्ठभूमि: मल्टी-लेबल वर्गीकरण में मैक्रो / माइक्रो स्कोर के संभावित संबंध:
मुझे लगता है कि यह सवाल सूक्ष्म और मैक्रो औसत के बीच के अंतर से संबंधित हो सकता है जो अक्सर बहु-लेबल वर्गीकरण कार्य (जैसे कि अन्य लेबल) में उपयोग किए जाते हैं।
मल्टी-लेबल सेटिंग में, 120 नमूनों पर सभी 5 क्लासिफायर भविष्यवाणियों के लिए वास्तविक सकारात्मक, झूठी सकारात्मक, वास्तविक नकारात्मक, झूठी नकारात्मक की कुल आकस्मिक तालिका बनाकर माइक्रो औसत स्कोर की गणना की जाती है । इस आकस्मिक तालिका का उपयोग तब सूक्ष्म परिशुद्धता, माइक्रो रिकॉल और माइक्रो एफ-माप की गणना करने के लिए किया जाता है। इसलिए जब हमारे पास 120 नमूने और पांच वर्गीकरण हैं, तो सूक्ष्म उपायों की गणना 600 पूर्वानुमानों (120 नमूने * 5 लेबल) पर की जाती है।
मैक्रो वेरिएंट का उपयोग करते समय, प्रत्येक लेबल पर स्वतंत्र रूप से उपायों (सटीक, याद, आदि) की गणना की जाती है और अंत में, इन उपायों का औसत होता है।
माइक्रो बनाम मैक्रो अनुमानों के बीच अंतर के पीछे के विचार को एक बाइनरी वर्गीकरण समस्या में के-फोल्ड सेटिंग में क्या किया जा सकता है, इसे बढ़ाया जा सकता है। 10 गुना के लिए हम या तो 10 मानों ( मैक्रो माप) से औसत कर सकते हैं या 10 प्रयोगों को संक्षिप्त कर सकते हैं और सूक्ष्म उपायों की गणना कर सकते हैं ।
पृष्ठभूमि - विस्तारित उदाहरण:
निम्न उदाहरण प्रश्न का चित्रण करता है। मान लें कि हमारे पास 12 परीक्षण नमूने हैं और हमारे पास 10 गुना हैं:
- गुना 1 : टीपी = 4, एफपी = 0, टीएन = 8 परिशुद्धता = 1.0
- गुना 2 : टीपी = 4, एफपी = 0, टीएन = 8 परिशुद्धता = 1.0
- गुना 3 : टीपी = 4, एफपी = 0, टीएन = 8 परिशुद्धता = 1.0
- तह 4 : टीपी = 0, एफपी = 12, परिशुद्धता = 0
- गुना 5 .. गुना 10 : सभी में एक ही टीपी = 0, एफपी = 12 और सटीक = 0 है
जहाँ मैंने निम्नलिखित संकेतन का उपयोग किया:
टीपी = # ट्रू पॉज़िटिव्स की, एफपी = # झूठी पॉज़िटिव, टीएन = # ट्रू नेगेटिव्स की
परिणाम हैं:
- 10 गुना = 3/10 = 0.3 के पार औसत परिशुद्धता
- 10 गुना = टीपी / टीपी + एफपी = 12/12 + 84 = 0.125 की भविष्यवाणियों के निष्कर्ष पर सटीकता
ध्यान दें कि मान 0.3 और 0.125 बहुत भिन्न हैं !