K- गुना क्रॉस-सत्यापन से उलझन मैट्रिक्स कैसे रिपोर्ट की जाती है?


18

मान लीजिए मैं K = 10 सिलवटों के साथ K- गुना क्रॉस-सत्यापन करता हूं। प्रत्येक गुना के लिए एक भ्रम मैट्रिक्स होगा। परिणामों की रिपोर्ट करते समय, क्या मुझे गणना करना चाहिए कि औसत भ्रम मैट्रिक्स क्या है, या बस भ्रम मैट्रीस का योग है?

जवाबों:


11

यदि आप किसी मॉडल के प्रदर्शन का परीक्षण कर रहे हैं (अर्थात मापदंडों का अनुकूलन नहीं कर रहे हैं), तो आम तौर पर आप भ्रम की स्थिति का योग करेंगे। इसे इस तरह समझें, आपने 10 अलग-अलग सिलवटों या 'परीक्षण' सेटों में आपको डेटा विभाजित किया है। आप अपने मॉडल को 9/10 सिलवटों पर प्रशिक्षित करते हैं और पहली तह का परीक्षण करते हैं और एक उलझन मैट्रिक्स प्राप्त करते हैं। यह भ्रम मैट्रिक्स डेटा के 1/10 के वर्गीकरण का प्रतिनिधित्व करता है। आप अगले 'परीक्षण' सेट के साथ फिर से विश्लेषण को दोहराते हैं और एक और भ्रम मैट्रिक्स प्राप्त करते हैं जो डेटा के अन्य 1/10 का प्रतिनिधित्व करते हैं। इस नए भ्रम मैट्रिक्स को पहले जोड़ना अब आपके डेटा का 20% दर्शाता है। आप तब तक जारी रखते हैं जब तक आप अपने सभी सिलवटों को नहीं चलाते हैं, अपने सभी भ्रम मैट्रिक्स को जोड़ते हैं और अंतिम भ्रम मैट्रिक्स डेटा के सभी के लिए उस मॉडल के प्रदर्शन का प्रतिनिधित्व करता है।। आप भ्रम के मेट्रिसेस को औसत कर सकते हैं, लेकिन यह वास्तव में संचयी मैट्रिक्स से कोई अतिरिक्त जानकारी प्रदान नहीं करता है और हो सकता है कि पक्षपाती हो अगर आपके सभी समान आकार नहीं हैं।

नोट - यह आपके डेटा के गैर-दोहराया नमूने को मानता है। मैं पूरी तरह से निश्चित नहीं हूं कि अगर यह दोहराया नमूनाकरण के लिए अलग होगा। यदि मैं कुछ सीखता हूँ या कोई विधि सुझाता है तो अद्यतन करेगा।


धन्यवाद, cdeterman। मॉडल चयन के बारे में क्या (यानी ट्यूनिंग मापदंडों को अपनाना)?
जॉन एम

@ जॉन फिर आप प्रत्येक मॉडल को स्वतंत्र रूप से देख रहे हैं कि पूर्ण मॉडल के लिए सबसे अच्छा पैरामीटर क्या होना चाहिए। यदि आप दोनों को संयोजित करना चाहते हैं तो आप नेस्टेड cv में देखना चाहते हैं।
cdeterman
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.