K- गुना क्रॉस-सत्यापन से उलझन मैट्रिक्स कैसे रिपोर्ट की जाती है?

मान लीजिए मैं K = 10 सिलवटों के साथ K- गुना क्रॉस-सत्यापन करता हूं। प्रत्येक गुना के लिए एक भ्रम मैट्रिक्स होगा। परिणामों की रिपोर्ट करते समय, क्या मुझे गणना करना चाहिए कि औसत भ्रम मैट्रिक्स क्या है, या बस भ्रम मैट्रीस का योग है?

machine-learning cross-validation accuracy

— der
स्रोत

यदि आप किसी मॉडल के प्रदर्शन का परीक्षण कर रहे हैं (अर्थात मापदंडों का अनुकूलन नहीं कर रहे हैं), तो आम तौर पर आप भ्रम की स्थिति का योग करेंगे। इसे इस तरह समझें, आपने 10 अलग-अलग सिलवटों या 'परीक्षण' सेटों में आपको डेटा विभाजित किया है। आप अपने मॉडल को 9/10 सिलवटों पर प्रशिक्षित करते हैं और पहली तह का परीक्षण करते हैं और एक उलझन मैट्रिक्स प्राप्त करते हैं। यह भ्रम मैट्रिक्स डेटा के 1/10 के वर्गीकरण का प्रतिनिधित्व करता है। आप अगले 'परीक्षण' सेट के साथ फिर से विश्लेषण को दोहराते हैं और एक और भ्रम मैट्रिक्स प्राप्त करते हैं जो डेटा के अन्य 1/10 का प्रतिनिधित्व करते हैं। इस नए भ्रम मैट्रिक्स को पहले जोड़ना अब आपके डेटा का 20% दर्शाता है। आप तब तक जारी रखते हैं जब तक आप अपने सभी सिलवटों को नहीं चलाते हैं, अपने सभी भ्रम मैट्रिक्स को जोड़ते हैं और अंतिम भ्रम मैट्रिक्स डेटा के सभी के लिए उस मॉडल के प्रदर्शन का प्रतिनिधित्व करता है।। आप भ्रम के मेट्रिसेस को औसत कर सकते हैं, लेकिन यह वास्तव में संचयी मैट्रिक्स से कोई अतिरिक्त जानकारी प्रदान नहीं करता है और हो सकता है कि पक्षपाती हो अगर आपके सभी समान आकार नहीं हैं।

नोट - यह आपके डेटा के गैर-दोहराया नमूने को मानता है। मैं पूरी तरह से निश्चित नहीं हूं कि अगर यह दोहराया नमूनाकरण के लिए अलग होगा। यदि मैं कुछ सीखता हूँ या कोई विधि सुझाता है तो अद्यतन करेगा।

— cdeterman
स्रोत

धन्यवाद, cdeterman। मॉडल चयन के बारे में क्या (यानी ट्यूनिंग मापदंडों को अपनाना)?

— जॉन एम

@ जॉन फिर आप प्रत्येक मॉडल को स्वतंत्र रूप से देख रहे हैं कि पूर्ण मॉडल के लिए सबसे अच्छा पैरामीटर क्या होना चाहिए। यदि आप दोनों को संयोजित करना चाहते हैं तो आप नेस्टेड cv में देखना चाहते हैं।

— cdeterman