विभिन्न नमूना आकार के साथ अलग-अलग क्लासिफायर का प्रदर्शन मापना

12

वर्तमान में मैं पाठ से निकाले गए विभिन्न संस्थाओं पर कई अलग-अलग क्लासिफायर का उपयोग कर रहा हूं, और सटीक / रिकॉल का उपयोग करके सारांश के रूप में याद कर रहा हूं कि प्रत्येक अलग-अलग क्लासिफायर किसी दिए गए डेटासेट में कैसा प्रदर्शन करता है।

मुझे आश्चर्य हो रहा है कि क्या एक समान तरीके से इन क्लासिफायर के प्रदर्शन की तुलना करने का एक सार्थक तरीका है, लेकिन जो परीक्षण किए जा रहे डेटा में प्रत्येक इकाई की कुल संख्या को भी ध्यान में रखता है?

वर्तमान में, मैं प्रदर्शन के माप के रूप में परिशुद्धता / रिकॉल का उपयोग कर रहा हूं, इसलिए ऐसा कुछ हो सकता है:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

हालाँकि, मैं जो डेटासेट चला रहा हूँ, उसमें 100k लोग, 5k कंपनियाँ, 500 चीज़ और 1 अंडा हो सकता है।

तो क्या एक सारांश सांख्यिकीय है जो मैं उपरोक्त तालिका में जोड़ सकता हूं जो प्रत्येक आइटम की कुल संख्या को भी ध्यान में रखता है? या क्या इस तथ्य को मापने का कोई तरीका है कि उदाहरण के लिए एग क्लासिफायर पर 100% पूर्व / आरईसी केवल 1 डेटा आइटम के साथ सार्थक नहीं हो सकता है?

मान लीजिए कि हमारे पास सैकड़ों ऐसे क्लासीफायर हैं, मुझे लगता है कि मैं "किस क्लासीफायर से बेहतर प्रदर्शन कर रहा हूं?"

classification performance

— डेव चालिस
स्रोत

यदि आपके पास अलग-अलग डेटासेट पर प्रशिक्षित अलग-अलग क्लासीफायर हैं, तो आप उनकी तुलना सार्थक तरीके से कैसे कर सकते हैं? सेब और संतरे, चाक और पनीर का ख्याल आता है। इसके अलावा, यदि आपके पास मल्टीस्कलैस क्लासीफायर हैं, तो आप सटीक और रिकॉल की गणना कैसे करते हैं? यहां तक कि एन = 1 को जानना भी आवश्यक नहीं है - यदि दुनिया में केवल एक अंडा है, तो आपका अंडे का वर्गीकरण ठीक है।

— बुल

वे एक ही डेटासेट पर प्रशिक्षित अलग-अलग क्लासिफायर हैं, उदाहरण के लिए, हमें पता है कि हमारे पास एक दस्तावेज है जो सेब और संतरे के बारे में है, इसलिए हम सेब के प्रकार के बारे में निर्धारित करने के लिए उस पर एक सेब क्लासिफायर चलाते हैं, और नारंगी के प्रकार को निर्धारित करने के लिए एक नारंगी क्लासिफायरियर। इसके बारे में जानकारी दी है। यदि हमारे दस्तावेज़ों में सेब के बारे में 99%, संतरे के बारे में 1% है, और दोनों क्लासिफायर के पास समान प्री / रिक (भ्रम मैट्रिक्स पर पंक्तियाँ / कॉल) हैं, तो क्या कोई जानकारी है जो हम प्रस्तुत कर सकते हैं जो प्रत्येक की मात्रा में अंतर को ध्यान में रखते हैं। ? (यह हो सकता है कि नहीं, वहाँ नहीं है, जो एक जवाब है जो मुझे खुशी होगी)

— डेव चैलिस

5

आपको आंकड़े के विश्वास अंतराल को देखने की जरूरत है। यह मापने में मदद करता है कि सांख्यिकीय में कितनी अनिश्चितता है, जो मोटे तौर पर नमूना आकार का एक कार्य है।

— क्रिस्टोफर लाउडन
स्रोत

2

मेरी राय में, जब आकार का इतना बड़ा अंतर होता है तो प्रदर्शन की तुलना करना मुश्किल होता है। इस लिंक पर, (कृपया इसे विकिपीडिया http://en.wikipedia.org/wiki/Effect_size में देखें ), आप विभिन्न रणनीतियों को देख सकते हैं।

मेरा सुझाव है कि एक विचरण से संबंधित है। उदाहरण के लिए, क्लासिफ़ायर (100%) और व्यक्ति क्लासिफ़ायर (65%) के प्रदर्शन पर विचार करें। पूर्व वर्गीकरण के साथ आपके द्वारा की गई न्यूनतम त्रुटि 100% है। हालाँकि, बाद वाले क्लासिफायर के साथ आप जो न्यूनतम त्रुटि कर सकते हैं, वह 10e-5 है।

तो क्लासिफायर की तुलना करने का एक तरीका तीन ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) के इस नियम को ध्यान में रखना है जहां आप प्रदर्शन और इसकी परिवर्तनशीलता की तुलना कर सकते हैं।

अन्य संभावना एफ-माप है जो प्रेसिजन और रिकॉल का संयोजन है और यह किसी भी तरह प्रभाव के आकार से स्वतंत्र है।

— adesantos
स्रोत

2

कक्षा में डेटा की संख्या को कभी-कभी supportक्लासिफायर के रूप में संदर्भित किया जाता है। यह बताता है कि आप अपने परिणाम पर कितना भरोसा कर सकते हैं, जैसे पी-वैल्यू आपको कुछ परीक्षण पर भरोसा या अविश्वास करने की अनुमति देगा।

एक दृष्टिकोण जिसे आप उपयोग कर सकते हैं, वह है कई क्लासिफायर प्रदर्शन उपायों की गणना करना, न केवल सटीक और याद रखना, बल्कि सच्ची सकारात्मक दर, झूठी सकारात्मक दर, विशिष्टता, संवेदनशीलता, सकारात्मक संभावना, नकारात्मक संभावना, आदि और यह देखें कि क्या वे एक दूसरे के अनुरूप हैं। । यदि माप में से एक अधिकतम (100%) और दूसरा नहीं है, तो यह अक्सर होता है, मेरे अनुभव में, कुछ का संकेत गलत हो गया (जैसे खराब समर्थन, तुच्छ क्लासिफायरियर, बायस्ड क्लासिफायर, आदि)। वर्गीकरण प्रदर्शन उपायों की सूची के लिए इसे देखें ।

— damienfrancois
स्रोत