कुछ संभावनाएं मेरे दिमाग में आती हैं।
समग्र हिट दर को देखते हुए आमतौर पर यह बहुत अच्छा विचार नहीं है क्योंकि यह परीक्षण सेट की संरचना पर निर्भर करेगा यदि अलग-अलग तापमान के लिए प्रदर्शन भिन्न होता है। तो बहुत कम से कम, आपको सार्थक मूल्य प्राप्त करने के लिए अपने परीक्षण डेटा में कक्षाओं की सापेक्ष आवृत्ति निर्दिष्ट (और उचित) करनी चाहिए।
दूसरे, जैसा कि @Shorack ने पहले ही कहा, निर्दिष्ट करें कि किस प्रकार की त्रुटि कितनी महत्वपूर्ण है। उपयोगी होने के लिए अक्सर, क्लासिफायर को कुछ प्रदर्शन मानदंडों को पूरा करने की आवश्यकता होती है (और समग्र सटीकता शायद ही कभी पर्याप्त उपाय होती है)। संवेदनशीलता, विशिष्टता, सकारात्मक और नकारात्मक पूर्व निर्धारित मूल्य जैसे उपाय हैं जो विभिन्न वर्गों और विभिन्न प्रकार के गर्भपात को ध्यान में रखते हैं। आप कह सकते हैं कि ये उपाय क्लासिफायर के बारे में विभिन्न सवालों के जवाब देते हैं:
- संवेदनशीलता: कक्षा सी से संबंधित मामलों के किस अंश को इस तरह से मान्यता दी जाती है?
- विशिष्टता: मामलों की क्या अंश वास्तव में नहीं क्लास सी से संबंधित इस तरह के रूप में मान्यता प्राप्त है?
- सकारात्मक भविष्य कहनेवाला मूल्य: क्लासिफायरियर क्लास सी की भविष्यवाणी करता है, क्या संभावना है कि यह भविष्यवाणी सही है?
- नकारात्मक पूर्वानुमानात्मक मूल्य: यह देखते हुए कि क्लासिफायरियर यह भविष्यवाणी करता है कि मामला फॉर्म सी नहीं है, क्या संभावना है कि यह भविष्यवाणी सही है?
ये प्रश्न अक्सर विशिष्टताओं को तैयार करने की अनुमति देते हैं जो उपयोगी होने के लिए क्लासिफायरियर की आवश्यकता होनी चाहिए।
क्लासिफायरियर के व्यावहारिक अनुप्रयोग के दृष्टिकोण से अक्सर अनुमानित भविष्यवाणियां अधिक महत्वपूर्ण होती हैं: वे भविष्यवाणी पर वातानुकूलित होती हैं, यही वह स्थिति है जो आप क्लासफ़र को लागू करते समय करते हैं (एक मरीज आमतौर पर यह जानने में दिलचस्पी नहीं रखता है कि संभावना कितनी है। परीक्षण रोगग्रस्त मामलों को पहचानने के लिए है, बल्कि यह बताया गया है कि संभावित निदान सही है)। हालांकि, उन्हें ठीक से गणना करने के लिए आपको विभिन्न वर्गों में जनसंख्या के सापेक्ष आवृत्तियों को जानने की आवश्यकता होती है, जिसके लिए क्लासिफायरियर का उपयोग किया जाता है (लगता है कि आपके पास यह जानकारी है - इसलिए ऐसा कुछ भी नहीं है जो आपको उस पर नज़र रखने से रोकता है)।
आप सूचना लाभ को भी देख सकते हैं जो एक सकारात्मक या नकारात्मक भविष्यवाणी आपको देता है। यह सकारात्मक और नकारात्मक संभावना अनुपात, LR⁻ और LR and द्वारा मापा जाता है। संक्षेप में, वे आपको बताते हैं कि भविष्यवाणी प्रश्न में कक्षा के प्रति बाधाओं को कितना बदल देती है। ( अधिक विस्तृत विवरण के लिए मेरा जवाब यहां देखें )
आपके तुच्छ क्लासिफायरियर के लिए, चीजें इस तरह दिखती हैं: मैं "0" वर्ग का उपयोग प्रश्न में कक्षा के रूप में करूँगा, इसलिए "सकारात्मक" का अर्थ है कक्षा "0"। 100 मामलों में से, 100 की भविष्यवाणी सकारात्मक है (कक्षा 0 से संबंधित है)। उनमें से 97 वास्तव में करते हैं, 3 नहीं। कक्षा ० के लिए संवेदनशीलता १००% है (कक्षा ० से जुड़े सभी ९ ० मामलों को मान्यता दी गई थी), विशिष्टता ० है (अन्य मामलों में से कोई भी मान्यता प्राप्त नहीं थी)। सकारात्मक विधेय मान (97: 3 सापेक्ष आवृत्ति प्रतिनिधि है) 97% है, नकारात्मक पूर्वानुमानात्मक मूल्य की गणना नहीं की जा सकती है क्योंकि कोई नकारात्मक भविष्यवाणी नहीं हुई है।
एलआर+=संवेदनशीलता1 - विशिष्टता= 1
एलआर-=1 - संवेदनशीलताविशेषता=00
अब LR⁺ और LR⁻ ऐसे कारक हैं जिनके साथ आप मामले को सकारात्मक वर्ग ("0") से संबंधित करने के लिए बाधाओं को गुणा करते हैं। 1 का LR did होने का मतलब है कि सकारात्मक भविष्यवाणी ने आपको कोई जानकारी नहीं दी: यह बाधाओं को नहीं बदलेगा। तो यहां आपके पास एक उपाय है जो इस तथ्य को स्पष्ट रूप से व्यक्त करता है कि आपका तुच्छ क्लासिफायरियर किसी भी जानकारी को नहीं जोड़ता है ।
विचारों की पूरी तरह से अलग दिशा: आप उल्लेख करते हैं कि आप विभिन्न वर्गीकरणों का मूल्यांकन करना चाहते हैं। यह थोड़ा तुलनात्मक वर्गीकरण या चयन जैसा लगता है। जिन उपायों के बारे में मैं ऊपर चर्चा करता हूं, वे यह है कि यदि आप "कठिन" श्रेणी के लेबल पर उनका मूल्यांकन करते हैं, तो वे बहुत ही उच्चतर अनिश्चितता (जिसका अर्थ है कि आपको बहुत सारे परीक्षण मामलों की आवश्यकता है ) के अधीन हैं। यदि आपकी भविष्यवाणी मुख्य रूप से निरंतर है (मीट्रिक, उदाहरण के लिए संभावना) तो आप संबंधित उपायों का उपयोग कर सकते हैं जो एक ही तरह के प्रश्न को देखते हैं लेकिन मामलों के भिन्न का उपयोग नहीं करते हैं लेकिन निरंतर उपाय, यहां देखें । भविष्यवाणियों में छोटे अंतर का पता लगाने के लिए ये बेहतर अनुकूल होंगे।
(@FrankHarrell आपको बताएगा कि आपको "उचित स्कोरिंग नियम" की आवश्यकता है, ताकि ध्यान में रखने के लिए एक और खोज शब्द हो।)