सटीकता के साथ समस्या
मानक सटीकता को सही वर्गीकरण के अनुपात में वर्गीकृत वर्गीकरण की संख्या के रूप में परिभाषित किया गया है।
accuracy:=correct classificationsnumber of classifications
यह इस प्रकार सभी वर्गों पर समग्र माप पर है और जैसा कि हम जल्द ही देखेंगे कि यह एक वास्तविक उपयोगी परीक्षण के अलावा एक ओरेकल को बताने के लिए एक अच्छा उपाय नहीं है। एक ओरेकल एक वर्गीकरण फ़ंक्शन है जो प्रत्येक नमूने के लिए एक यादृच्छिक अनुमान देता है। इसी तरह, हम अपने वर्गीकरण फ़ंक्शन के वर्गीकरण प्रदर्शन को रेट करने में सक्षम होना चाहते हैं। यदि हमारे पास प्रति वर्ग नमूनों की समान मात्रा है, लेकिन यदि हमारे पास नमूनों की सटीकता का असंतुलित सेट है, तो सटीकता \ textit {can} एक उपयोगी उपाय हो सकता है। इससे भी अधिक, एक परीक्षण में उच्च सटीकता हो सकती है लेकिन वास्तव में कम सटीकता के साथ परीक्षण से भी बदतर प्रदर्शन होता है।
यदि हमारे पास नमूनों का वितरण ऐसा है कि 90 \% नमूने वर्ग , तो 5 \% संबंधित और दूसरे 5 \% तो निम्न वर्गीकरण कार्य सटीकता होगी :ABC0.9
classify(sample):={Aif ⊤
फिर भी, यह स्पष्ट है कि हम जानते हैं कि कैसे काम करता है कि यह कक्षाओं को बिल्कुल अलग नहीं बता सकता है। इसी तरह, हम एक वर्गीकरण फ़ंक्शन का निर्माण कर सकते हैंclassify
classify(sample):=guess⎧⎩⎨ABCwith p =0.96with p =0.02with p =0.02
की सटीकता है जो और हमेशा की भविष्यवाणी नहीं होगा
लेकिन अभी भी दिया हम जानते हैं कि कैसे काम करता है यह स्पष्ट है कि यह कक्षाएं अलग नहीं बता सकता। इस मामले में सटीकता ही हमें बताती है कि अनुमान लगाने में हमारा वर्गीकरण कार्य कितना अच्छा है। इसका मतलब है कि एक उपयोगी परीक्षण के अलावा एक ओरेकल को बताने के लिए सटीकता एक अच्छा उपाय नहीं है।0.96⋅0.9+0.02⋅0.05⋅2=0.866Aclassify
प्रति कक्षा सटीकता
हम अपने वर्गीकरण फ़ंक्शन को एक ही कक्षा से केवल नमूने देकर व्यक्तिगत रूप से सटीकता की गणना कर सकते हैं और सही वर्गीकरण और गलत वर्गीकरण की संख्या को याद कर सकते हैं और फिर गणना कर सकते हैं । हम हर वर्ग के लिए इसे दोहराते हैं। हम एक वर्गीकरण समारोह को सटीक ढंग से वर्ग को पहचान कर सकते हैं
लेकिन होगा उत्पादन अन्य वर्गों के लिए एक यादृच्छिक अनुमान तो यह की सटीकता में परिणाम के लिए
और की सटीकताaccuracy:=correct/(correct+incorrect)A1.00A0.33अन्य वर्गों के लिए। यह पहले से ही हमें हमारे वर्गीकरण समारोह के प्रदर्शन का न्याय करने के लिए एक बेहतर तरीका प्रदान करता है। हमेशा एक ही कक्षा का अनुमान लगाने वाला एक वर्ग उस कक्षा के लिए की प्रति कक्षा सटीकता का उत्पादन करेगा , लेकिन अन्य वर्ग के लिए । यदि हमारा परीक्षण उपयोगी है तो प्रति क्लास सभी सटीकता । होनी चाहिए । अन्यथा, हमारा परीक्षण संयोग से बेहतर नहीं है। हालांकि, प्रति कक्षा सटीकता सटीकता झूठी सकारात्मकता को ध्यान में नहीं रखती है। भले ही हमारे वर्गीकरण समारोह में क्लास लिए 100% सटीकता है, फिर भी (जैसे कि एक रूप में गलत तरीके से एक ) के लिए गलत सकारात्मकता होगी ।1.000.00>0.5AABA
संवेदनशीलता और विशिष्टता
चिकित्सा परीक्षणों में संवेदनशीलता को उन लोगों के बीच के अनुपात के रूप में परिभाषित किया जाता है, जिन्हें बीमारी के रूप में पहचाना जाता है और वास्तव में बीमारी होने वाले लोगों की मात्रा के रूप में पहचाना जाता है। विशिष्टता को उन लोगों के बीच के अनुपात के रूप में परिभाषित किया जाता है, जिन्हें सही रूप में स्वस्थ लोगों की पहचान की जाती है और वास्तव में स्वस्थ लोगों की मात्रा। वास्तव में बीमारी होने वाले लोगों की मात्रा सही सकारात्मक परीक्षा परिणाम और झूठी नकारात्मक परीक्षा परिणामों की मात्रा है। वास्तव में स्वस्थ लोगों की मात्रा सही नकारात्मक परीक्षा परिणामों की मात्रा है और झूठी सकारात्मक परीक्षा परिणामों की मात्रा है।
बाइनरी वर्गीकरण
द्विआधारी वर्गीकरण की समस्याओं में दो वर्ग और । उन नमूनों की संख्या को संदर्भित करता है जिन्हें सही ढंग से वर्ग और से संबंधित के रूप में पहचाना गया था, वे उन नमूनों की संख्या को दर्शाते हैं, जिन्हें गलत तरीके से वर्ग रूप में पहचाना गया था । इस मामले में संवेदनशीलता और विशिष्टता निम्नानुसार परिभाषित की गई है:PNTnnFnn
sensitivity:=TPTP+FNspecificity:=TNTN+FP
TP सच्ची सकारात्मकता होने के नाते झूठी नकारात्मक होने के नाते,
सही नकारात्मक होने के नाते और झूठी सकारात्मक होने के नाते। । हालांकि, नकारात्मक और सकारात्मक के संदर्भ में सोचना चिकित्सा परीक्षणों के लिए ठीक है, लेकिन बेहतर अंतर्ज्ञान प्राप्त करने के लिए हमें नकारात्मक और सकारात्मक के संदर्भ में नहीं सोचना चाहिए, लेकिन सामान्य कक्षाओं और । फिर, हम कह सकते हैं कि नमूने सही ढंग से करने के लिए संबंधित के रूप में पहचान की राशि है और नमूने की राशि वास्तव में से संबंध रखते हैं कि हैFNTNFPαβαTααTα+Fβ। नमूने सही ढंग से संबंधित नहीं के रूप में पहचान की राशि है और नमूने वास्तव में से संबंधित नहीं की राशि है
। यह हमें लिए संवेदनशीलता और विशिष्टता प्रदान करता है, लेकिन हम क्लास लिए भी यही बात लागू कर सकते हैं । नमूने सही ढंग से करने के लिए संबंधित के रूप में पहचान की राशि है
और वास्तव में से संबंधित नमूने की राशि है । सही तरीके से पहचाने जाने वाले नमूनों की मात्रा से संबंधित नहीं हैαTβαTβ+FααββTββTβ+FαβTαऔर नमूने वास्तव में से संबंधित नहीं की राशि है । इस प्रकार हम प्रति वर्ग संवेदनशीलता और विशिष्टता प्राप्त करते हैं:βTα+Fβ
sensitivityα:=TαTα+Fβspecificityα:=TβTβ+Fαsensitivityβ:=TβTβ+Fαspecificityβ:=TαTα+Fβ
हालांकि हम उस और निरीक्षण करते । इसका मतलब है कि अगर हमारे पास केवल दो वर्ग हैं तो हमें प्रति कक्षा संवेदनशीलता और विशिष्टता की आवश्यकता नहीं है।sensitivityα=specificityβspecificityα=sensitivityβ
एन-आर्य वर्गीकरण
प्रति वर्ग संवेदनशीलता और विशिष्टता उपयोगी नहीं है यदि हमारे पास केवल दो कक्षाएं हैं, लेकिन हम इसे कई वर्गों तक बढ़ा सकते हैं। संवेदनशीलता और विशिष्टता के रूप में परिभाषित किया गया है:
sensitivity:=true positivestrue positives+false negativesspecificity:=true negativestrue negatives+false-positives
सच्ची सकारात्मकता बस , झूठी नकारात्मकता बसTn∑i(Fn,i)∑i(Fi,n)n∑i(Ti)−T(n)nn∑i(∑k(Fi,k))nn∑i(Fn,i)n∑i(Fi,n)∑i(Ti)−T(n)+∑i(∑k(Fn,i))−∑i(Fn,i)−∑i(Fi,n)। सारांश के रूप में हमारे पास है:
true positives:=Tntrue negatives:=∑i(Ti)−T(n)+∑i(∑k(Fn,i))−∑i(Fn,i)−∑i(Fi,n)false positives:=∑i(Fi,n)false negatives:=∑i(Fn,i)
sensitivity(n):=TnTn+∑i(Fn,i)specificity(n):=∑i(Ti)−Tn+∑i(∑k(Fi,k))−∑i(Fn,i)−∑i(Fi,n)∑i(Ti)−Tn+∑i(∑k(Fi,k))−∑i(Fn,i)
पेश है आत्मविश्वास
हम एक को परिभाषित जो इस बात का माप है कि हम कितने आश्वस्त हो सकते हैं कि हमारे वर्गीकरण फ़ंक्शन का उत्तर वास्तव में सही है। वे सभी मामले हैं जिनमें वर्गीकरण फ़ंक्शन ने साथ उत्तर दिया था, लेकिन उनमें से केवल सही हैं। हम इस प्रकार परिभाषित करते हैंconfidence⊤Tn+∑i(Fi,n)nTn
confidence⊤(n):=TnTn+∑i(Fi,n)
लेकिन क्या हम एक को परिभाषित कर सकते हैं जो इस बात का एक उपाय है कि हम कितने आश्वस्त हो सकते हैं कि यदि हमारा वर्गीकरण फ़ंक्शन से भिन्न वर्ग के साथ प्रतिक्रिया करता है कि यह वास्तव में नहीं था ?confidence⊥nn
ठीक है, हम जिनमें से सभी सही हैं सिवाय , हम परिभाषित करते हैं।∑i(∑k(Fi,k))−∑i(Fi,n)+∑i(Ti)−Tn∑i(Fn,i)
confidence⊥(n)=∑i(∑k(Fi,k))−∑i(Fi,n)+∑i(Ti)−Tn−∑i(Fn,i)∑i(∑k(Fi,k))−∑i(Fi,n)+∑i(Ti)−Tn