एक वर्गीकरण के लिए इष्टतम सीमा कैसे निर्धारित करें और आरओसी वक्र उत्पन्न करें?


27

मान लें कि हमारे पास SVM क्लासिफायर है, हम ROC वक्र कैसे बनाते हैं? (सैद्धांतिक रूप से) (क्योंकि हम प्रत्येक सीमा के साथ TPR और FPR उत्पन्न करते हैं)। और हम इस एसवीएम क्लासिफायर के लिए इष्टतम सीमा कैसे निर्धारित करते हैं?


जवाबों:


14

एसवीएम क्लासिफायर का उपयोग एनोटेट उदाहरणों के एक सेट को वर्गीकृत करने के लिए किया जाता है, और आरओसी अंतरिक्ष पर "एक बिंदु" उदाहरणों की एक भविष्यवाणी के आधार पर पहचाना जा सकता है। मान लीजिए कि उदाहरणों की संख्या 200 है, पहले चार मामलों के उदाहरणों की संख्या की गणना करें।

एलएलटीआरयूएलएलएलरोंपीआरमैंसीटीटीआरयू7128पीआरमैंसीटीएलरों5744


फिर TPR (ट्रू पॉजिटिव रेट) और FPR (फाल्स पॉजिटिव रेट) की गणना करें। , और ROC स्थान पर, X- अक्ष FPR है, और y- अक्ष TPR है। तो बिंदु प्राप्त किया जाता है। आरओसी वक्र बनाने के लिए, बस (1) कुछ सीमा मूल्य समायोजित करें जो सही या गलत लेबल किए गए उदाहरणों की संख्या को नियंत्रित करते हैंF P R = 28 / ( 28 + 44 ) = 0.3889 ( 0.3889 , 0.5547 )टीपीआर=71/(71+57)=0.5547एफपीआर=28/(28+44)=0.3889(0.3889,0.5547)



उदाहरण के लिए, यदि α% से ऊपर कुछ प्रोटीन की सांद्रता एक बीमारी का संकेत देती है, तो α के विभिन्न मान अलग-अलग अंतिम TPR और FPR मान प्राप्त करते हैं। थ्रेशोल्ड मान को ग्रिड खोज के समान ही निर्धारित किया जा सकता है; अलग-अलग सीमा मूल्यों के साथ लेबल प्रशिक्षण उदाहरण, लेबल किए गए उदाहरणों के विभिन्न सेटों के साथ ट्रेन क्लासीफायर, परीक्षण डेटा पर क्लासिफायर चलाएं, FPR मानों की गणना करें और निम्न सीमा वाले मानों का चयन करें जो निम्न को कवर करते हैं (0 के करीब) और उच्च (1 के करीब) FPR मान, अर्थात, 0, 0.05, 0.1, ..., 0.95, 1

(2) के पास, एनोटेट किए गए उदाहरणों के कई सेट उत्पन्न करें
(3) उदाहरणों के सेटों पर क्लासिफायर चलाएं
(4) कंप्यूट a (FPR, TPR) बिंदु उनमें से प्रत्येक के लिए
(5) अंतिम आरओसी वक्र खींचें

कुछ विवरण http://en.wikipedia.org/wiki/Receiver_operating_characteristic में देखे जा सकते हैं ।

इसके अलावा, ये दो लिंक एक इष्टतम सीमा निर्धारित करने के तरीके के बारे में उपयोगी हैं। एक सरल विधि यह है कि सही सकारात्मक और झूठी नकारात्मक दरों की अधिकतम राशि के साथ एक को लें। अन्य महीन मानदंड में अन्य चर शामिल हो सकते हैं, जैसे वित्तीय लागत, आदि

http://www.medicalbiostatistics.com -curves रिसीवर-ऑपरेटिंग characteristic.html


5
आपके स्पष्टीकरण के लिए धन्यवाद, इष्टतम सीमा के बारे में क्या?
रॉकइन्स्टार

1
क्षमा करें, मैंने सीखा है कि इष्टतम सीमा पहले से ही एक विशेष शब्द है। खोज करने के बाद, मैंने पाया कि Google पुस्तक पर "एनालिसिस रिसिवरिंग ऑपरेटिंग कैरेक्टर कर्व्स विथ एसएएस" नामक अध्याय "3.5 एक ऑप्टिमल थ्रेशोल्ड" का चयन करते हुए इष्टतम थ्रेशोल्ड के चयन पर कुछ विस्तृत विवरण दिया गया है। इस पर वर्णित दो व्यापक तरीके से थ्रेशोल्ड का चयन करना है जो परिणामस्वरूप द्विआधारी भविष्यवाणी (1) को एक पूर्ण भविष्यवक्ता के करीब बना देगा। (२) यथासंभव गैर-सूचनात्मक भविष्यवक्ता से दूर
टॉम

कूल, मुझे संदर्भ कहां मिल सकता है? धन्यवाद!
RockTheStar

2
हां, "गैर-सूचनात्मक भविष्यवक्ता से बहुत दूर" का क्या अर्थ है? कृपया संदर्भ जोड़ें।
सिमोन

1
इसके अलावा, मैंने यह भी पढ़ा है कि एक इष्टतम सीमा निर्धारित करने के लिए कई मापदंड हैं। उदाहरण के लिए, एक सरल मानदंड यह है कि सभी थ्रेसहोल्ड के बीच, सच्चे-सकारात्मक और झूठे-नकारात्मक मूल्यों की अधिकतम राशि के साथ एक को चुनें। अन्य अधिक परिष्कृत मानदंड भी हैं।
टॉम

3

दहलीज को चुनने का वास्तव में आसान तरीका यह है कि परीक्षण के सेट के लिए सकारात्मक मामलों के औसत अनुमानित मूल्यों को ध्यान में रखा जाए। यह आपकी दहलीज बन जाता है।

थ्रेशोल्ड उसी थ्रेसहोल्ड के करीब आता है जो आपको आरसी कर्व का उपयोग करके मिलेगा जहां वास्तविक सकारात्मक दर (टीपीआर) और 1 - झूठी पॉजिटिव रेट (एफआरपी) ओवरलैप है। यह tpr (क्रॉस) 1-fpr क्रॉस झूठी नकारात्मक को कम करते हुए वास्तविक सकारात्मक को अधिकतम करता है।


समझा। मेडियन ने मूल्य की भविष्यवाणी की। सलाह के लिये धन्यवाद।
रॉकइंटरस्टार

2
क्या इस पद्धति का कोई स्रोत है?
जेकीहुआ

1
यह आरओसी वक्र में TPR = 0.5 के साथ बिंदु को चुनने के बराबर है, जो वास्तव में मनमाना लगता है।
बनानिन

मूल्य की भविष्यवाणी की? और क्या होगा यदि आपके पास 1000: 1 का वर्ग असंतुलन है?
ldmtwo

3

अपने ROC स्थान के ऊपरी बाएँ कोने के सबसे पास वाले बिंदु को चुनें। अब इस बिंदु को उत्पन्न करने के लिए उपयोग की जाने वाली दहलीज सबसे इष्टतम होनी चाहिए।


2
यह स्वचालित रूप से कैसे करें?
ldmtwo

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.