मान लें कि हमारे पास SVM क्लासिफायर है, हम ROC वक्र कैसे बनाते हैं? (सैद्धांतिक रूप से) (क्योंकि हम प्रत्येक सीमा के साथ TPR और FPR उत्पन्न करते हैं)। और हम इस एसवीएम क्लासिफायर के लिए इष्टतम सीमा कैसे निर्धारित करते हैं?
मान लें कि हमारे पास SVM क्लासिफायर है, हम ROC वक्र कैसे बनाते हैं? (सैद्धांतिक रूप से) (क्योंकि हम प्रत्येक सीमा के साथ TPR और FPR उत्पन्न करते हैं)। और हम इस एसवीएम क्लासिफायर के लिए इष्टतम सीमा कैसे निर्धारित करते हैं?
जवाबों:
एसवीएम क्लासिफायर का उपयोग एनोटेट उदाहरणों के एक सेट को वर्गीकृत करने के लिए किया जाता है, और आरओसी अंतरिक्ष पर "एक बिंदु" उदाहरणों की एक भविष्यवाणी के आधार पर पहचाना जा सकता है। मान लीजिए कि उदाहरणों की संख्या 200 है, पहले चार मामलों के उदाहरणों की संख्या की गणना करें।
फिर TPR (ट्रू पॉजिटिव रेट) और FPR (फाल्स पॉजिटिव रेट) की गणना करें। , और ROC स्थान पर, X- अक्ष FPR है, और y- अक्ष TPR है। तो बिंदु प्राप्त किया जाता है।
आरओसी वक्र बनाने के लिए, बस
(1) कुछ सीमा मूल्य समायोजित करें जो सही या गलत लेबल किए गए उदाहरणों की संख्या को नियंत्रित करते हैंF P R = 28 / ( 28 + 44 ) = 0.3889 ( 0.3889 , 0.5547 )
उदाहरण के लिए, यदि α% से ऊपर कुछ प्रोटीन की सांद्रता एक बीमारी का संकेत देती है, तो α के विभिन्न मान अलग-अलग अंतिम TPR और FPR मान प्राप्त करते हैं। थ्रेशोल्ड मान को ग्रिड खोज के समान ही निर्धारित किया जा सकता है; अलग-अलग सीमा मूल्यों के साथ लेबल प्रशिक्षण उदाहरण, लेबल किए गए उदाहरणों के विभिन्न सेटों के साथ ट्रेन क्लासीफायर, परीक्षण डेटा पर क्लासिफायर चलाएं, FPR मानों की गणना करें और निम्न सीमा वाले मानों का चयन करें जो निम्न को कवर करते हैं (0 के करीब) और उच्च (1 के करीब) FPR मान, अर्थात, 0, 0.05, 0.1, ..., 0.95, 1
(2) के पास, एनोटेट किए गए उदाहरणों के कई सेट उत्पन्न करें
(3) उदाहरणों के सेटों पर क्लासिफायर चलाएं
(4) कंप्यूट a (FPR, TPR) बिंदु उनमें से प्रत्येक के लिए
(5) अंतिम आरओसी वक्र खींचें
कुछ विवरण http://en.wikipedia.org/wiki/Receiver_operating_characteristic में देखे जा सकते हैं ।
इसके अलावा, ये दो लिंक एक इष्टतम सीमा निर्धारित करने के तरीके के बारे में उपयोगी हैं। एक सरल विधि यह है कि सही सकारात्मक और झूठी नकारात्मक दरों की अधिकतम राशि के साथ एक को लें। अन्य महीन मानदंड में अन्य चर शामिल हो सकते हैं, जैसे वित्तीय लागत, आदि
।
http://www.medicalbiostatistics.com -curves रिसीवर-ऑपरेटिंग characteristic.html
दहलीज को चुनने का वास्तव में आसान तरीका यह है कि परीक्षण के सेट के लिए सकारात्मक मामलों के औसत अनुमानित मूल्यों को ध्यान में रखा जाए। यह आपकी दहलीज बन जाता है।
थ्रेशोल्ड उसी थ्रेसहोल्ड के करीब आता है जो आपको आरसी कर्व का उपयोग करके मिलेगा जहां वास्तविक सकारात्मक दर (टीपीआर) और 1 - झूठी पॉजिटिव रेट (एफआरपी) ओवरलैप है। यह tpr (क्रॉस) 1-fpr क्रॉस झूठी नकारात्मक को कम करते हुए वास्तविक सकारात्मक को अधिकतम करता है।