आरओसी वक्र को समझना


57

मुझे ROC वक्र को समझने में परेशानी हो रही है।

आरओसी वक्र के तहत क्षेत्र में कोई लाभ / सुधार है यदि मैं प्रशिक्षण सेट के प्रत्येक अद्वितीय सबसेट से अलग मॉडल बनाता हूं और इसका उपयोग संभावना पैदा करने के लिए करता हूं? उदाहरण के लिए, यदि का मान होता है { एक , एक , एक , एक , , , , } , और मैं मॉडल बनाने एक का उपयोग करके एक के 1-4 मूल्यों से y के और 8 वीं 9 वीं मान y और निर्माण मॉडल बी का उपयोग करके ट्रेन डेटा बने रहे। अंत में, संभावना उत्पन्न करें। किसी भी विचार / टिप्पणी की बहुत सराहना की जाएगी।y{a,a,a,a,b,b,b,b}AayyB

यहाँ मेरे प्रश्न के लिए बेहतर स्पष्टीकरण के लिए आर कोड है:

Y    = factor(0,0,0,0,1,1,1,1)
X    = matirx(rnorm(16,8,2))
ind  = c(1,4,8,9)
ind2 = -ind

mod_A    = rpart(Y[ind]~X[ind,])
mod_B    = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)

pred = numeric(8)
pred_combine[ind]  = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full          = predict(mod_full, type='prob')

तो मेरा सवाल है, pred_combineबनाम आरओसी वक्र के तहत क्षेत्र pred_full


3
एक बेहतर उदाहरण प्रश्न को बेहतर बनाने के लिए बहुत कुछ करेगा।
एमपिकटस

मेरी समझ यह है कि आप कुछ विशिष्ट नमूने चुनकर एयूसी बढ़ाना चाहते हैं? यदि यह आपका उद्देश्य है, तो मेरा मानना ​​है कि पक्षपाती नमूना चयन का यह दृष्टिकोण पूरी तरह से गलत है, कम से कम यदि आपका उद्देश्य वर्गीकरण प्रदर्शन के लिए एक अच्छा उपाय खोजना है।
राफियो

जवाबों:


174

मुझे यकीन नहीं है कि मुझे सवाल मिल गया है, लेकिन जब से शीर्षक आरओसी घटता को समझाने के लिए कहता है, तो मैं कोशिश करूँगा।

आरओसी कर्व्स का उपयोग यह देखने के लिए किया जाता है कि आपका क्लासिफायर कितना सकारात्मक और नकारात्मक उदाहरणों को अलग कर सकता है और उन्हें अलग करने के लिए सर्वोत्तम सीमा की पहचान कर सकता है।

आरओसी वक्र का उपयोग करने में सक्षम होने के लिए, आपके क्लासिफायरर की रैंकिंग होनी चाहिए - अर्थात, यह ऐसे उदाहरणों को रैंक करने में सक्षम होना चाहिए, जो उच्च रैंक वाले सकारात्मक होने की अधिक संभावना रखते हैं। उदाहरण के लिए, लॉजिस्टिक रिग्रेशन संभावनाओं का उत्पादन करता है, जो एक स्कोर है जिसे आप रैंकिंग के लिए उपयोग कर सकते हैं।

ड्राइंग आरओसी वक्र

एक डेटा सेट और एक रैंकिंग वर्गीकरणकर्ता को देखते हुए:

  • उच्चतम से निम्नतम तक स्कोर द्वारा परीक्षण के उदाहरणों का आदेश दें
  • में शुरू (0,0)
  • प्रत्येक उदाहरण के लिए एक्सक्रमबद्ध क्रम में के लिए
    • यदि धनात्मक है, तो 1 / pos को ले जाएँएक्स1/स्थिति ऊपर ले जाएँ
    • एक्स1/neg

स्थितिneg सकारात्मक और नकारात्मक उदाहरण के अंशों क्रमशः रहे हैं।

यह अच्छा जिफ-एनिमेटेड चित्र इस प्रक्रिया को स्पष्ट करना चाहिए

वक्र का निर्माण

yएक्स -axis झूठी सकारात्मक दर है। विकर्ण रेखा पर ध्यान दें - यह आधार रेखा है, जिसे एक यादृच्छिक क्लासिफायरियर के साथ प्राप्त किया जा सकता है। आगे हमारा आरओसी वक्र लाइन के ऊपर है, बेहतर है।

आरओसी के तहत क्षेत्र

आरसी के तहत क्षेत्र

आरओसी वक्र (छायांकित) के तहत क्षेत्र स्वाभाविक रूप से दिखाता है कि आधार रेखा से वक्र कितना दूर है। आधार रेखा के लिए यह 0.5 है, और सही वर्गीकरण के लिए यह 1 है।

आप इस प्रश्न में एयूसी आरओसी के बारे में अधिक पढ़ सकते हैं: एयूसी क्या है और यह क्या है?

बेस्ट थ्रेशोल्ड का चयन

मैं सबसे अच्छी सीमा का चयन करने की प्रक्रिया को संक्षेप में बताऊंगा, और संदर्भ में अधिक जानकारी प्राप्त की जा सकती है।

सर्वश्रेष्ठ सीमा का चयन करने के लिए आप अपने आरओसी वक्र के प्रत्येक बिंदु को एक अलग क्लासिफायर के रूप में देखते हैं। यह मिनी-क्लासिफायर उस बिंदु का उपयोग करता है जिसे बिंदु + और - के बीच की सीमा के रूप में मिला है (यानी यह वर्तमान के ऊपर सभी बिंदुओं के रूप में वर्गीकृत करता है)

हमारे डेटा सेट में स्थिति / नकारात्मक अंश के आधार पर - 50% / 50% के मामले में आधार रेखा के समानांतर - आप आईएसओ सटीकता लाइनों का निर्माण करते हैं और सबसे अच्छी सटीकता के साथ एक लेते हैं।

यहाँ एक चित्र है जो दिखाता है कि और विवरण के लिए मैं आपको फिर से संदर्भ के लिए आमंत्रित करता हूं

सर्वश्रेष्ठ सीमा का चयन करना

संदर्भ


शानदार टिप्पणी के लिए धन्यवाद! मुझे खेद है कि मैं आपके जवाब के लिए नहीं उठ सका, मुझे लगता है कि मुझे 15 से अधिक प्रतिष्ठा की आवश्यकता है :(
ताई शिन

बस जिज्ञासु, आपके कदम का आकार आपके क्लासिफ़ायर सही द्वारा उत्पादित सकारात्मक / नकारात्मक लेबल की संख्या पर निर्भर करना होगा? Ie gif में, चरण का आकार ऊपर की ओर है ।1, यदि आपके पास एक अतिरिक्त सकारात्मक लेबल था (नकारात्मक लेबल के स्थान पर), तो "वक्र" ऊर्ध्वाधर अक्ष पर 1.1 पर समाप्त होगा (या शायद मुझे कुछ याद आ रहा है) ?)। तो, उस स्थिति में आपके कदम का आकार छोटा होना चाहिए?
काइफोस

नहीं, स्टेप साइज डेटासेट में पॉजिटिव / निगेटिव उदाहरणों की संख्या पर निर्भर करता है, न कि क्लासिफायर की सटीकता पर।
एलेक्सी ग्रिगोरेव

2
@ गुंग समझ गया। एलेक्सी: सकारात्मक और नकारात्मक उदाहरणों के बजाय, मुझे लगता है कि यह होना चाहिए: सच्ची सकारात्मकता और झूठी सकारात्मक। आप उत्तर के मेरे संस्करण को देखने में सक्षम हो सकते हैं, जिसे गंग ने वापस किया था। धन्यवाद
एस्कैचर

3
@AlexeyGrigorev, आपके द्वारा दिए गए उत्तर को प्यार करें और वोट करें। मुझे यकीन नहीं है कि अगर दो आरओसी परिभाषाएं हैं। मैं यहाँ ROC परिभाषा की बात कर रहा हूँ ( en.wikipedia.org/wiki/Receiver_operating_characteristic ), x- अक्ष झूठी सकारात्मक दर होनी चाहिए, जो कि (सकारात्मक होने की भविष्यवाणियों का # है, लेकिन नकारात्मक होना चाहिए) / (# कुल नकारात्मक), मुझे लगता है कि संदर्भ में, मुझे लगता है कि x- अक्ष झूठी सकारात्मक दर नहीं खींच रहा है, जो (कुल नकारात्मक का #) विचार नहीं करता है?
लिन मा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.