सभी स्पीशीज डिस्ट्रीब्यूशन मॉडलिंग साहित्य से पता चलता है कि जब किसी ऐसे मॉडल का उपयोग करते हुए प्रजातियों की मौजूदगी / अनुपस्थिति की भविष्यवाणी की जाती है, जो संभाव्यता (उदाहरण के लिए, रैंडमफॉरेस्ट्स) का उपयोग करते हैं, तो थ्रेशोल्ड प्रोबेबिलिटी का चुनाव जिसके द्वारा वास्तव में उपस्थिति या अनुपस्थिति के रूप में किसी प्रजाति को वर्गीकृत किया जाना चाहिए और एक महत्वपूर्ण होना चाहिए हमेशा 0.5 के डिफ़ॉल्ट पर भरोसा न करें। मुझे इसके लिए कुछ मदद चाहिए! यहाँ मेरा कोड है:
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
इससे मैंने निर्धारित किया कि मैं अनुमानित संभावनाओं से उपस्थिति को वर्गीकृत करने के लिए जिस दहलीज का उपयोग करना चाहता हूं वह 0.7 है, 0.5 का डिफ़ॉल्ट नहीं। मुझे पूरी तरह से समझ में नहीं आ रहा है कि इस जानकारी का क्या करना है। क्या मैं अपने आउटपुट का मानचित्र बनाते समय बस इस सीमा का उपयोग करता हूं? मैं आसानी से निरंतर संभावनाओं के साथ एक मैप किए गए आउटपुट बना सकता था, फिर उन्हें 0.7 से अधिक वर्तमान के मानों के साथ पुनर्वर्गीकृत करता हूं, और उन <0.7 अनुपस्थित हैं।
या, क्या मैं इस जानकारी को लेना चाहता हूं और कट-ऑफ पैरामीटर का उपयोग करते हुए, अपने रैंडम फ़ॉरेस्ट मॉडलिंग को फिर से चलाना चाहता हूं? कट-ऑफ पैरामीटर क्या वास्तव में कर रहा है? क्या यह परिणामी वोट को बदलता है? (वर्तमान में यह "बहुमत" है)। मैं इस कट-ऑफ पैरामीटर का उपयोग कैसे करूँ? मैं प्रलेखन समझ में नहीं आता! धन्यवाद!