मेरे दो क्लासिफायर हैं
- एक: भोले Bayesian नेटवर्क
- बी: ट्री (एकवचन-जुड़े) बायेसियन नेटवर्क
सटीकता और अन्य उपायों के संदर्भ में, A, बी से तुलनात्मक रूप से खराब प्रदर्शन करता है। हालांकि, जब मैं ROC विश्लेषण करने के लिए R संकुल ROCR और AUC का उपयोग करता हूं, तो यह पता चलता है कि A के लिए AUC B के लिए AUC से अधिक है। ऐसा क्यों है हो रहा?
सही पॉजिटिव (tp), गलत पॉजिटिव (fp), गलत negative (fn), true negative (tn), संवेदनशीलता (sen), विशिष्टता (spec), पॉजिटिव प्रेडिक्टिव वैल्यू (ppv), नेगेटिव प्रेडिक्टिव वैल्यू (nvv), और A और B के लिए सटीकता (एसीसी) निम्नानुसार हैं।
+------+---------+---------+
| | A | B |
+------+---------+---------+
| tp | 3601 | 769 |
| fp | 0 | 0 |
| fn | 6569 | 5918 |
| tn | 15655 | 19138 |
| sens | 0.35408 | 0.11500 |
| spec | 1.00000 | 1.00000 |
| ppv | 1.00000 | 1.00000 |
| npv | 0.70442 | 0.76381 |
| acc | 0.74563 | 0.77084 |
+------+---------+---------+
मार्जिन पर संवेदी और संबंधों (युक्ति और पीपीवी) को छोड़कर (tp, fn, fn और tn को छोड़कर), B, A से बेहतर प्रदर्शन करता है।
जब मैं 1-स्पेक (x- अक्ष) बनाम संवेदी (y- अक्ष) के लिए AUC की गणना करता हूं
aucroc <- auc(roc(data$prediction,data$labels));
यहाँ एयूसी तुलना है।
+----------------+---------+---------+
| | A | B |
+----------------+---------+---------+
| sens vs 1-spec | 0.77540 | 0.64590 |
| sens vs spec | 0.70770 | 0.61000 |
+----------------+---------+---------+
तो यहाँ मेरे सवाल हैं:
- A, A से B के लिए बेहतर क्यों है, जब B "लगता है" सटीकता के संबंध में A से बेहतर प्रदर्शन करता है?
- तो, मैं वास्तव में ए और बी के वर्गीकरण प्रदर्शनों का न्याय / तुलना कैसे करूं? मेरा मतलब है, क्या मैं एयूसी मूल्य का उपयोग करता हूं? क्या मैं एसीसी मूल्य का उपयोग करता हूं, और यदि ऐसा है तो क्यों?
- इसके अलावा, जब मैं ए और बी, बी लॉपरफॉर्म ए को लॉग लॉस, क्वाड्रेटिक लॉस, और गोलाकार नुकसान (पी <0.001) के संदर्भ में उचित स्कोरिंग नियम लागू करता हूं। AUC के संबंध में वर्गीकरण प्रदर्शन को देखते हुए इनका वजन कैसे होता है?
- ए के लिए आरओसी ग्राफ बहुत चिकना दिखता है (यह एक घुमावदार चाप है), लेकिन बी के लिए आरओसी ग्राफ कनेक्टेड लाइनों के एक सेट की तरह दिखता है। ऐसा क्यों है?
जैसा कि अनुरोध किया गया है, यहां मॉडल ए के लिए भूखंड हैं।
यहां मॉडल बी के लिए भूखंड हैं।
ए और बी के लिए संभावनाओं के वितरण के हिस्टोग्राम प्लॉट यहां हैं (ब्रेक 20 पर सेट हैं)।
यहां बी बनाम ए की संभावनाओं की तितर बितर साजिश है।