मैं यह जानने की कोशिश कर रहा हूं कि क्लस्टर एल्गोरिथम के रैंड इंडेक्स की गणना कैसे की जाए, लेकिन मैं इस बिंदु पर अटका हुआ हूं कि सही और गलत नकारात्मक की गणना कैसे की जाए।
फिलहाल मैं एक किताब से एक परिचय इंफॉर्मेशन रिट्रीवल (मैनिंग, राघवन एंड शूज, 2009) का उपयोग कर रहा हूं। पृष्ठ 359 पर वे रैंड इंडेक्स की गणना करने के तरीके के बारे में बात करते हैं। इस उदाहरण के लिए वे तीन समूहों का उपयोग करते हैं और क्लस्टर में निम्नलिखित ऑब्जेक्ट होते हैं।
- aaaaab
- abbbbc
- aaccc
मैं ऑब्जेक्ट (मूल चिह्नों को अक्षरों में बदल देता हूं, लेकिन विचार और गणना समान रहते हैं)। मैं पुस्तक से सटीक शब्द बताऊंगा ताकि यह देख सकें कि वे किस बारे में बात कर रहे हैं:
हम पहले टीपी + एफपी की गणना करते हैं। तीन समूहों में क्रमशः 6, 6, और 5 अंक होते हैं, इसलिए कुल संख्या "सकारात्मक" या एक ही समूह में होने वाले दस्तावेजों के जोड़े हैं:
TP + FP = + + = 15 + 15+ 10 = 40
इनमें से, क्लस्टर 1 में एक जोड़े, क्लस्टर 2 में बी जोड़े, क्लस्टर 3 में सी जोड़े और क्लस्टर 3 में एक जोड़ी सही सकारात्मक हैं:
TP = + + + = 10 + 6 + 3 + 1 = 20
इस प्रकार, एफपी = 40 - 20 = 20।
यहां तक गणना स्पष्ट हैं, और यदि मैं अन्य उदाहरण लेता हूं तो मुझे वही परिणाम मिलते हैं, लेकिन जब मैं झूठे नकारात्मक और सच्चे नकारात्मक मैनिंग एट अल की गणना करना चाहता हूं। निम्नलिखित बताएं:
FN और TN की गणना समान रूप से की जाती है, जिसके परिणामस्वरूप निम्नलिखित आकस्मिक तालिका होती है:
आकस्मिकता तालिका निम्नानुसार है:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
वाक्य: "एफएन और टीएन की गणना इसी तरह की जाती है" मेरे लिए स्पष्ट नहीं है और मुझे समझ में नहीं आता कि मुझे टीएन और एफएन की गणना करने के लिए किन संख्याओं की आवश्यकता है। मैं निम्न कार्य करके तालिका के दाईं ओर की गणना कर सकता हूं:
TP + FP + FN + TN = = = 136
स्रोत: http://en.wikipedia.org/wiki/Rand_index
इस प्रकार, एफएन + टीएन = 136 - टीपी + एफपी = 136 - 40 = 96, लेकिन यह वास्तव में मुझे यह पता लगाने में मदद नहीं करता है कि अलग-अलग चर की गणना कैसे करें। खासकर जब लेखक कहते हैं: "एफएन और टीएन की गणना इसी तरह की जाती है"। मैं नहीं देखता कि कैसे। इसके अलावा जब मैं अन्य उदाहरणों को देखता हूं तो वे प्रत्येक जोड़ी को देखकर आकस्मिक तालिका के प्रत्येक सेल की गणना करते हैं।
उदाहरण के लिए: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
मैनिंग एट अल (2009) के उदाहरण के आधार पर मेरा पहला सवाल क्या टीएन और एफएन की गणना करना संभव है, यदि आप केवल टीपी और एनपी जानते हैं? और यदि हां, तो दिए गए उदाहरण के आधार पर समान गणना कैसे दिखती है?