मैं बड़े भ्रम की स्थिति को आसानी से कैसे पढ़ सकता हूं?


9

मैंने हाल ही में 369 कक्षाओं के साथ एक डेटासेट ( लिंक ) प्रकाशित किया है । मैंने वर्गीकरण कार्य कितना कठिन है, इसके लिए एक अनुभूति पाने के लिए मैंने उन पर कुछ प्रयोग किए। आमतौर पर, मुझे यह पसंद है कि अगर त्रुटि के प्रकार को देखने के लिए भ्रम की स्थिति है। हालाँकि, मैट्रिक्स व्यावहारिक नहीं है।369×369

क्या बड़े भ्रम वाले मेट्रिसेस की महत्वपूर्ण जानकारी देने का कोई तरीका है? उदाहरण के लिए, आमतौर पर बहुत सारे 0 होते हैं जो इतने दिलचस्प नहीं होते हैं। क्या वर्गों को छांटना संभव है ताकि अधिकांश गैर-शून्य प्रविष्टियाँ विकर्ण के आसपास हों, जिसमें कई मैट्रिक्स को दिखाने की अनुमति हो जो पूर्ण भ्रम मैट्रिक्स का हिस्सा हैं?

यहाँ एक बड़ा भ्रम मैट्रिक्स के लिए एक उदाहरण है

जंगली में उदाहरण

चित्र 6 EMNIST अच्छा लग रहा है:

यहाँ छवि विवरण दर्ज करें

यह देखना आसान है कि कई मामले कहां हैं। हालांकि, वे केवल वर्ग हैं। यदि पूरे पृष्ठ का उपयोग केवल एक कॉलम के बजाय किया जाता था तो यह संभवतः 3x हो सकता है, लेकिन यह अभी भी केवल वर्ग होगा। यहां तक ​​कि HASY के 369 वर्गों या इमेजनेट के 1000 के करीब भी नहीं है।26326=78

यह सभी देखें

CS.stackexchange पर मेरा समान प्रश्न


मुझे आप पर दया आती है ;-) आप प्रत्येक वर्ग के लिए एक बनाम सभी के भ्रम की कोशिश कर सकते हैं। उन्हें देखते हुए, उन कक्षाओं को देखें जिनमें व्यवहार विशिष्ट नहीं है और केवल उन पर पूर्ण भ्रम मैट्रिक्स का उपयोग करें।
DaL

1
प्रत्येक श्रेणी के लिए केवल मॉडल की सटीकता की रिपोर्ट क्यों नहीं करें। वास्तव में पूरे मैट्रिक्स को देखने की आवश्यकता किसे है?
डारिन थॉमस

1
@DarrinThomas यह केवल एक कागज में रिपोर्ट करने के बारे में नहीं है। यह स्वयं त्रुटियों का विश्लेषण करने के बारे में भी है।
मार्टिन थोमा

1
सबसे पहले आप पंक्ति-वार मानों को सामान्य कर सकते हैं और फिर इसे हीटमैप के रूप में प्लॉट कर सकते हैं। इसके अलावा, आप क्लासवाइज सटीकता (विकर्ण पर सामान्यीकृत मूल्य) द्वारा कक्षा को सॉर्ट कर सकते हैं। मुझे लगता है कि इससे पठनीयता बढ़ जाएगी।
निकोलस रिबल

1
मुझे शायद गणित में यह पूछना चाहिए। एसई / स्टैकओवरफ्लो फिर से। मुझे पूरा यकीन है कि ऐसे एल्गोरिदम हैं जो पंक्तियों / स्तंभों को इस तरह से फिर से क्रम देते हैं कि अधिकांश मूल्य विकर्ण के करीब है।
मार्टिन थोमा

जवाबों:


4

आप मेरे स्वामी थीसिस (पृष्ठ 48ff) में वर्णित एक तकनीक को लागू कर सकते हैं और कन्फ्यूजन मैट्रिक्स ऑर्डरिंग (सीएमओ) कहा जाता है:

  1. कॉलम / पंक्तियों को इस तरह से क्रमबद्ध करें, कि अधिकांश त्रुटियाँ विकर्ण के साथ हों।
  2. भ्रम मैट्रिक्स को कई ब्लॉकों में विभाजित करें, ताकि एकल ब्लॉक आसानी से मुद्रित / देखे जा सकें - और इस तरह आप कुछ ब्लॉकों को हटा सकते हैं क्योंकि कुछ डेटा बिंदु हैं।

अच्छा साइड इफेक्ट: यह विधि भी स्वचालित रूप से समान वर्गों को एक साथ जोड़ देती है। मेरी मास्टर्स थीसिस के चित्र 5.12 से पता चलता है कि:

यहाँ छवि विवरण दर्ज करें

आप के साथ भ्रम मैट्रिक्स आदेश लागू कर सकते हैं clana


कार्यान्वयन के लिए github.com/MartinThoma/clana देखें
मार्टिन थोमा

1

स्तंभों और पंक्तियों को फिर से क्रमबद्ध करने की कोशिश करने के बजाय, मैं सुझाव दूंगा कि डेटा की कल्पना करने का कोई और तरीका खोजा जाए।

यहाँ एक संभव वैकल्पिक सुझाव है। आप कक्षाओं को क्लस्टर कर सकते हैं, ~ 20 समूहों में कह सकते हैं, जहां प्रत्येक क्लस्टर में ~ 20 कक्षाएं होती हैं, कुछ प्रकार के क्लस्टरिंग एल्गोरिथ्म का उपयोग करते हैं जो समान कक्षाओं को एक साथ एक ही क्लस्टर में डालते हैं (जैसे, यदि दो कक्षाएं अक्सर एक दूसरे के साथ भ्रमित होती हैं, वे एक ही क्लस्टर में होने की अधिक संभावना होनी चाहिए)। फिर आप एक पंक्ति / स्तंभ प्रति क्लस्टर के साथ मोटे-मोटे भ्रम मैट्रिक्स को दिखा सकते हैं; कक्ष में पता चलता है कि क्लस्टर में कुछ वर्ग का उदाहरण कितनी बार है, यह अनुमान लगाया जाता है कि क्लस्टर में कुछ वर्ग है(i,j)ij। इसके अलावा, आपके पास ~ 20 महीन-महीन उलझन वाले मेट्रिसेस हो सकते हैं: प्रत्येक क्लस्टर के लिए, आप प्रत्येक क्लस्टर में ~ 20 कक्षाओं के लिए, कक्षाओं की उलझन मैट्रिक्स दिखा सकते हैं। बेशक, आप पदानुक्रमित क्लस्टरिंग का उपयोग करके भी इसे बढ़ा सकते हैं और कई ग्रैन्युलैरिटी में भ्रम की स्थिति पैदा कर सकते हैं।

अन्य संभावित विज़ुअलाइज़ेशन रणनीतियाँ भी हो सकती हैं।

एक सामान्य दार्शनिक बिंदु के रूप में: यह आपके लक्ष्यों को स्पष्ट करने में भी मदद कर सकता है (आप विज़ुअलाइज़ेशन से बाहर निकलना चाहते हैं)। आप विज़ुअलाइज़ेशन के दो प्रकारों का उपयोग कर सकते हैं:

  • खोजपूर्ण विश्लेषण: आप सुनिश्चित नहीं हैं कि आप क्या देख रहे हैं; आप सिर्फ एक दृश्य चाहते हैं जो आपको डेटा में दिलचस्प पैटर्न या कलाकृतियों को देखने में मदद कर सकता है।

  • एक संदेश के साथ आंकड़े: आपके पास एक विशेष संदेश है जिसे आप पाठक को दूर ले जाना चाहते हैं, और आप एक विज़ुअलाइज़ेशन तैयार करना चाहते हैं जो उस संदेश का समर्थन करने में मदद करता है या संदेश के लिए सबूत प्रदान करता है।

इससे आपको यह जानने में मदद मिल सकती है कि आप किस उद्देश्य के लिए प्रयास कर रहे हैं, और फिर उस उद्देश्य के लिए एक दृश्य तैयार करें:

  • यदि आप खोजपूर्ण विश्लेषण कर रहे हैं, तो एक सही दृश्य चुनने की कोशिश करने के बजाय, यह अक्सर कई विज़ुअलाइज़ेशन बनाने की कोशिश करने में सहायक होता है, जैसा कि आप सोच सकते हैं। इस बारे में चिंता न करें कि उनमें से कोई भी परिपूर्ण है; यदि प्रत्येक व्यक्ति त्रुटिपूर्ण है, तो यह ठीक है, क्योंकि प्रत्येक आपको डेटा पर संभावित रूप से अलग परिप्रेक्ष्य दे सकता है (यह संभवतः कुछ मायनों में अच्छा होगा और दूसरों में बुरा होगा)।

  • यदि आपके पास एक विशेष संदेश है जिसे आप संप्रेषित करने का प्रयास कर रहे हैं या एक विषय जिसे आप विकसित करने का प्रयास कर रहे हैं, तो उस विषय का समर्थन करने वाले दृश्य की तलाश करें। यह जानना कठिन है कि उस विषय / संदेश के बिना कोई विशिष्ट सुझाव दिया जा सकता है।


0

यह जानना महत्वपूर्ण है कि EMNIST भ्रम मैट्रिक्स अच्छा क्यों दिखता है।

लेकिन मुझे यह अजीब लगता है कि उन्होंने अधिक संख्या में अंधेरा होने के साथ रंग को बनाए नहीं रखा है, उदाहरण के लिए शून्य से युक्त अधिकांश मिस-वर्गीकरण में एक पूर्णांक की तुलना में गहरे भूरे रंग के होते हैं। सुसंगत नहीं लगता है।

मैं EMINST शैली का उपयोग करने की कोशिश करूंगा, सिवाय इसके कि यह संगत रहे जहां रंग एक सेल में प्रविष्टियों की संख्या को इंगित करता है। शून्य एंट्री के लिए सफेद, और सबसे प्रविष्टियों के लिए काला।

एक पूर्ण वर्गीकरण पूरी तरह से सफेद ऊपरी और निचले त्रिकोण के साथ एक काले विकर्ण होगा। जहाँ त्रिभुजों में कोई धूसर पैच होता था, वह समस्याओं का संकेत देता था। 1000 वर्ग के सेट पर भी यह मददगार होगा। इमेजनेट के लिए जहां कक्षाएं पदानुक्रमित होती हैं, शायद स्तंभों को छांटना ताकि उपवर्गों को समूहबद्ध किया जाए, अभिभावक वर्ग के दाईं ओर अंधेरे पैच हो।

अगर आपको किसी छवि के लिए शीर्ष 5 प्रतिक्रियाएं मिल रही हैं, तो कक्षाएं परस्पर अनन्य नहीं हो सकती हैं, जैसे कि एक लैप_डॉग की छवि के लिए कुत्ते का वर्गीकरण अभी भी सही होना चाहिए, इसलिए इस तरह के भ्रम मैट्रिक्स में, अधिक सामान्य वर्ग अधिक गहरा होना चाहिए। सटीक वर्गीकरण की तुलना में (यदि रंग सामान्यीकृत होते हैं।) इसलिए शीर्ष बाएं वर्ग सबसे गहरा होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.