हिस्टोग्राम के साथ आपसी जानकारी (एमआई) का अनुमान लगाने के लिए डिब्बे की सबसे अच्छी संख्या नहीं है। सबसे अच्छा तरीका है कि यदि आप कर सकते हैं, या अंगूठे के एक नियम पर भरोसा करने के लिए इसे क्रॉस-मान्यता के माध्यम से चुनना है। यही कारण है कि एमआई के कई अन्य अनुमानक जो हिस्टोग्राम्स पर आधारित नहीं हैं, प्रस्तावित किए गए हैं।
डिब्बे की संख्या कुल डेटा बिंदुओं पर निर्भर करेगी n। दो चर के बीच संयुक्त वितरण के लिए अनुमान त्रुटियों से बचने के लिए आपको बहुत अधिक डिब्बे से बचने की कोशिश करनी चाहिए। आपको दो चरों के बीच संबंधों को पकड़ने में सक्षम होने के लिए बहुत कम डिब्बे से बचना चाहिए। यह देखते हुए कि दोनों के लिए समान चौड़ाई के डिब्बे के np.histogram2d(x, y, D)
साथ एक 2 डी हिस्टोग्राम उत्पन्न करता है और मैं व्यक्तिगत रूप से चुनूंगा:
D
x
y
D = ⌊एन / ५---√⌋
इस मामले में दो समान रूप से वितरित यादृच्छिक चर के लिए औसतन आपके पास हिस्टोग्राम के प्रत्येक सेल के लिए कम से कम अंक होंगे:
यह एक संभावित विकल्प है जो
(Cellucci, 2005) में प्रस्तावित अनुकूली विभाजन दृष्टिकोण का अनुकरण करता है । बाद वाले दृष्टिकोण का उपयोग अक्सर एमआई का अनुमान लगाने के लिए किया जाता है ताकि आनुवंशिक नेटवर्क का अनुमान लगाया जा सके: जैसे कि
MIDER में ।
5nडीएक्सडीY≥ 5 ⇒nडी2≥ 5 ⇒डी2≤ n / 5 ⇒ डी = ⌊एन / ५---√⌋
यदि आपके पास बहुत सारे डेटा पॉइंट और कोई लापता मान नहीं है, तो आपको सर्वोत्तम संख्या में डिब्बे खोजने के बारे में बहुत चिंता नहीं करनी चाहिए; जैसे अगर । यदि यह मामला नहीं है, तो आप परिमित नमूनों के लिए एमआई को सही मान सकते हैं। (Steuer et al।, 2002) आनुवंशिक नेटवर्क अनुमान के कार्य के लिए MI के लिए कुछ सुधार पर चर्चा करता है।nn = 100 , 000
हिस्टोग्राम के लिए डिब्बे की संख्या का अनुमान लगाना एक पुरानी समस्या है। आप इस बात में दिलचस्पी ले सकते हैं कि लॉरिट्ज़ डाइकमैन ने एमआई के लिए डिब्बे की संख्या का अनुमान लगाया है। यह बात माइक एक्स कोहेन की किताब में एक अध्याय पर आधारित है जिसमें तंत्रिका समय-श्रृंखला है।
आप चुन सकते हैं डीएक्स तथा डीY स्वतंत्र रूप से और 1 डी हिस्टोग्राम में डिब्बे की संख्या का अनुमान लगाने के लिए उपयोग किए गए अंगूठे के नियम का उपयोग करें।
फ्रीडमैन-डायकोनिस का नियम (वितरण पर कोई धारणा नहीं):
डीएक्स= ⌈अधिकतम एक्स- न्यूनतम एक्स2 ⋅ IQR ⋅n- 1 / 3⌉
जहां 75-मात्रात्मक और 25-मात्रात्मक के बीच का अंतर है।
एसई में इस संबंधित प्रश्न को देखें ।
IQR
स्कॉट के नियम (सामान्य धारणा):
जहां मानक विचलन है के लिए ।
डीएक्स= ⌈अधिकतम एक्स- न्यूनतम एक्स3.5 ⋅रोंएक्स⋅n- 1 / 3⌉
रोंएक्सएक्स
स्टर्ज का नियम (डिब्बे की संख्या को कम कर सकता है लेकिन बड़े लिए अच्छा है ):
n
डीएक्स= ⌈ 1 +लॉग2n ⌉
एमआई को हिस्टोग्राम के साथ सही ढंग से अनुमान लगाना मुश्किल है। फिर आप एक अलग अनुमानक चुन सकते हैं:
- Kraskov के एनएन आकलनकर्ता, जो थोड़ा कम पैरामीटर विकल्प के प्रति संवेदनशील है: या निकटतम पड़ोसियों अक्सर डिफ़ॉल्ट के रूप में प्रयोग किया जाता है। पेपर: (क्रैस्कोव, 2003)कके = ४के = ६
- कर्नेल (चंद्रमा, 1995) के साथ एमआई का अनुमान ।
MI का अनुमान लगाने के लिए बहुत सारे पैकेज हैं:
- पायथन के लिए गैर-पैरामीट्रिक एंट्रॉपी अनुमान टूलबॉक्स। साइट ।
- जावा में सूचना-डायनामिक्स टूलकिट लेकिन पायथन के लिए भी उपलब्ध है। साइट ।
- Matlab में ITE टूलबॉक्स। साइट ।