"एक छवि के एन्ट्रापी की गणना करने के लिए सबसे अधिक जानकारी / भौतिकी-सैद्धांतिक सही तरीका क्या है?"
एक उत्कृष्ट और सामयिक प्रश्न।
आम धारणा के विपरीत, एक छवि के लिए सहज ज्ञान युक्त (और सैद्धांतिक रूप से) प्राकृतिक सूचना-एन्ट्रापी को परिभाषित करना संभव है।
निम्नलिखित आकृति पर विचार करें:
हम देख सकते हैं कि अंतर छवि में अधिक कॉम्पैक्ट हिस्टोग्राम है, इसलिए इसकी शैनन सूचना-एन्ट्रॉपी कम है। इसलिए हम शैनन एन्ट्रापी (यानी अंतर डेटा से प्राप्त एन्ट्रोपी) का उपयोग करके दूसरे क्रम में कम अतिरेक प्राप्त कर सकते हैं। यदि हम इस विचार को isotropically 2D में विस्तारित कर सकते हैं, तो हम छवि सूचना-एन्ट्रॉपी के लिए अच्छे अनुमान की उम्मीद कर सकते हैं।
ग्रेडिएंट्स का एक दो आयामी हिस्टोग्राम 2 डी विस्तार की अनुमति देता है।
हम तर्कों को औपचारिक रूप दे सकते हैं और वास्तव में, यह हाल ही में पूरा हुआ है। संक्षिप्त रूप से पुन: सबमिट करना:
अवलोकन कि साधारण परिभाषा (उदाहरण के लिए MATLAB की छवि एन्ट्रापी की परिभाषा) को देखते हुए स्थानिक संरचना महत्वपूर्ण है। यह समझने के लिए कि इस पर क्या चल रहा है, 1D मामले को संक्षेप में वापस करने के लायक है। यह लंबे समय से ज्ञात है कि इसकी शैनन जानकारी / एन्ट्रापी की गणना करने के लिए एक संकेत के हिस्टोग्राम का उपयोग लौकिक या स्थानिक संरचना को अनदेखा करता है और संकेत की अंतर्निहित संपीड़ितता या अतिरेक का एक खराब अनुमान देता है। शान्नोन के क्लासिक पाठ में समाधान पहले से ही उपलब्ध था; संकेत के दूसरे क्रम गुणों का उपयोग करें, अर्थात् संक्रमण संभावनाएं। 1971 में अवलोकन (चावल और Plaunt) कि एक रेखापुंज स्कैन में पिक्सेल मूल्य का सबसे अच्छा भविष्यवक्ता पूर्ववर्ती पिक्सेल का मूल्य होता है तुरंत एक अंतर भविष्यवक्ता और दूसरा क्रम शैनन एंट्रॉपी की ओर जाता है जो सरल संपीड़न विचारों जैसे कि रन लंबाई एन्कोडिंग के साथ संरेखित करता है। इन विचारों को 80 के दशक के अंत में परिष्कृत किया गया था जिसके परिणामस्वरूप कुछ क्लासिक दोषरहित छवि (अंतर) कोडिंग तकनीकें जो अभी भी उपयोग में हैं (PNG, दोषरहित JPG, GIF, दोषरहित JPG2000) जबकि तरंगिकाएं और DCT केवल हानिपूर्ण एन्कोडिंग के लिए उपयोग की जाती हैं।
अब 2 डी पर जा रहा है; शोधकर्ताओं ने एक अभिविन्यास निर्भरता को पेश किए बिना शैनन के विचारों को उच्च आयामों तक विस्तारित करना बहुत कठिन पाया। सहज रूप से हम उम्मीद कर सकते हैं कि शैनन सूचना-एन्ट्रापी किसी छवि के अपने अभिविन्यास से स्वतंत्र हो। हम जटिल स्थानिक संरचना के साथ छवियों की भी उम्मीद करते हैं (जैसे प्रश्नकर्ता का यादृच्छिक शोर उदाहरण) सरल स्थानिक संरचना (प्रश्नकर्ता के चिकनी ग्रे-स्केल उदाहरण की तरह) के साथ छवियों की तुलना में अधिक जानकारी-एनट्रॉपी है। यह पता चलता है कि कारण यह था कि शैनन के विचारों को 1 डी से 2 डी तक फैलाना इतना कठिन है कि शैनन के मूल सूत्रीकरण में एक (एक तरफा) विषमता है जो 2 डी में एक सममित (आइसोट्रोपिक) सूत्रीकरण को रोकता है। एक बार 1D विषमता को ठीक करने के बाद 2 डी विस्तार आसानी और स्वाभाविक रूप से आगे बढ़ सकता है।
पीछा करने के लिए काटना (इच्छुक पाठक https://xxiv.org/abs/1609.01117 पर arXiv प्रीप्रिंट में विस्तृत विवरण देख सकते हैं ) जहां छवि एन्ट्रापी 2 डी हिस्टोग्राम ऑफ ग्रेडिएंट्स (क्रमिक संभाव्यता घनत्व फ़ंक्शन) से गणना की जाती है।
पहले 2 डी पीडीएफ की गणना इमेजेज एक्स और वाई डेरिवेटिव के अनुमानों की गणना करके की जाती है। यह 1 डी में अधिक सामान्य तीव्रता हिस्टोग्राम उत्पन्न करने के लिए उपयोग किए जाने वाले बिनिंग ऑपरेशन से मिलता जुलता है। व्युत्पन्न का अनुमान क्षैतिज और ऊर्ध्वाधर दिशाओं में गणना किए गए 2-पिक्सेल परिमित अंतर से लगाया जा सकता है। एक NxN वर्ग छवि f (x, y) के लिए हम आंशिक व्युत्पन्न fx के NxN मान और fy के NxN मान की गणना करते हैं। हम अंतर छवि के माध्यम से स्कैन करते हैं और प्रत्येक पिक्सेल के लिए हम गंतव्य (2 डी पीडीएफ) सरणी में एक असतत बिन का पता लगाने के लिए (एफएक्स, एफवाई) का उपयोग करते हैं जो तब एक द्वारा बढ़ाई जाती है। हम सभी NxN पिक्सेल के लिए दोहराते हैं। परिणामी 2D पीडीएफ को समग्र इकाई संभावना होने के लिए सामान्यीकृत किया जाना चाहिए (बस NxN द्वारा इसे विभाजित किया जाता है)। 2 डी पीडीएफ अब अगले चरण के लिए तैयार है।
2 डी शैनन सूचना की गणना 2 डी ढाल पीडीएफ से एन्ट्रापी सरल है। शैनन का क्लासिक लॉगरिदमिक योग सूत्र एक आधे के एक महत्वपूर्ण कारक को छोड़कर सीधे लागू होता है, जो एक ढाल छवि के लिए विशेष बैंडलाइड नमूनाकरण विचारों से उत्पन्न होता है (विवरण के लिए arXiv पेपर देखें)। आधा कारक 2 डी एन्ट्रापी या दोषरहित संपीड़न का आकलन करने के लिए अन्य (अधिक निरर्थक) तरीकों की तुलना में गणना की गई 2 डी एन्ट्रापी को और भी कम कर देता है।
मुझे खेद है कि मैंने यहां आवश्यक समीकरण नहीं लिखे हैं, लेकिन सब कुछ प्रीप्रिंट टेक्स्ट में उपलब्ध है। अभिकलन प्रत्यक्ष (गैर-पुनरावृत्त) हैं और कम्प्यूटेशनल जटिलता क्रम (पिक्सेल की संख्या) NxN है। अंतिम गणना की गई शैनन सूचना-एन्ट्रापी स्वतंत्र रूप से घूमती है और एक गैर-निरर्थक ढाल प्रतिनिधित्व में छवि को एन्कोड करने के लिए आवश्यक बिट्स की संख्या के साथ सटीक रूप से मेल खाती है।
वैसे, नया 2 डी एन्ट्रापी माप मूल छवि में चिकनी ढाल छवि के लिए यादृच्छिक छवि के लिए पिक्सेल प्रति 8 बिट्स (और सहज रूप से मनभावन) की भविष्यवाणी करता है।