एक छवि का प्रवेश


21

एक छवि की एन्ट्रापी की गणना करने के लिए सबसे अधिक जानकारी / भौतिकी-सैद्धांतिक सही तरीका क्या है? मैं अभी कम्प्यूटेशनल दक्षता के बारे में परवाह नहीं करता - मैं इसे सैद्धांतिक रूप से यथासंभव सही चाहता हूं।

चलो एक ग्रे-स्केल छवि के साथ शुरू करते हैं। एक सहज दृष्टिकोण छवि को पिक्सेल के एक बैग के रूप में मानना ​​है और गणना करना है जहां ग्रे स्तर की संख्या है और ग्रे स्तर जुड़ी संभावना है ।कश्मीर पी कश्मीर कश्मीर

H=kpklog2(pk)
Kpkk

इस परिभाषा के साथ दो समस्याएं हैं:

  1. यह एक बैंड (यानी ग्रे-स्केल) के लिए काम करता है, लेकिन किसी को कई बैंड के लिए सांख्यिकीय रूप से सही तरीके से कैसे बढ़ाया जाना चाहिए? उदाहरण के लिए, 2 बैंड के लिए, एक आधार पर होना चाहिए और इस तरह का उपयोग करके PMF पर ? यदि किसी के कई ( >> 2) बैंड हैं तो , जो गलत लगता है।(X1,X2)P(X1=x1,X2=x2)BP(X1=x1,...,XB=xB)1/NBHMAX
  2. स्थानिक जानकारी को ध्यान में नहीं रखा जाता है। उदाहरण के लिए, नीचे दी गई छवियां ( जॉन लूमिस की हिरासत ) में एक ही , हालांकि स्पष्ट रूप से वे समान जानकारी को व्यक्त नहीं करते हैं।H

यहां छवि विवरण दर्ज करेंयहां छवि विवरण दर्ज करें

किसी को भी समझाने या सलाह देने के लिए परवाह है, या मुझे विषय के बारे में कुछ सभ्य संदर्भ सामग्री का संदर्भ दें? मुझे मुख्य रूप से दूसरी समस्या के सैद्धांतिक रूप से सही दृष्टिकोण (यानी स्थानिक जानकारी) में दिलचस्पी है।


2
मुझे लगता है कि आपको मार्कोव यादृच्छिक क्षेत्रों को देखना चाहिए जैसे files.is.tue.mpg.de/chwang/papers/CVIU2013_MRFSurvey.pdf
seanv507

1
ग्रेवेल कॉवोकुरेंस मैट्रेस
seanv507

@ seanv507, हाँ वास्तव में। अप्रत्यक्ष चित्रमय मॉडल या मार्कोव यादृच्छिक क्षेत्र जो मैं अभी पढ़ रहा हूं। अधिक जानकारी होने पर वापस भेज दूंगा।
Davor

जवाबों:


17

"एक छवि के एन्ट्रापी की गणना करने के लिए सबसे अधिक जानकारी / भौतिकी-सैद्धांतिक सही तरीका क्या है?"

एक उत्कृष्ट और सामयिक प्रश्न।

आम धारणा के विपरीत, एक छवि के लिए सहज ज्ञान युक्त (और सैद्धांतिक रूप से) प्राकृतिक सूचना-एन्ट्रापी को परिभाषित करना संभव है।

निम्नलिखित आकृति पर विचार करें:

यहां छवि विवरण दर्ज करें

हम देख सकते हैं कि अंतर छवि में अधिक कॉम्पैक्ट हिस्टोग्राम है, इसलिए इसकी शैनन सूचना-एन्ट्रॉपी कम है। इसलिए हम शैनन एन्ट्रापी (यानी अंतर डेटा से प्राप्त एन्ट्रोपी) का उपयोग करके दूसरे क्रम में कम अतिरेक प्राप्त कर सकते हैं। यदि हम इस विचार को isotropically 2D में विस्तारित कर सकते हैं, तो हम छवि सूचना-एन्ट्रॉपी के लिए अच्छे अनुमान की उम्मीद कर सकते हैं।

ग्रेडिएंट्स का एक दो आयामी हिस्टोग्राम 2 डी विस्तार की अनुमति देता है।

हम तर्कों को औपचारिक रूप दे सकते हैं और वास्तव में, यह हाल ही में पूरा हुआ है। संक्षिप्त रूप से पुन: सबमिट करना:

अवलोकन कि साधारण परिभाषा (उदाहरण के लिए MATLAB की छवि एन्ट्रापी की परिभाषा) को देखते हुए स्थानिक संरचना महत्वपूर्ण है। यह समझने के लिए कि इस पर क्या चल रहा है, 1D मामले को संक्षेप में वापस करने के लायक है। यह लंबे समय से ज्ञात है कि इसकी शैनन जानकारी / एन्ट्रापी की गणना करने के लिए एक संकेत के हिस्टोग्राम का उपयोग लौकिक या स्थानिक संरचना को अनदेखा करता है और संकेत की अंतर्निहित संपीड़ितता या अतिरेक का एक खराब अनुमान देता है। शान्नोन के क्लासिक पाठ में समाधान पहले से ही उपलब्ध था; संकेत के दूसरे क्रम गुणों का उपयोग करें, अर्थात् संक्रमण संभावनाएं। 1971 में अवलोकन (चावल और Plaunt) कि एक रेखापुंज स्कैन में पिक्सेल मूल्य का सबसे अच्छा भविष्यवक्ता पूर्ववर्ती पिक्सेल का मूल्य होता है तुरंत एक अंतर भविष्यवक्ता और दूसरा क्रम शैनन एंट्रॉपी की ओर जाता है जो सरल संपीड़न विचारों जैसे कि रन लंबाई एन्कोडिंग के साथ संरेखित करता है। इन विचारों को 80 के दशक के अंत में परिष्कृत किया गया था जिसके परिणामस्वरूप कुछ क्लासिक दोषरहित छवि (अंतर) कोडिंग तकनीकें जो अभी भी उपयोग में हैं (PNG, दोषरहित JPG, GIF, दोषरहित JPG2000) जबकि तरंगिकाएं और DCT केवल हानिपूर्ण एन्कोडिंग के लिए उपयोग की जाती हैं।

अब 2 डी पर जा रहा है; शोधकर्ताओं ने एक अभिविन्यास निर्भरता को पेश किए बिना शैनन के विचारों को उच्च आयामों तक विस्तारित करना बहुत कठिन पाया। सहज रूप से हम उम्मीद कर सकते हैं कि शैनन सूचना-एन्ट्रापी किसी छवि के अपने अभिविन्यास से स्वतंत्र हो। हम जटिल स्थानिक संरचना के साथ छवियों की भी उम्मीद करते हैं (जैसे प्रश्नकर्ता का यादृच्छिक शोर उदाहरण) सरल स्थानिक संरचना (प्रश्नकर्ता के चिकनी ग्रे-स्केल उदाहरण की तरह) के साथ छवियों की तुलना में अधिक जानकारी-एनट्रॉपी है। यह पता चलता है कि कारण यह था कि शैनन के विचारों को 1 डी से 2 डी तक फैलाना इतना कठिन है कि शैनन के मूल सूत्रीकरण में एक (एक तरफा) विषमता है जो 2 डी में एक सममित (आइसोट्रोपिक) सूत्रीकरण को रोकता है। एक बार 1D विषमता को ठीक करने के बाद 2 डी विस्तार आसानी और स्वाभाविक रूप से आगे बढ़ सकता है।

पीछा करने के लिए काटना (इच्छुक पाठक https://xxiv.org/abs/1609.01117 पर arXiv प्रीप्रिंट में विस्तृत विवरण देख सकते हैं ) जहां छवि एन्ट्रापी 2 डी हिस्टोग्राम ऑफ ग्रेडिएंट्स (क्रमिक संभाव्यता घनत्व फ़ंक्शन) से गणना की जाती है।

पहले 2 डी पीडीएफ की गणना इमेजेज एक्स और वाई डेरिवेटिव के अनुमानों की गणना करके की जाती है। यह 1 डी में अधिक सामान्य तीव्रता हिस्टोग्राम उत्पन्न करने के लिए उपयोग किए जाने वाले बिनिंग ऑपरेशन से मिलता जुलता है। व्युत्पन्न का अनुमान क्षैतिज और ऊर्ध्वाधर दिशाओं में गणना किए गए 2-पिक्सेल परिमित अंतर से लगाया जा सकता है। एक NxN वर्ग छवि f (x, y) के लिए हम आंशिक व्युत्पन्न fx के NxN मान और fy के NxN मान की गणना करते हैं। हम अंतर छवि के माध्यम से स्कैन करते हैं और प्रत्येक पिक्सेल के लिए हम गंतव्य (2 डी पीडीएफ) सरणी में एक असतत बिन का पता लगाने के लिए (एफएक्स, एफवाई) का उपयोग करते हैं जो तब एक द्वारा बढ़ाई जाती है। हम सभी NxN पिक्सेल के लिए दोहराते हैं। परिणामी 2D पीडीएफ को समग्र इकाई संभावना होने के लिए सामान्यीकृत किया जाना चाहिए (बस NxN द्वारा इसे विभाजित किया जाता है)। 2 डी पीडीएफ अब अगले चरण के लिए तैयार है।

2 डी शैनन सूचना की गणना 2 डी ढाल पीडीएफ से एन्ट्रापी सरल है। शैनन का क्लासिक लॉगरिदमिक योग सूत्र एक आधे के एक महत्वपूर्ण कारक को छोड़कर सीधे लागू होता है, जो एक ढाल छवि के लिए विशेष बैंडलाइड नमूनाकरण विचारों से उत्पन्न होता है (विवरण के लिए arXiv पेपर देखें)। आधा कारक 2 डी एन्ट्रापी या दोषरहित संपीड़न का आकलन करने के लिए अन्य (अधिक निरर्थक) तरीकों की तुलना में गणना की गई 2 डी एन्ट्रापी को और भी कम कर देता है।

मुझे खेद है कि मैंने यहां आवश्यक समीकरण नहीं लिखे हैं, लेकिन सब कुछ प्रीप्रिंट टेक्स्ट में उपलब्ध है। अभिकलन प्रत्यक्ष (गैर-पुनरावृत्त) हैं और कम्प्यूटेशनल जटिलता क्रम (पिक्सेल की संख्या) NxN है। अंतिम गणना की गई शैनन सूचना-एन्ट्रापी स्वतंत्र रूप से घूमती है और एक गैर-निरर्थक ढाल प्रतिनिधित्व में छवि को एन्कोड करने के लिए आवश्यक बिट्स की संख्या के साथ सटीक रूप से मेल खाती है।

वैसे, नया 2 डी एन्ट्रापी माप मूल छवि में चिकनी ढाल छवि के लिए यादृच्छिक छवि के लिए पिक्सेल प्रति 8 बिट्स (और सहज रूप से मनभावन) की भविष्यवाणी करता है।


1
रोचक काम। अब, राजलीघी ने इस पत्र में कई एन्ट्रापी एल्गोरिदम की तुलना की है । मुझे आश्चर्य है कि आपकी तुलना कैसे होगी, खासकर सिंथेटिक छवि पर जो वह वहां उपयोग करती है। जांच के लायक हो सकता है।
जोसफोविक का

राजलगी के कागज का उल्लेख करने के लिए धन्यवाद। महत्वपूर्ण परीक्षा परिणाम अंजीर में दिखाए गए हैं। मेरा मानना ​​है कि मेरे 2 डी डेल्ट्रॉपी माप में सहसंबंध 0.0 के लिए इकाई सामान्यीकृत एन्ट्रापी होगी और फिर सहसंबंध 1.0 के लिए शून्य सामान्यीकृत एन्ट्रापी के पास गिर जाएगी। मैंने वास्तव में इन मूल्यों की गणना नहीं की है, लेकिन यह सीधे मेरे arXiv छाप के खंड 3.2 से चलता है क्योंकि उच्च सहसंबंध कम वर्णक्रमीय बैंडविड्थ से मेल खाता है, इसलिए कम एन्ट्रापी।
कीरन लार्किन

मुझे यह तरीका पसंद है। यह मेरे लिए सहज लगता है। एन्ट्रापी की गणना करने से पहले ग्रेडिएंट की गणना करने का अतिरिक्त चरण स्थानिक सूचना को सहज रूप से सांकेतिक शब्दों में बदलना लगता है। मैंने इधर-उधर खेलने की कोशिश की और यहाँ पाइथन के साथ गणना की । लेकिन मैंने आपके पेपर से कास्टिक्स को पुन: पेश करने के लिए संघर्ष किया (देखें कोड, अंतिम उदाहरण)। मैं केवल उन्हें फ़्लोट्स के साथ पुन: पेश कर सकता हूं! ऐसा इसलिए है क्योंकि पूर्णांक के साथ ग्रेडिएंट मेरी परीक्षण छवि के लिए [-6,6] में हैं, यहां तक ​​कि जब 16 बिट्स का उपयोग करते हैं, जिसके परिणामस्वरूप हिस्टोग्राम के लिए केवल 49 गैर-शून्य डिब्बे होते हैं।
mxmlnkn

क्या आपका पेपर कभी प्रकाशित हुआ? क्या आपने या किसी और ने काम जारी रखा?
आंद्रेई

एक Matlab नमूना कोड बहुत अच्छा होगा।
पेड्रो77

8

कोई नहीं है, यह सब संदर्भ और आपकी पूर्व सूचना पर निर्भर करता है। एन्ट्रॉपी की कई व्याख्याएं हैं जैसे "ऑर्डर का माप" या "सूचना का माप", लेकिन व्याख्याओं को देखने के बजाय आप सिर्फ यह देख सकते हैं कि यह वास्तव में क्या है। एन्ट्रॉपी एक प्रणाली के राज्यों की संख्या को व्यक्त करने का एक तरीका है। कई राज्यों के साथ एक प्रणाली में एक उच्च एन्ट्रापी है, और कुछ राज्यों के साथ एक प्रणाली में कम एन्ट्रॉपी है।

आप और आपके द्वारा लिंक किए गए लेख में कहा गया है कि दो छवियों में एक ही एंट्रोपी है। यह सही नहीं है (मेरे लिए)।

लेख सही ढंग से एन्ट्रापी की गणना करता है।

एच=-Σपीएलजी2(पी)

पी=1=2-n

इसलिए एन्ट्रापी है:

एच=-Σपीएलजी2(पी)=-Σ2-nएलजी2(2-n)=-एलजी2(2-n)=n

हालांकि, यह दूसरी छवि के लिए मामला नहीं है।

एन्ट्रापी की गणना अभी भी की जा सकती है:

एच=-Σपीएलजी2(पी)

पी=1=2-nपी1पी2,पी3,पी4...पीny

इसलिए, दो छवियों में एक ही एंट्रोपी नहीं है।

यह लग सकता है काउंटर सहज ज्ञान युक्त कि एन्ट्रापी इस बात पर निर्भर करती है कि आप समस्या को कैसे देखते हैं। हालाँकि, आप शायद इसे संपीड़न से जानते हैं। किसी फ़ाइल का अधिकतम संपीड़न शैनन के स्रोत कोडिंग प्रमेय द्वारा निर्धारित किया जाता है जो एक संपीड़न एल्गोरिथ्म को एक फ़ाइल को संपीड़ित करने के लिए एक ऊपरी सीमा निर्धारित कर सकता है। यह सीमा फ़ाइल के एन्ट्रापी पर निर्भर करती है। सभी आधुनिक कम्प्रेसर इस सीमा के करीब एक फ़ाइल को संपीड़ित करेंगे।

हालाँकि, यदि आप जानते हैं कि फ़ाइल एक ऑडियो फ़ाइल है, तो आप इसे कुछ सामान्य कंप्रेसर के बजाय FLAC का उपयोग करके संपीड़ित कर सकते हैं । FLAC दोषरहित है इसलिए सभी जानकारी संरक्षित है। एफएलएसी शैनन के स्रोत कोडिंग प्रमेय के आसपास नहीं मिल सकता है, यह गणित है, लेकिन यह फ़ाइल को इस तरह से देख सकता है जो फ़ाइल की एन्ट्रापी को कम करता है, इस प्रकार एक बेहतर संपीड़न करता है।

पहचान के तौर पर, जब मैं आपको दूसरी छवि देखता हूं तो मैं देखता हूं कि पिक्सल ग्रे वैल्यू द्वारा सॉर्ट किए जाते हैं, और इसलिए यह मेरे लिए उतनी ही एन्ट्रापी नहीं है जितनी कि रैंडम नॉइज़ वाली इमेज।


मुझे लगता है कि ओपी को पता है कि क्या यह है - वह संभावित मॉडल के लिए पूछ रहा है जिसमें स्थानिक जानकारी शामिल है
seanv507

@ seanv507 मैंने प्रश्न को फिर से पढ़ा। अगर मैं आपसे सहमत हूं या नहीं तो मैं अनिश्चित हूं। मेरा मानना ​​है कि ओपी एक ऐसी चीज की तलाश में है जो मौजूद नहीं है।
बॉटलर

एच

@bottiger FLAC एक ऑडियो फ़ाइल के एन्ट्रापी को कम नहीं कर सकता है, क्योंकि यह हानिपूर्ण संपीड़न होगा, यह अतिरेक को समाप्त करके संपीड़न को प्राप्त करता है।
पॉल उस्ज़ाक

शायद यह कहना सही है कि क्लासिक एन्ट्रापी सूत्र केवल तभी सही है जब पिक्सेल मान स्थिर रूप से स्वतंत्र हों?
volperossa

2

मूल रूप से एन्ट्रॉपी का विचार कुछ ऐसा है "मैक्रोस्टेट के अनुरूप सूक्ष्म राज्यों की संख्या"।

पी[मैं,]मैंपी[|मैं]

मैं


1

एच=-Σपीएलजी2(पी)

अभ्यास में काम नहीं करता है , साधारण कारण के लिए कि पीके को निर्धारित करना लगभग असंभव है। आपको लगता है कि आप इसे कर सकते हैं, जैसा कि आपने ग्रे स्तरों की संख्या पर विचार करके किया है। पीके वह नहीं है। पीके ग्रे स्तरों के सभी संभव संयोजन हैं। तो आपको 1, 2, 3 ... पिक्सल के संयोजन पर विचार करते हुए एक बहुआयामी संभावना वाला पेड़ बनाना होगा। यदि आप शैनन के काम को पढ़ते हैं, तो आप उसे 3 अक्षरों के पेड़ की गहराई को देखते हुए सादे अंग्रेजी के लिए यह गणना करते हैं। यह तब बिना कंप्यूटर के बेकार हो जाता है।

आपने अपने आप को बयान 2 के साथ साबित किया है। इसीलिए आपकी एन्ट्रापी गणना दो छवियों के लिए एन्ट्रापी के समान स्तर को लौटाती है, भले ही स्पष्ट रूप से एक दूसरे की तुलना में कम आदेश दिया गया हो।

एन्ट्रापी गणना के भीतर स्थानिक वितरण की ऐसी कोई अवधारणा नहीं है। अगर वहाँ था, तो आपको अस्थायी रूप से वितरित नमूनों के लिए एन्ट्रोपी की गणना अलग से करनी होगी। और 11 आयामी डेटा सरणी के लिए आप क्या करेंगे? सूचनात्मक एन्ट्रॉपी के लिए; इसे बाइट्स में मापा जाता है।

बस एक संपीड़न एल्गोरिथ्म का उपयोग करके छवियों को संपीड़ित करें। यह बाइट्स में एन्ट्रापी के एक अनुमान को आउटपुट करेगा। यह किसी भी छवि के लिए या शाब्दिक रूप से डिजिटल या शेक्सपियरन नाटकों जैसे डिजीटल किए जा सकने वाले किसी भी चीज़ के लिए ऐसा करेगा।

इसलिए। आपकी यादृच्छिक छवि में लगभग 114 KBytes हैं, और आपकी आदेशित छवि में लगभग 2.2 KBytes हैं। यह वही है जो आप उम्मीद करेंगे, लेकिन आप पहले से ही इस तरह से जानते थे क्योंकि आपने देखा कि छवि फ़ाइल आकार इस आकार के थे। मैंने संपीड़न एल्गोरिदम में भविष्य में सुधार की अनुमति देने के लिए संकुचित आकार को 33% तक कम कर दिया है। मैं उन्हें इससे आगे नहीं देख सकता क्योंकि सुधार वक्र एक वास्तविक अंतर्निहित मूल्य के लिए विषम हो रहा है।

पीएस रुचि के लिए, शेक्सपियर ने केवल अपने पूरे जीवन के काम में एन्ट्रोपी की 1 एमबीटी का उत्पादन किया, इस तकनीक द्वारा गणना की गई। हालांकि यह ज्यादातर काफी अच्छा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.