2d बाइनरी मैट्रिक्स की एन्ट्रापी / सूचना / पैटर्न को मापना

53

मैं द्वि-आयामी बाइनरी मैट्रिक्स की एन्ट्रापी / सूचना घनत्व / पैटर्न-समानता को मापना चाहता हूं। मुझे स्पष्टीकरण के लिए कुछ तस्वीरें दिखाइए:

इस प्रदर्शन में एक उच्च एंट्रॉपी होनी चाहिए:

ए)

यहाँ छवि विवरण दर्ज करें

इसमें मध्यम एन्ट्रापी होनी चाहिए:

बी)

यहाँ छवि विवरण दर्ज करें

ये चित्र, अंत में, सभी के पास शून्य-एन्ट्रापी होने चाहिए:

सी)

यहाँ छवि विवरण दर्ज करें

डी)

यहाँ छवि विवरण दर्ज करें

इ)

यहाँ छवि विवरण दर्ज करें

क्या कोई सूचकांक है जो एन्ट्रापी, सम्मान को पकड़ता है। इन डिस्प्ले की "पैटर्न-समानता"?

बेशक, प्रत्येक एल्गोरिथ्म (जैसे, संपीड़न एल्गोरिदम, या ttnphns द्वारा प्रस्तावित रोटेशन एल्गोरिदम ) प्रदर्शन की अन्य विशेषताओं के प्रति संवेदनशील है। मैं एक एल्गोरिथ्म की तलाश में हूं जो निम्नलिखित गुणों को पकड़ने की कोशिश करता है:

घूर्णी और अक्षीय समरूपता
क्लस्टरिंग की मात्रा
repetitions

शायद अधिक जटिल, एल्गोरिथ्म मनोवैज्ञानिक " गेस्टाल्ट सिद्धांत " के गुणों के प्रति संवेदनशील हो सकता है , विशेष रूप से:

निकटता का नियम:
समरूपता का नियम: सममित छवियों को सामूहिक रूप से माना जाता है, दूरी के बावजूद:

इन गुणों वाले प्रदर्शनों को "कम एन्ट्रापी मूल्य" सौंपा जाना चाहिए; बल्कि यादृच्छिक / असंरचित बिंदुओं के साथ प्रदर्शन को "उच्च एन्ट्रापी मूल्य" सौंपा जाना चाहिए।

मुझे पता है कि सबसे अधिक शायद ही कोई एल्गोरिथ्म इन सभी विशेषताओं पर कब्जा नहीं करेगा; इसलिए एल्गोरिदम के सुझाव जो केवल कुछ या केवल एक ही सुविधा को संबोधित करते हैं और साथ ही अत्यधिक स्वागत करते हैं।

विशेष रूप से, मैं ठोस, मौजूदा एल्गोरिदम या विशिष्ट, कार्यान्वयन योग्य विचारों के लिए देख रहा हूं (और मैं इन मानदंडों के अनुसार इनाम प्रदान करूंगा)।

— फेलिक्स एस
स्रोत

अच्छा सवाल! क्या मैं पूछ सकता हूं कि किसी एक उपाय की क्या जरूरत है? उनके चेहरे पर आपके तीन गुण (समरूपता, क्लस्टरिंग और दोहराव) अलग-अलग उपायों को वारंट करने के लिए पर्याप्त स्वतंत्र लगते हैं।

— एंडी डब्ल्यू

अब तक मैं कुछ हद तक स्पष्ट हूं कि आप एक सार्वभौमिक अहंकार पा सकते हैं जो कि गर्भपात सिद्धांत को लागू करता है। उत्तरार्द्ध पहले से मौजूद प्रोटोटाइप की मान्यता पर प्रमुख रूप से आधारित है। आपके दिमाग में ये हो सकता है, लेकिन आपका कंप्यूटर नहीं हो सकता है।

— ttnphns

मैं आप दोनों से सहमत हूं। वास्तव में मैं एक एल्गोरिथ्म की तलाश नहीं कर रहा था - हालांकि मेरे पिछले शब्दांकन ने वास्तव में यह सुझाव दिया था। मैंने एकल गुणों के लिए एल्गोरिदम को स्पष्ट रूप से अनुमति देने के लिए सवाल अपडेट किया। हो सकता है कि किसी के पास कई अल्गो के आउटपुट को संयोजित करने के तरीके के बारे में भी विचार हो (उदाहरण के लिए, "हमेशा एल्गो के सेट का सबसे कम एन्ट्रापी मूल्य लेते हैं")

— फेलिक्स एस

1

बाउंटी खत्म हो गई । सभी योगदानकर्ताओं और उत्कृष्ट विचारों के लिए धन्यवाद! इस इनाम ने दिलचस्प दृष्टिकोणों का एक समूह उत्पन्न किया। कई उत्तरों में मस्तिष्क का बहुत काम होता है, और कभी-कभी यह अफ़सोस की बात है कि बाउंस को विभाजित नहीं किया जा सकता है। अंत में, मैंने @whuber को इनाम देने का फैसला किया, क्योंकि उसका समाधान एल्गोरिथ्म था जो मुझे लगता है कि इसे कैप्चर करने वाली सुविधाओं के बारे में सबसे व्यापक लग रहा था, और जैसा कि इसे लागू करना आसान है। मैं यह भी सराहना करता हूं कि यह मेरे ठोस उदाहरणों पर लागू किया गया था। सबसे प्रभावशाली मेरी "सहज रैंकिंग" के सटीक क्रम में संख्याओं को निर्दिष्ट करने की क्षमता थी। धन्यवाद, एफ

— फेलिक्स एस

35

एक सरल प्रक्रिया है जो मनोवैज्ञानिक और ज्यामितीय तत्वों सहित सभी अंतर्ज्ञान को पकड़ती है । यह स्थानिक निकटता का उपयोग करने पर निर्भर करता है , जो हमारी धारणा का आधार है और जो समरूपता द्वारा केवल अपूर्ण रूप से मापा जाता है, उस पर कब्जा करने के लिए एक आंतरिक तरीका प्रदान करता है।

$m$ $n$ $k=2$ $2$ $3$ $3$ $\min(n,m)$ $\min(n,m)$

यह देखने के लिए कि यह कैसे काम करता है, आइए प्रश्न में सरणियों के लिए गणना करें, जिसे मैं माध्यम से ऊपर से नीचे तक । यहाँ ( मूल सरणी है, निश्चित रूप से) लिए । $a_1$ $a_5$ $k=1,2,3,4$ $k=1$ $a_1$

आकृति 1

ऊपरी बाएँ से दक्षिणावर्त, , , और बराबर होता है । सरणियाँ से , फिर से , से , और से क्रमशः हैं। वे सभी "यादृच्छिक" की तरह दिखते हैं। आइए इस यादृच्छिकता को उनके आधार -2 एन्ट्रापी से मापते हैं। के लिए , इन entropies के अनुक्रम है । आइए इसे का "प्रोफ़ाइल" । $k$ $1$ $2$ $4$ $3$ $5$ $5$ $4$ $4$ $2$ $2$ $3$ $3$ $a_1$ $(0.97, 0.99, 0.92, 1.5)$ $a_1$

यहाँ, इसके विपरीत, के चलते हुए योग हैं : $a_4$

चित्र 2

के लिए वहाँ थोड़ी भिन्नता, कम एन्ट्रापी जिस कारण से है। प्रोफ़ाइल । इसका मान के मान से लगातार कम है , सहज ज्ञान की पुष्टि करता है कि में मौजूद एक मजबूत "पैटर्न" है । $k=2, 3, 4$ $(1.00, 0, 0.99, 0)$ $a_1$ $a_4$

हमें इन प्रोफाइलों की व्याख्या के लिए संदर्भ के एक फ्रेम की आवश्यकता है। बाइनरी मानों की एक पूरी तरह से यादृच्छिक सरणी में एन्ट्रापी के लिए इसके आधे मान के बराबर लगभग और दूसरे आधे के बराबर । भीतर चलती रकम से पड़ोस उन्हें उम्मीद के मुताबिक entropies दे रही है (कम से कम बड़े सरणियों के लिए) है कि इसका अनुमान लगाया जा सकता है, द्विपद वितरण हो जाते हैं जाएगा : $0$ $1$ $1$ $k$ $k$ $1 + \log_2(k)$

एन्ट्रापी साजिश

ये परिणाम तक सरणियों के साथ सिमुलेशन द्वारा वहन किए जाते हैं । हालांकि, वे छोटे सरणियों (जैसे के लिए टूट से पड़ोसी खिड़कियों के बीच सह-संबंध की वजह से सरणियों यहाँ) और डेटा की एक छोटी राशि के कारण (एक बार विंडो का आकार सरणी के बारे में आधे आयाम है)। यहाँ कुछ वास्तविक प्रोफाइल के भूखंडों के साथ सिमुलेशन द्वारा उत्पन्न यादृच्छिक से सरणियों का एक संदर्भ प्रोफ़ाइल है : $m=n=100$ $5$ $5$ $5$ $5$

प्रोफ़ाइल भूखंड

इस कथानक में संदर्भ प्रोफ़ाइल ठोस नीला है। सरणी प्रोफाइल : red, : स्वर्ण, : हरे, : हल्के नीले रंग के । ( को शामिल करने से चित्र अस्पष्ट हो जाएगा क्योंकि यह के प्रोफ़ाइल के ।) कुल मिलाकर प्रोफ़ाइल प्रश्न में आदेश देने के अनुरूप हैं: स्पष्ट आदेश बढ़ने के साथ ही वे अधिकांश मानों में कम हो जाते हैं । अपवाद : अंत तक, , इसकी चलती रकम सबसे कम एन्ट्रोपियों में होती है। इससे एक आश्चर्यजनक नियमितता का पता चलता है: हर बाय पड़ोस $a_1$ $a_2$ $a_3$ $a_4$ $a_5$ $a_4$ $k$ $a_1$ $k=4$ $2$ $2$ $a_1$ में ठीक या काले वर्ग हैं, कभी भी अधिक या कम नहीं। यह बहुत कम "यादृच्छिक" है जो एक से अधिक हो सकता है। (यह आंशिक रूप से जानकारी के नुकसान के कारण होता है जो प्रत्येक पड़ोस में मूल्यों को समेटने के साथ होता है, एक प्रक्रिया जो संभव पड़ोस विन्यास सिर्फ विभिन्न संभावित योगों में होती है। यदि हम विशेष रूप से ध्यान देना चाहते हैं। क्लस्टरिंग और अभिविन्यास प्रत्येक पड़ोस में के लिए, तो बजाय चलती रकम का उपयोग कर के हम concatenations चलती का प्रयोग करेंगे। यही है, प्रत्येक से पड़ोस है $1$ $2$ $2^{k^2}$ $k^2+1$ $k$ $k$ $2^{k^2}$ संभव विभिन्न विन्यास; उन सभी को अलग करके, हम एन्ट्रापी की एक महीन माप प्राप्त कर सकते हैं। मुझे संदेह है कि इस तरह के एक उपाय अन्य छवियों की तुलना में के प्रोफ़ाइल को ।) $a_1$

चलती पड़ोस के भीतर संक्षेप में (या कंक्रीटिंग या अन्यथा संयोजन) मूल्यों द्वारा तराजू की एक नियंत्रित सीमा में एंट्रोपियों की एक प्रोफ़ाइल बनाने की इस तकनीक का उपयोग छवियों के विश्लेषण में किया गया है। यह पहले अक्षरों की एक श्रृंखला के रूप में पाठ का विश्लेषण करने के प्रसिद्ध विचार का एक दो-आयामी सामान्यीकरण है, फिर डिग्राफ की एक श्रृंखला (दो-अक्षर अनुक्रम) के रूप में, फिर ट्रिग्राफ आदि के रूप में, यह भग्न के लिए कुछ स्पष्ट संबंध भी हैं। विश्लेषण (जो महीन और बारीक तराजू में छवि के गुणों की पड़ताल करता है)। अगर हम ब्लॉक मूविंग सम या ब्लॉक कॉन्कैटिनेशन का उपयोग करने के लिए कुछ ध्यान रखते हैं (इसलिए खिड़कियों के बीच कोई ओवरलैप्स नहीं हैं), तो एक व्यक्ति को सरल गणितीय संबंधों के बीच में प्रवेश कर सकता है; हालाँकि,

विभिन्न एक्सटेंशन संभव हैं। उदाहरण के लिए, एक घूर्णी रूप से अपरिवर्तनीय प्रोफ़ाइल के लिए, वर्ग वाले के बजाय परिपत्र पड़ोस का उपयोग करें। बाइनरी सरणियों से परे सब कुछ सामान्य करता है, ज़ाहिर है। पर्याप्त रूप से बड़ी सरणियों के साथ एक व्यक्ति गैर-स्थिरता का पता लगाने के लिए स्थानीय रूप से भिन्न एंट्रोपी प्रोफाइल की गणना कर सकता है।

यदि एक एकल नंबर वांछित है, तो एक संपूर्ण प्रोफ़ाइल के बजाय, उस पैमाने को चुनें, जिस पर स्थानिक यादृच्छिकता (या इसके अभाव) ब्याज की है। इन उदाहरणों में, यह पैमाना से या से बढ़ते हुए पड़ोस के लिए सबसे अच्छा होता है, क्योंकि उनके पैटर्निंग के लिए वे सभी उन समूहों पर भरोसा करते हैं जो तीन से पांच सेल (और से पड़ोस) सिर्फ सभी भिन्नताओं को दूर करते हैं। सरणी और इतना बेकार है)। बाद के पैमाने पर, के लिए entropies के माध्यम से हैं , , , , और $3$ $3$ $4$ $4$ $5$ $5$ $a_1$ $a_5$ $1.50$ $0.81$ $0$ $0$ $0$ ; इस पैमाने पर अपेक्षित एन्ट्रापी (समान रूप से यादृच्छिक सरणी के लिए) । यह इस अर्थ को सही ठहराता है कि "बल्कि उच्च एंट्रॉपी होना चाहिए।" , और को अलग करने के लिए , जो इस पैमाने पर एन्ट्रापी के साथ बंधे होते हैं , अगले महीन रिज़ॉल्यूशन ( बाय पड़ोस) को देखें: उनकी एंट्री क्रमशः , , , (जबकि एक यादृच्छिक ग्रिड अपेक्षित है) मान है )। इन उपायों से, मूल प्रश्न सरणियों को बिल्कुल सही क्रम में रखता है। $1.34$ $a_1$ $a_3$ $a_4$ $a_5$ $0$ $3$ $3$ $1.39$ $0.99$ $0.92$ $1.77$

— व्हीबर
स्रोत

मुझे क्षमा करें, मैं समझ नहीं पाया कि आपने अपने चलते हुए भूखंडों का उत्पादन कैसे किया। कृपया, विस्तार से बताएं कि मूविंग योग की गणना कैसे करें।

— ttnphns

1

@ttnphns यहाँ विषय पर एक लोकप्रिय सचित्र सहायता पृष्ठ है।

— whuber

4

मैंने पायथन में NumPy और matplotlib का उपयोग करते हुए @whuber द्वारा इस उत्कृष्ट उत्तर के परिणामों को पुन: प्रस्तुत किया, यहाँ उपलब्ध है: github.com/cosmoharrigan/matrix-entropy

— कॉस्मो हरिगान

(+1) यहाँ एक बहुत ही सामान्य सिद्धांत है: किसी भी साथ मल्टीसेट , वहाँ multiplicities द्वारा निर्धारित प्रायिकता वितरण का स्वाभाविक रूप से जुड़े एन्ट्रापी अपनी विशिष्ट तत्वों की , अर्थात् , जहाँ , के अलग-अलग तत्वों का समूह है । उदाहरण विभिन्न आयामों की वस्तुओं में विभिन्न आकृतियों के आकार- पड़ोस द्वारा गठित मल्टीसेट्स हैं । (मैं तो बस पोस्ट length- करने के लिए एक 1 डी आवेदन सबस्ट्रिंग ।)

M

$M$

μ (e)

$\mu(e)$

e

$e$

p (e) := \frac{μ (e)}{\sum_{e \in S} μ (e)} (e \in S)

$p(e) := \frac{\mu(e)}{\sum_{e\in S}\mu(e)}\ \ (e\in S)$

S

$S$

M

$M$

k

$k$

k

$k$

— रेस

@ शुभ उत्तर शानदार। हालांकि यह सहज ज्ञान युक्त है, क्या कोई लेख या पाठ्यपुस्तक है जो इस की मूल व्युत्पत्ति का हवाला दे सकती है (मैं यह मान रहा हूं कि यदि यह आपका मूल काम है तो आपने इसे औपचारिक रूप से एक पत्रिका में प्रकाशित किया है)?

— सुभकॉम

10

सबसे पहले, मेरा सुझाव पूरी तरह से सहज ज्ञान युक्त है: मुझे पैटर्न मान्यता क्षेत्र में कुछ भी नहीं पता है। दूसरा, मेरे जैसे वैकल्पिक दर्जनों सुझाव दिए जा सकते हैं।

मैं इस विचार के साथ शुरू करता हूं कि एक नियमित कॉन्फ़िगरेशन (जो कि कम एन्ट्रॉपी के साथ है) किसी तरह सममित, समद्विबाहु होना चाहिए या इसके ट्रांसफॉर्मर। उदाहरण के लिए, घुमावों में।

आप मूल मैट्रिक्स के साथ कॉन्फ़िगरेशन कॉनुर तक अपने मैट्रिक्स को घुमा सकते हैं (180 डिग्री, 180 डिग्री, आदि से फ्लिप) । यह हमेशा 4 घुमावों (360 डिग्री) पर पहुंचेगा, लेकिन कभी-कभी यह पहले भी घूम सकता है (जैसे चित्र में मैट्रिक्स E)।

प्रत्येक घुमाव पर, मूल विन्यास और घुमाए गए के बीच समान मूल्यों के साथ कोशिकाओं की संख्या की गणना करें। उदाहरण के लिए, यदि आप मूल मैट्रिक्स A की तुलना उसके 90 डिग्री के रोटेशन के साथ करेंगे तो आपको 10 कोशिकाएँ मिलेंगी जहाँ एक मैट्रिक्स में स्पॉट और दूसरे मैट्रिक्स में रिक्त है। फिर मूल मैट्रिक्स की 180 डिग्री की रोटेशन के साथ तुलना करें: 11 ऐसी कोशिकाएं मिलेंगी। 10 कोशिकाएं मूल मैट्रिक्स ए और इसके 270 डिग्री के रोटेशन के बीच विसंगति है । 10 + 11 + 10 = 31 मैट्रिक्स ए का समग्र "एन्ट्रापी" है ।

मैट्रिक्स बी के लिए "एन्ट्रॉपी" 20 है, और मैट्रिक्स ई के लिए यह केवल 12 है। मेट्रिसेस सी और डी के लिए "एन्ट्रॉपी" 0 है क्योंकि 90 डिग्री के बाद घुमाव बंद हो जाते हैं: आइसोमोर्फिज्म पहले से ही प्राप्त हो गया है।

यहाँ छवि विवरण दर्ज करें

— ttnphns
स्रोत

तुम्हारे सुझाव के लिए धन्यवाद! हालांकि मैं कई "आसान" डिस्प्ले के बारे में सोच सकता था जो एक रोटेशन परिवर्तन के लिए अपरिवर्तनीय नहीं हैं, यह एक अच्छा और आसान (और विस्तार योग्य!) दृष्टिकोण है। मुझे यह सोचना है कि मैं किस प्रकार के परिवर्तन करना चाहूंगा। और मुझे प्रत्येक परिवर्तन में गिनती अंक के आपके दृष्टिकोण को पसंद है।

— फेलिक्स एस

सराहना के लिए धन्यवाद। लेकिन दृष्टिकोण सिर्फ एक प्रारंभिक ठूंठ है, एक सामान्य विचार है, और आप सही कह रहे हैं कि यह विस्तार योग्य है।

— ttnphns

मुझे आपका दृष्टिकोण पसंद है। हालाँकि, अधिक सामान्य उत्तर प्राप्त करने के लिए यह थोड़ा बड़ा समरूपता समूह - पहचान, 3 घुमाव और 4 प्रतिबिंब (जैसे , en.wikipedia.org/wiki/Dihedral_group ) लेने के लायक हो सकता है । फिर सभी जोड़े (यानी ) और यादृच्छिकता , जहां के बीच अंतर के रूप में ( ) की गणना करें , जहां काले पत्थरों की संख्या है। विशुद्ध रूप से यादृच्छिक आकृतियों के लिए प्राप्त करना चाहिए , जबकि बहुत ही सममित । अच्छी बात यह है कि लिए सूत्र बोर्ड पर विभिन्न संख्या में पत्थरों के लिए है और बीडब्ल्यू समरूपता है।

D_{4}

$D_4$

d

$d$

8 * 7

$8* 7$

r = k \frac{1}{8 * 7} \frac{25}{2 n (25 - n)})

$r=k\frac{1}{8*7}\frac{25}{2n(25-n)})$

n

$n$

r \approx 1

$r\approx 1$

r \approx 0

$r \approx 0$

r

$r$

— पियोत्र मिग्डाल

Overcomplicating के लिए क्षमा करें। यह मूल पैटर्न की पहचान करने के लिए समरूपताओं के साथ तुलना करने के लिए पर्याप्त है । फिर सामान्य कारक में है के बजाय ।

7

$7$

7

$7$

7 * 8

$7*8$

— पियोट्र मिगडाल

5

जानकारी को आमतौर पर रूप में परिभाषित किया जाता है । यह बताते हुए कुछ अच्छा सिद्धांत है कि बिट्स की मात्रा है जो आपको का उपयोग करके कोड आवश्यकता है । यदि आप इसके बारे में अधिक जानना चाहते हैं तो अंकगणित कोडिंग पर पढ़ें । $h(x) = \log p(x)$ $\log_2 p(x)$ $x$ $p$

तो यह आपकी समस्या को कैसे हल कर सकता है? आसान। कुछ ढूंढें जो आपके डेटा का प्रतिनिधित्व करते हैं और उपयोग करते हैं जहां एक नया नमूना है जो आश्चर्य का एक उपाय है या इसे मुठभेड़ की जानकारी है। $p$ $-\log p(x)$ $x$

मुश्किल बात यह है कि लिए कुछ मॉडल खोजने के लिए और अपने डेटा को उत्पन्न करने के लिए। हो सकता है कि आप एक एल्गोरिथ्म के साथ आ सकते हैं जो मैट्रिस उत्पन्न करता है जिसे आप 'संभावित' मानते हैं। $p$

फिटिंग लिए कुछ विचार । $p$

यदि आप केवल 5x5 मैट्रिसेस को देख रहे हैं , तो आपको सभी संभावित मैट्रिसेस को स्टोर करने के लिए केवल बिट्स की आवश्यकता है , ताकि आप बस उन सभी को एन्यूमरेट कर सकें और प्रत्येक को एक निश्चित संभावना प्रदान कर सकें। $2^{25}$
अपने डेटा को फिट करने के लिए एक प्रतिबंधित बोल्ट्ज़मन मशीन का उपयोग करें (तब आपको सूचना के विकल्प के रूप में मुफ्त ऊर्जा का उपयोग करना होगा, लेकिन ठीक है,
ज़िप के विकल्प के रूप में उपयोग करें और ऊपर से पूरी संभावना कहानी के बारे में परवाह न करें। यह औपचारिक रूप से भी ठीक है, क्योंकि आप कोलमोगोरोव जटिलता के सन्निकटन के रूप में जिप का उपयोग करते हैं और यह जानकारी सिद्धांतकारों द्वारा किया गया है और साथ ही सामान्यीकृत संपीड़न दूरी के लिए अग्रणी है , $-\log p(x)$
शायद स्थानिक पूर्व मान्यताओं को शामिल करने और स्थानीय स्तर पर बर्नौली चर का उपयोग करने के लिए एक चित्रमय मॉडल का उपयोग करें।
ट्रांसलेशनल इनवेरियन को एनकोड करने के लिए, आप एक कंसॉल्यूशन नेटवर्क का उपयोग करके एनर्जी आधारित मॉडल का उपयोग कर सकते हैं ।

उपरोक्त विचारों में से कुछ काफी भारी हैं और मशीन सीखने से आते हैं। यदि आप आगे की सलाह चाहते हैं, तो टिप्पणियों का उपयोग करें।

— bayerj
स्रोत

जाहिर है, कोलमोगोरोव एन्ट्रापी एक दार्शनिक अर्थ में सबसे अच्छा दृष्टिकोण है, यदि आप "अमूर्त पैटर्न सादगी" के बारे में सोचते हैं और आप यह अनुमान लगाने की कोशिश नहीं कर रहे हैं कि यह मानव मस्तिष्क के लिए कितना सरल होगा। यह बस एन्ट्रापी को "सबसे छोटे कार्यक्रम की लंबाई जो उस पैटर्न का उत्पादन कर सकता है" के रूप में बताता है। बेशक, आपको अभी भी कंप्यूटर भाषा को निर्दिष्ट करने की आवश्यकता है, लेकिन आप अभी भी एक अमूर्त ट्यूरिंग मशीन पर चाल खेलने के लिए भरोसा कर सकते हैं।

— जेवियर रोड्रिगेज लगुना

प्रोग्रामिंग भाषा वास्तव में महत्वपूर्ण नहीं है। भाषा ए से भाषा बी तक संकलित कार्यक्रम का एक अतिरिक्त हिस्सा एक निरंतर बिट वृद्धि (संकलक) ले जाएगा और इस प्रकार उपेक्षित किया जा सकता है।

— 15

4

मेरे निम्नलिखित प्रस्ताव को कम करने के बजाय अंतर्दृष्टि दी गई है, इसलिए मैं इसे साबित नहीं कर सकता, लेकिन कम से कम कुछ तर्क दे सकता हूं। स्पॉट के विन्यास के "एन्ट्रॉपी" के आकलन की प्रक्रिया में शामिल हैं:

धब्बों को डिजिटाइज़ करें।
ऑर्थोगोनल प्रोक्रिजेस विश्लेषण द्वारा, कई बार अनुमति के साथ कॉन्फ़िगरेशन की तुलना करें ।
तुलना के प्लॉट परिणाम (पहचान गुणांक) और भूखंड की दांतेदारता का आकलन करते हैं।

डिजिटाइज़ स्पॉट , यानी उनके निर्देशांक लें। उदाहरण के लिए, नीचे क्रमांकित स्पॉट के साथ आपका कॉन्फ़िगरेशन डी है (क्रम क्रम मनमाना हो सकता है) और उनके निर्देशांक। यहाँ छवि विवरण दर्ज करें

क्रमपरिवर्तन करें और Procrustes विश्लेषण करें। परमिट स्पॉट (डेटा में पंक्तियाँ) बेतरतीब ढंग से करते हैं और परमिट किए गए व्यक्ति के साथ मूल (अनुमत नहीं) डेटा की तुलना में Procrustes करते हैं; पहचान गुणांक (दो विन्यासों की समानता का माप, विश्लेषण द्वारा आउटपुट) रिकॉर्ड करें । दोहराव क्रम-निर्धारण - गुणांक - गुणांक को सहेजना, कई बार (जैसे 1000 बार या अधिक)।

एक नियमित संरचना पर उपरोक्त ऑपरेशन के बाद प्राप्त पहचान गुणांक (आईडीसी) से हम क्या इंतजार कर सकते हैं ?उदाहरण के लिए उपरोक्त विन्यास डी पर विचार करें। यदि हम स्वयं के साथ निर्धारित मूल निर्देशांक की तुलना करते हैं, तो हमें निश्चित रूप से IDc = 1 मिलेगा। लेकिन अगर हम मूल सेट और अनुमत के बीच कुछ स्पॉट्स की अनुमति देते हैं, तो नीचे दिए गए कुछ मूल्य होंगे। आइए हम परमिट करते हैं, उदाहरण के लिए, स्पॉट की एक जोड़ी, 1 और 4. IDc = .964 लेबल। अब, इसके बजाय, स्पॉट 3 और 5 को अनुमति दें। दिलचस्प बात यह है कि आईडीसी फिर से होगा। एक ही मूल्य, क्यों? स्पॉट 3 और 5 1 और 4 के सममित हैं, ताकि 90 डिग्री तक रोटेशन उन्हें सुपरपोज करें। Procrustes की तुलना घूर्णन या परावर्तन के प्रति असंवेदनशील है, और इस प्रकार 1-4 के भीतर युग्मन के लिए क्रमबद्धता "5-3" जोड़ी के रूप में क्रमचय के रूप में "समान" है, इसके लिए। अधिक उदाहरण जोड़ने के लिए, यदि आप सिर्फ 4 और 7 स्पॉट की अनुमति देते हैं, तो IDc फिर से होगा। ऐसा प्रतीत होता है कि प्रोक्रेसी के लिए, जोड़ी 4-7 के भीतर क्रमचय "वही" है उपरोक्त दो के रूप में कि यह समानता की समान डिग्री देता है (जैसा कि आईडीसी द्वारा मापा जाता है)। जाहिर है, यह सब इसलिए है क्योंकि कॉन्फ़िगरेशन डी नियमित है।एक नियमित कॉन्फ़िगरेशन के लिए हम अपने क्रमपरिवर्तन / तुलना प्रयोग में IDc के बजाय असतत मूल्यों को प्राप्त करने की उम्मीद करते हैं; अनियमित विन्यास के लिए हम उम्मीद करते हैं कि मूल्य निरंतर बने रहेंगे।

दर्ज आईडीसी मूल्यों को प्लॉट करें। उदाहरण के लिए, मानों को क्रमबद्ध करें और लाइन-प्लॉट बनाएं। मैंने प्रयोग किया - 5000 क्रमोन्नति - आपके प्रत्येक विन्यास A, B (दोनों काफी अनियमित), D, E (दोनों नियमित) और यहाँ लाइन-प्लॉट के साथ:

यहाँ छवि विवरण दर्ज करें

ध्यान दें कि कितना अधिक दांतेदार रेखाएं हैं डी और ई (विशेष रूप से)। इसका कारण मूल्यों की असंगति है। ए और बी के लिए मूल्य बहुत अधिक निरंतर हैं। आप अपने आप को किसी प्रकार का आँकड़ा चुन सकते हैं जो साजिश रचने के बजाय असावधानी / निरंतरता की डिग्री का अनुमान लगाता है। A, B से अधिक निरंतर नहीं लगता है (आपके लिए, कॉन्फ़िगरेशन A कुछ कम नियमित है, लेकिन मेरी लाइन-प्लॉट इसे प्रदर्शित नहीं करती है) या, यदि नहीं, तो शायद IDc मानों का एक और पैटर्न दिखाई देता है। क्या एक और पैटर्न? यह मेरे उत्तर के दायरे से परे है। बड़ा सवाल यह है कि क्या ए वास्तव में बी की तुलना में कम नियमित है: यह आपकी आंख के लिए हो सकता है, लेकिन जरूरी नहीं कि प्रोक्रेसी विश्लेषण या किसी अन्य व्यक्ति की आंख के लिए।

वैसे, पूरे क्रमपरिवर्तन / प्रोक्रेस्ट्स प्रयोग मैंने बहुत जल्दी किया। मैंने SPSS के लिए अपने स्वयं के Procrustes विश्लेषण मैक्रो का उपयोग किया (अपने वेब-पेज पर पाया) और क्रमपरिवर्तन करने के लिए कोड की कुछ पंक्तियों को जोड़ दिया।

— ttnphns
स्रोत

3

पारस्परिक जानकारी, प्रत्येक आयाम को एक यादृच्छिक चर के रूप में देखते हुए, इस प्रकार प्रत्येक मैट्रिक्स को संख्याओं के जोड़े के रूप में सी के अलावा सभी मामलों में मदद करनी चाहिए, जहां मुझे परिणाम का यकीन नहीं है।

TMVA मैनुअल या इसी arxiv प्रविष्टि में प्रतिगमन प्रदर्शन विश्लेषण पर अंजीर 8 (p24 में शुरू) के आसपास चर्चा देखें ।

विभिन्न वितरणों के लिए अलग-अलग मीट्रिक

— adavid
स्रोत

लिंक किए गए दस्तावेज़ को खोलने में मुझे समस्याएं हैं।

— ttnphns

एक वैकल्पिक लिंक जोड़ा गया। लेकिन पहले वाला मेरे लिए काम करता है (बस परीक्षण किया गया)।

— adavid

3

पैटर्न के वैश्विक गुणों (जैसे समरूपता) को देखने के बजाय, कोई भी स्थानीय लोगों पर एक नज़र डाल सकता है, जैसे प्रत्येक पत्थर (= काला सर्कल) में पड़ोसियों की संख्या। के द्वारा पत्थर की कुल संख्या दिखाता है । $s$

यदि पत्थरों को जहां यादृच्छिक रूप से फेंका जाता है, तो पड़ोसियों का वितरण जहां पत्थरों का घनत्व है। स्थानों की संख्या बात पर निर्भर करती है कि कोई पत्थर अंदर ( ), किनारे पर ( ) या कोने ।

P_{r a n d, p} (k neighbors | n places) = (\binom{n}{k}) p^{k} (1 - p)^{n - k},

$P_{rand,p}(k\ \text{neighbors}|n\ \text{places} ) = {n \choose k} p^{k} (1-p)^{n-k},$

p = s / 25

$p = s/25$

n

$n$

n = 8

$n=8$

n = 5

$n=5$

(n = 3)

$(n=3)$

यह स्पष्ट रूप से दिखाई देता है, कि सी) , डी) और ई) में पड़ोसियों का वितरण यादृच्छिक से दूर है। उदाहरण के लिए, D के लिए) सभी आंतरिक पत्थरों में ठीक पड़ोसी हैं (यादृच्छिक वितरण के विरोध में, जो में पैदावार देता है) मापा के बजाय )। $4$ $\approx (0\%,2\%,9\%,20\%,27\%,24\%,13\%,4\%,0\%)$ $(0\%,0\%,0\%,0\%,100\%,0\%,0\%,0\%,0\%)$

इसलिए यह निर्धारित करने के लिए कि यदि कोई पैटर्न यादृच्छिक है, तो आपको उसके पड़ोसी वितरण की तुलना करना होगा और इसकी तुलना एक यादृच्छिक करनी होगी । उदाहरण के लिए आप उनके साधन और प्रकार की तुलना कर सकते हैं। $P_{measured}(k|n)$ $P_{rand,p}(k|n)$

वैकल्पिक रूप से, कोई फ़ंक्शन रिक्त स्थान में अपनी दूरी को माप सकता है, जैसे: जहां साथ बिंदुओं का मापा अनुपात है आसन्न रिक्त स्थान और एक यादृच्छिक पैटर्न, यानी , और ।

\sum_{n = {3, 5, 8}} \sum_{k = 0}^{n} {[P_{m e a s u r e d} (k | n) P_{m e a s u r e d} (n) - P_{r a n d, p} (k | n) P_{r a n d, p} (n)]}^{2},

$\sum_{n=\{3,5,8\}} \sum_{k=0}^n\left[P_{measured}(k|n)P_{measured}(n) -P_{rand,p}(k|n)P_{rand,p}(n)\right]^2,$

P_{m e a s u r e d} (n)

$P_{measured}(n)$

n

$n$

P_{r a n d, p} (n)

$P_{rand,p}(n)$

P_{r a n d, p} (3) = 4 / 25

$P_{rand,p}(3) = 4/25$

P_{r a n d, p} (5) = 12 / 25

$P_{rand,p}(5) = 12/25$

P_{r a n d, p} (8) = 9 / 25

$P_{rand,p}(8) = 9/25$

— पायोत्र मिगदल
स्रोत

2

सूचना सामग्री को अवधारणा के लिए वास्तव में सरल तरीका है जो पाठ स्ट्रिंग के कम से कम निरर्थक प्रतिनिधित्व को खोजने के लिए संभावनाओं और संक्रमण संभावनाओं का उपयोग करके शैनन के (आमतौर पर एक आयामी) विचार को वापस करता है। एक छवि के लिए (इस विशेष मामले में एक द्विआधारी छवि को एक वर्ग मैट्रिक्स पर परिभाषित किया गया है) हम एक्स और वाई डेरिवेटिव (-1,0, + 1) के ज्ञान से विशिष्ट रूप से पुनर्निर्माण कर सकते हैं। हम एक 3x3 संक्रमण संभावना और एक वैश्विक संभावना घनत्व फ़ंक्शन को भी परिभाषित कर सकते हैं, 3x3। शैनन की जानकारी तब 3x3 पर लागू क्लासिक लॉगरिदमिक योग सूत्र से प्राप्त की जाती है। यह एक दूसरा आदेश है शैनन सूचना माप और अच्छी तरह से 3x3 पीडीएफ में स्थानिक संरचना को कैप्चर करता है।

2 से अधिक (बाइनरी) स्तरों के साथ स्केल छवियों पर लागू होने पर यह दृष्टिकोण अधिक सहज है, अधिक जानकारी के लिए https://arxiv.org/abs/1609.01117 देखें।

— किरन लार्किन
स्रोत

1

इसे पढ़ने में, दो बातें दिमाग में आती हैं। पहला यह है कि बहुत सारे जेस्टाल्ट गुण भविष्यवाणी करने के लिए काफी चुनौतीपूर्ण हैं, और पीएचडी स्तर का बहुत सारा काम मॉडल में यह पता लगाने की कोशिश में जाता है कि समूह कैसे होते हैं। मेरी वृत्ति यह है कि सबसे आसान नियम जो आप सोच सकते हैं कि काउंटर उदाहरणों के साथ समाप्त हो जाएंगे।

यदि आप अभी के लिए जेस्टाल्ट ग्रुपिंग के विवरण को अलग रख सकते हैं, तो मुझे लगता है कि एक छवि के विशेष मामले के रूप में आपके इनपुट के बारे में सोचना एक सहायक अमूर्तता है। कंप्यूटर विज़न में बहुत सारे एल्गोरिदम होते हैं, जो एक छवि के लिए एक हस्ताक्षर प्रदान करने का उद्देश्य होते हैं, जो सुविधाओं के एक सेट के आधार पर होता है, जो कि पैमाने पर अपरिवर्तनीय और सुविधा अयोग्य होते हैं। मुझे लगता है कि सबसे अच्छी तरह से ज्ञात SIFT विशेषताएं हैं:

http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

मूल रूप से आपका आउटपुट एक नया वेक्टर होगा जो इन सुविधाओं के लिए भार देता है। आप इस वेक्टर का उपयोग कर सकते हैं और या तो इसके लिए एक अनुमान लागू कर सकते हैं (आदर्श, शायद खोजें) और आशा करते हैं कि यह वर्णन करता है कि आप क्या देख रहे हैं। वैकल्पिक रूप से, आप फीचर वेक्टर को इनपुट के रूप में लेने के लिए एक क्लासिफायरियर ट्रेन कर सकते हैं और यह बता सकते हैं कि इसकी 'एन्ट्रोपी' की आपकी धारणा क्या है। इसका उल्टा यह है कि यह उपयुक्त SIFT सुविधाओं का उपयोग करेगा (जो निश्चित रूप से आपकी समस्या के लिए ओवरकिल है) और कुछ प्रकार के मानचित्रण का निर्माण करेंगे जो बहुत अच्छी तरह से उपयुक्त हो सकते हैं। नकारात्मक पक्ष यह है कि आपको अपने आप को लेबल करने में बहुत कुछ करना पड़ता है, और आपको जो भी व्याख्या करना मुश्किल हो सकता है, वह आपके द्वारा उपयोग किए जाने वाले क्लासिफायर पर निर्भर करता है।

मुझे आशा है कि यह मददगार है! बहुत सारे पारंपरिक कंप्यूटर दृष्टि एल्गोरिदम आपके लिए यहां उपयुक्त हो सकते हैं - उस पोर्टल में विकिपीडिया के माध्यम से एक त्वरित ब्राउज़ आपको कुछ अतिरिक्त जानकारी दे सकता है।

— alexplanation
स्रोत

0

आपके उदाहरण मुझे बूलियन बीजगणित और डिजिटल सर्किट से सत्य तालिकाओं की याद दिलाते हैं। इस दायरे में, कर्णघ मानचित्र (http://en.wikipedia.org/wiki/Karnaugh_map) पूरे ग्रिड को व्यक्त करने के लिए न्यूनतम बूलियन फ़ंक्शन प्रदान करने के लिए एक उपकरण के रूप में उपयोग किया जा सकता है। वैकल्पिक रूप से, बूलियन बीजगणित पहचान का उपयोग करके फ़ंक्शन को उसके न्यूनतम रूप में कम करने में मदद मिल सकती है। न्यूनतम बूलियन फ़ंक्शन में शब्दों की संख्या की गणना आपके एन्ट्रापी उपाय के रूप में की जा सकती है। यह आपको आसन्न पड़ोसियों को संपीड़ित करने के साथ ऊर्ध्वाधर और क्षैतिज समरूपता देता है, लेकिन विकर्ण समरूपता का अभाव है।

बूलियन बीजगणित का उपयोग करना, दोनों कुल्हाड़ियों को लेबल किया जाता है AE ऊपरी बाएं कोने से शुरू होता है। इस तरीके से, उदाहरण C, बूलियन फ़ंक्शन के लिए मैप करेगा (! A! E)। अन्य उदाहरणों के लिए, कुल्हाड़ियों को अलग से लेबल करने की आवश्यकता होगी (यानी AE, FJ)।

— edgester
स्रोत