2d बाइनरी मैट्रिक्स की एन्ट्रापी / सूचना / पैटर्न को मापना


53

मैं द्वि-आयामी बाइनरी मैट्रिक्स की एन्ट्रापी / सूचना घनत्व / पैटर्न-समानता को मापना चाहता हूं। मुझे स्पष्टीकरण के लिए कुछ तस्वीरें दिखाइए:

इस प्रदर्शन में एक उच्च एंट्रॉपी होनी चाहिए:

ए)

यहाँ छवि विवरण दर्ज करें

इसमें मध्यम एन्ट्रापी होनी चाहिए:

बी)

यहाँ छवि विवरण दर्ज करें

ये चित्र, अंत में, सभी के पास शून्य-एन्ट्रापी होने चाहिए:

सी)

यहाँ छवि विवरण दर्ज करें

डी)

यहाँ छवि विवरण दर्ज करें

इ)

यहाँ छवि विवरण दर्ज करें

क्या कोई सूचकांक है जो एन्ट्रापी, सम्मान को पकड़ता है। इन डिस्प्ले की "पैटर्न-समानता"?

बेशक, प्रत्येक एल्गोरिथ्म (जैसे, संपीड़न एल्गोरिदम, या ttnphns द्वारा प्रस्तावित रोटेशन एल्गोरिदम ) प्रदर्शन की अन्य विशेषताओं के प्रति संवेदनशील है। मैं एक एल्गोरिथ्म की तलाश में हूं जो निम्नलिखित गुणों को पकड़ने की कोशिश करता है:

  • घूर्णी और अक्षीय समरूपता
  • क्लस्टरिंग की मात्रा
  • repetitions

शायद अधिक जटिल, एल्गोरिथ्म मनोवैज्ञानिक " गेस्टाल्ट सिद्धांत " के गुणों के प्रति संवेदनशील हो सकता है , विशेष रूप से:

  • निकटता का नियम: निकटता का नियम
  • समरूपता का नियम: सममित छवियों को सामूहिक रूप से माना जाता है, दूरी के बावजूद:समरूपता

इन गुणों वाले प्रदर्शनों को "कम एन्ट्रापी मूल्य" सौंपा जाना चाहिए; बल्कि यादृच्छिक / असंरचित बिंदुओं के साथ प्रदर्शन को "उच्च एन्ट्रापी मूल्य" सौंपा जाना चाहिए।

मुझे पता है कि सबसे अधिक शायद ही कोई एल्गोरिथ्म इन सभी विशेषताओं पर कब्जा नहीं करेगा; इसलिए एल्गोरिदम के सुझाव जो केवल कुछ या केवल एक ही सुविधा को संबोधित करते हैं और साथ ही अत्यधिक स्वागत करते हैं।

विशेष रूप से, मैं ठोस, मौजूदा एल्गोरिदम या विशिष्ट, कार्यान्वयन योग्य विचारों के लिए देख रहा हूं (और मैं इन मानदंडों के अनुसार इनाम प्रदान करूंगा)।


अच्छा सवाल! क्या मैं पूछ सकता हूं कि किसी एक उपाय की क्या जरूरत है? उनके चेहरे पर आपके तीन गुण (समरूपता, क्लस्टरिंग और दोहराव) अलग-अलग उपायों को वारंट करने के लिए पर्याप्त स्वतंत्र लगते हैं।
एंडी डब्ल्यू

अब तक मैं कुछ हद तक स्पष्ट हूं कि आप एक सार्वभौमिक अहंकार पा सकते हैं जो कि गर्भपात सिद्धांत को लागू करता है। उत्तरार्द्ध पहले से मौजूद प्रोटोटाइप की मान्यता पर प्रमुख रूप से आधारित है। आपके दिमाग में ये हो सकता है, लेकिन आपका कंप्यूटर नहीं हो सकता है।
ttnphns

मैं आप दोनों से सहमत हूं। वास्तव में मैं एक एल्गोरिथ्म की तलाश नहीं कर रहा था - हालांकि मेरे पिछले शब्दांकन ने वास्तव में यह सुझाव दिया था। मैंने एकल गुणों के लिए एल्गोरिदम को स्पष्ट रूप से अनुमति देने के लिए सवाल अपडेट किया। हो सकता है कि किसी के पास कई अल्गो के आउटपुट को संयोजित करने के तरीके के बारे में भी विचार हो (उदाहरण के लिए, "हमेशा एल्गो के सेट का सबसे कम एन्ट्रापी मूल्य लेते हैं")
फेलिक्स एस

1
बाउंटी खत्म हो गई । सभी योगदानकर्ताओं और उत्कृष्ट विचारों के लिए धन्यवाद! इस इनाम ने दिलचस्प दृष्टिकोणों का एक समूह उत्पन्न किया। कई उत्तरों में मस्तिष्क का बहुत काम होता है, और कभी-कभी यह अफ़सोस की बात है कि बाउंस को विभाजित नहीं किया जा सकता है। अंत में, मैंने @whuber को इनाम देने का फैसला किया, क्योंकि उसका समाधान एल्गोरिथ्म था जो मुझे लगता है कि इसे कैप्चर करने वाली सुविधाओं के बारे में सबसे व्यापक लग रहा था, और जैसा कि इसे लागू करना आसान है। मैं यह भी सराहना करता हूं कि यह मेरे ठोस उदाहरणों पर लागू किया गया था। सबसे प्रभावशाली मेरी "सहज रैंकिंग" के सटीक क्रम में संख्याओं को निर्दिष्ट करने की क्षमता थी। धन्यवाद, एफ
फेलिक्स एस

जवाबों:


35

एक सरल प्रक्रिया है जो मनोवैज्ञानिक और ज्यामितीय तत्वों सहित सभी अंतर्ज्ञान को पकड़ती है । यह स्थानिक निकटता का उपयोग करने पर निर्भर करता है , जो हमारी धारणा का आधार है और जो समरूपता द्वारा केवल अपूर्ण रूप से मापा जाता है, उस पर कब्जा करने के लिए एक आंतरिक तरीका प्रदान करता है।

mnk=2233min(n,m)min(n,m)

यह देखने के लिए कि यह कैसे काम करता है, आइए प्रश्न में सरणियों के लिए गणना करें, जिसे मैं माध्यम से ऊपर से नीचे तक । यहाँ ( मूल सरणी है, निश्चित रूप से) लिए ।a1a5k=1,2,3,4k=1a1

आकृति 1

ऊपरी बाएँ से दक्षिणावर्त, , , और बराबर होता है । सरणियाँ से , फिर से , से , और से क्रमशः हैं। वे सभी "यादृच्छिक" की तरह दिखते हैं। आइए इस यादृच्छिकता को उनके आधार -2 एन्ट्रापी से मापते हैं। के लिए , इन entropies के अनुक्रम है । आइए इसे का "प्रोफ़ाइल" ।k124355442233a1(0.97,0.99,0.92,1.5)a1

यहाँ, इसके विपरीत, के चलते हुए योग हैं :a4

चित्र 2

के लिए वहाँ थोड़ी भिन्नता, कम एन्ट्रापी जिस कारण से है। प्रोफ़ाइल । इसका मान के मान से लगातार कम है , सहज ज्ञान की पुष्टि करता है कि में मौजूद एक मजबूत "पैटर्न" है ।k=2,3,4(1.00,0,0.99,0)a1a4

हमें इन प्रोफाइलों की व्याख्या के लिए संदर्भ के एक फ्रेम की आवश्यकता है। बाइनरी मानों की एक पूरी तरह से यादृच्छिक सरणी में एन्ट्रापी के लिए इसके आधे मान के बराबर लगभग और दूसरे आधे के बराबर । भीतर चलती रकम से पड़ोस उन्हें उम्मीद के मुताबिक entropies दे रही है (कम से कम बड़े सरणियों के लिए) है कि इसका अनुमान लगाया जा सकता है, द्विपद वितरण हो जाते हैं जाएगा :011kk1+log2(k)

एन्ट्रापी साजिश

ये परिणाम तक सरणियों के साथ सिमुलेशन द्वारा वहन किए जाते हैं । हालांकि, वे छोटे सरणियों (जैसे के लिए टूट से पड़ोसी खिड़कियों के बीच सह-संबंध की वजह से सरणियों यहाँ) और डेटा की एक छोटी राशि के कारण (एक बार विंडो का आकार सरणी के बारे में आधे आयाम है)। यहाँ कुछ वास्तविक प्रोफाइल के भूखंडों के साथ सिमुलेशन द्वारा उत्पन्न यादृच्छिक से सरणियों का एक संदर्भ प्रोफ़ाइल है :m=n=1005555

प्रोफ़ाइल भूखंड

इस कथानक में संदर्भ प्रोफ़ाइल ठोस नीला है। सरणी प्रोफाइल : red, : स्वर्ण, : हरे, : हल्के नीले रंग के । ( को शामिल करने से चित्र अस्पष्ट हो जाएगा क्योंकि यह के प्रोफ़ाइल के ।) कुल मिलाकर प्रोफ़ाइल प्रश्न में आदेश देने के अनुरूप हैं: स्पष्ट आदेश बढ़ने के साथ ही वे अधिकांश मानों में कम हो जाते हैं । अपवाद : अंत तक, , इसकी चलती रकम सबसे कम एन्ट्रोपियों में होती है। इससे एक आश्चर्यजनक नियमितता का पता चलता है: हर बाय पड़ोसa1a2a3a4a5a4ka1k=422a1 में ठीक या काले वर्ग हैं, कभी भी अधिक या कम नहीं। यह बहुत कम "यादृच्छिक" है जो एक से अधिक हो सकता है। (यह आंशिक रूप से जानकारी के नुकसान के कारण होता है जो प्रत्येक पड़ोस में मूल्यों को समेटने के साथ होता है, एक प्रक्रिया जो संभव पड़ोस विन्यास सिर्फ विभिन्न संभावित योगों में होती है। यदि हम विशेष रूप से ध्यान देना चाहते हैं। क्लस्टरिंग और अभिविन्यास प्रत्येक पड़ोस में के लिए, तो बजाय चलती रकम का उपयोग कर के हम concatenations चलती का प्रयोग करेंगे। यही है, प्रत्येक से पड़ोस है122k2k2+1kk2k2संभव विभिन्न विन्यास; उन सभी को अलग करके, हम एन्ट्रापी की एक महीन माप प्राप्त कर सकते हैं। मुझे संदेह है कि इस तरह के एक उपाय अन्य छवियों की तुलना में के प्रोफ़ाइल को ।)a1

चलती पड़ोस के भीतर संक्षेप में (या कंक्रीटिंग या अन्यथा संयोजन) मूल्यों द्वारा तराजू की एक नियंत्रित सीमा में एंट्रोपियों की एक प्रोफ़ाइल बनाने की इस तकनीक का उपयोग छवियों के विश्लेषण में किया गया है। यह पहले अक्षरों की एक श्रृंखला के रूप में पाठ का विश्लेषण करने के प्रसिद्ध विचार का एक दो-आयामी सामान्यीकरण है, फिर डिग्राफ की एक श्रृंखला (दो-अक्षर अनुक्रम) के रूप में, फिर ट्रिग्राफ आदि के रूप में, यह भग्न के लिए कुछ स्पष्ट संबंध भी हैं। विश्लेषण (जो महीन और बारीक तराजू में छवि के गुणों की पड़ताल करता है)। अगर हम ब्लॉक मूविंग सम या ब्लॉक कॉन्कैटिनेशन का उपयोग करने के लिए कुछ ध्यान रखते हैं (इसलिए खिड़कियों के बीच कोई ओवरलैप्स नहीं हैं), तो एक व्यक्ति को सरल गणितीय संबंधों के बीच में प्रवेश कर सकता है; हालाँकि,

विभिन्न एक्सटेंशन संभव हैं। उदाहरण के लिए, एक घूर्णी रूप से अपरिवर्तनीय प्रोफ़ाइल के लिए, वर्ग वाले के बजाय परिपत्र पड़ोस का उपयोग करें। बाइनरी सरणियों से परे सब कुछ सामान्य करता है, ज़ाहिर है। पर्याप्त रूप से बड़ी सरणियों के साथ एक व्यक्ति गैर-स्थिरता का पता लगाने के लिए स्थानीय रूप से भिन्न एंट्रोपी प्रोफाइल की गणना कर सकता है।

यदि एक एकल नंबर वांछित है, तो एक संपूर्ण प्रोफ़ाइल के बजाय, उस पैमाने को चुनें, जिस पर स्थानिक यादृच्छिकता (या इसके अभाव) ब्याज की है। इन उदाहरणों में, यह पैमाना से या से बढ़ते हुए पड़ोस के लिए सबसे अच्छा होता है, क्योंकि उनके पैटर्निंग के लिए वे सभी उन समूहों पर भरोसा करते हैं जो तीन से पांच सेल (और से पड़ोस) सिर्फ सभी भिन्नताओं को दूर करते हैं। सरणी और इतना बेकार है)। बाद के पैमाने पर, के लिए entropies के माध्यम से हैं , , , , और334455a1a51.500.81000 ; इस पैमाने पर अपेक्षित एन्ट्रापी (समान रूप से यादृच्छिक सरणी के लिए) । यह इस अर्थ को सही ठहराता है कि "बल्कि उच्च एंट्रॉपी होना चाहिए।" , और को अलग करने के लिए , जो इस पैमाने पर एन्ट्रापी के साथ बंधे होते हैं , अगले महीन रिज़ॉल्यूशन ( बाय पड़ोस) को देखें: उनकी एंट्री क्रमशः , , , (जबकि एक यादृच्छिक ग्रिड अपेक्षित है) मान है )। इन उपायों से, मूल प्रश्न सरणियों को बिल्कुल सही क्रम में रखता है।1.34a1a3a4a50331.390.990.921.77


मुझे क्षमा करें, मैं समझ नहीं पाया कि आपने अपने चलते हुए भूखंडों का उत्पादन कैसे किया। कृपया, विस्तार से बताएं कि मूविंग योग की गणना कैसे करें।
ttnphns

1
@ttnphns यहाँ विषय पर एक लोकप्रिय सचित्र सहायता पृष्ठ है।
whuber

4
मैंने पायथन में NumPy और matplotlib का उपयोग करते हुए @whuber द्वारा इस उत्कृष्ट उत्तर के परिणामों को पुन: प्रस्तुत किया, यहाँ उपलब्ध है: github.com/cosmoharrigan/matrix-entropy
कॉस्मो हरिगान

(+1) यहाँ एक बहुत ही सामान्य सिद्धांत है: किसी भी साथ मल्टीसेट , वहाँ multiplicities द्वारा निर्धारित प्रायिकता वितरण का स्वाभाविक रूप से जुड़े एन्ट्रापी अपनी विशिष्ट तत्वों की , अर्थात् , जहाँ , के अलग-अलग तत्वों का समूह है । उदाहरण विभिन्न आयामों की वस्तुओं में विभिन्न आकृतियों के आकार- पड़ोस द्वारा गठित मल्टीसेट्स हैं । (मैं तो बस पोस्ट length- करने के लिए एक 1 डी आवेदन सबस्ट्रिंग ।)Mμ(e)ep(e):=μ(e)eSμ(e)  (eS)SMkk
रेस

@ शुभ उत्तर शानदार। हालांकि यह सहज ज्ञान युक्त है, क्या कोई लेख या पाठ्यपुस्तक है जो इस की मूल व्युत्पत्ति का हवाला दे सकती है (मैं यह मान रहा हूं कि यदि यह आपका मूल काम है तो आपने इसे औपचारिक रूप से एक पत्रिका में प्रकाशित किया है)?
सुभकॉम

10

सबसे पहले, मेरा सुझाव पूरी तरह से सहज ज्ञान युक्त है: मुझे पैटर्न मान्यता क्षेत्र में कुछ भी नहीं पता है। दूसरा, मेरे जैसे वैकल्पिक दर्जनों सुझाव दिए जा सकते हैं।

मैं इस विचार के साथ शुरू करता हूं कि एक नियमित कॉन्फ़िगरेशन (जो कि कम एन्ट्रॉपी के साथ है) किसी तरह सममित, समद्विबाहु होना चाहिए या इसके ट्रांसफॉर्मर। उदाहरण के लिए, घुमावों में।

आप मूल मैट्रिक्स के साथ कॉन्फ़िगरेशन कॉनुर तक अपने मैट्रिक्स को घुमा सकते हैं (180 डिग्री, 180 डिग्री, आदि से फ्लिप) । यह हमेशा 4 घुमावों (360 डिग्री) पर पहुंचेगा, लेकिन कभी-कभी यह पहले भी घूम सकता है (जैसे चित्र में मैट्रिक्स E)।

प्रत्येक घुमाव पर, मूल विन्यास और घुमाए गए के बीच समान मूल्यों के साथ कोशिकाओं की संख्या की गणना करें। उदाहरण के लिए, यदि आप मूल मैट्रिक्स A की तुलना उसके 90 डिग्री के रोटेशन के साथ करेंगे तो आपको 10 कोशिकाएँ मिलेंगी जहाँ एक मैट्रिक्स में स्पॉट और दूसरे मैट्रिक्स में रिक्त है। फिर मूल मैट्रिक्स की 180 डिग्री की रोटेशन के साथ तुलना करें: 11 ऐसी कोशिकाएं मिलेंगी। 10 कोशिकाएं मूल मैट्रिक्स और इसके 270 डिग्री के रोटेशन के बीच विसंगति है । 10 + 11 + 10 = 31 मैट्रिक्स का समग्र "एन्ट्रापी" है ।

मैट्रिक्स बी के लिए "एन्ट्रॉपी" 20 है, और मैट्रिक्स ई के लिए यह केवल 12 है। मेट्रिसेस सी और डी के लिए "एन्ट्रॉपी" 0 है क्योंकि 90 डिग्री के बाद घुमाव बंद हो जाते हैं: आइसोमोर्फिज्म पहले से ही प्राप्त हो गया है।

यहाँ छवि विवरण दर्ज करें


तुम्हारे सुझाव के लिए धन्यवाद! हालांकि मैं कई "आसान" डिस्प्ले के बारे में सोच सकता था जो एक रोटेशन परिवर्तन के लिए अपरिवर्तनीय नहीं हैं, यह एक अच्छा और आसान (और विस्तार योग्य!) दृष्टिकोण है। मुझे यह सोचना है कि मैं किस प्रकार के परिवर्तन करना चाहूंगा। और मुझे प्रत्येक परिवर्तन में गिनती अंक के आपके दृष्टिकोण को पसंद है।
फेलिक्स एस

सराहना के लिए धन्यवाद। लेकिन दृष्टिकोण सिर्फ एक प्रारंभिक ठूंठ है, एक सामान्य विचार है, और आप सही कह रहे हैं कि यह विस्तार योग्य है।
ttnphns

मुझे आपका दृष्टिकोण पसंद है। हालाँकि, अधिक सामान्य उत्तर प्राप्त करने के लिए यह थोड़ा बड़ा समरूपता समूह - पहचान, 3 घुमाव और 4 प्रतिबिंब (जैसे , en.wikipedia.org/wiki/Dihedral_group ) लेने के लायक हो सकता है । फिर सभी जोड़े (यानी ) और यादृच्छिकता , जहां के बीच अंतर के रूप में ( ) की गणना करें , जहां काले पत्थरों की संख्या है। विशुद्ध रूप से यादृच्छिक आकृतियों के लिए प्राप्त करना चाहिए , जबकि बहुत ही सममित । अच्छी बात यह है कि लिए सूत्र बोर्ड पर विभिन्न संख्या में पत्थरों के लिए है और बीडब्ल्यू समरूपता है। D4d87r=k187252n(25n))nr1r0r
पियोत्र मिग्डाल

Overcomplicating के लिए क्षमा करें। यह मूल पैटर्न की पहचान करने के लिए समरूपताओं के साथ तुलना करने के लिए पर्याप्त है । फिर सामान्य कारक में है के बजाय । 7778
पियोट्र मिगडाल

5

जानकारी को आमतौर पर रूप में परिभाषित किया जाता है । यह बताते हुए कुछ अच्छा सिद्धांत है कि बिट्स की मात्रा है जो आपको का उपयोग करके कोड आवश्यकता है । यदि आप इसके बारे में अधिक जानना चाहते हैं तो अंकगणित कोडिंग पर पढ़ें ।h(x)=logp(x)log2p(x)xp

तो यह आपकी समस्या को कैसे हल कर सकता है? आसान। कुछ ढूंढें जो आपके डेटा का प्रतिनिधित्व करते हैं और उपयोग करते हैं जहां एक नया नमूना है जो आश्चर्य का एक उपाय है या इसे मुठभेड़ की जानकारी है।plogp(x)x

मुश्किल बात यह है कि लिए कुछ मॉडल खोजने के लिए और अपने डेटा को उत्पन्न करने के लिए। हो सकता है कि आप एक एल्गोरिथ्म के साथ आ सकते हैं जो मैट्रिस उत्पन्न करता है जिसे आप 'संभावित' मानते हैं।p

फिटिंग लिए कुछ विचार ।p

  1. यदि आप केवल 5x5 मैट्रिसेस को देख रहे हैं , तो आपको सभी संभावित मैट्रिसेस को स्टोर करने के लिए केवल बिट्स की आवश्यकता है , ताकि आप बस उन सभी को एन्यूमरेट कर सकें और प्रत्येक को एक निश्चित संभावना प्रदान कर सकें।225
  2. अपने डेटा को फिट करने के लिए एक प्रतिबंधित बोल्ट्ज़मन मशीन का उपयोग करें (तब आपको सूचना के विकल्प के रूप में मुफ्त ऊर्जा का उपयोग करना होगा, लेकिन ठीक है,
  3. ज़िप के विकल्प के रूप में उपयोग करें और ऊपर से पूरी संभावना कहानी के बारे में परवाह न करें। यह औपचारिक रूप से भी ठीक है, क्योंकि आप कोलमोगोरोव जटिलता के सन्निकटन के रूप में जिप का उपयोग करते हैं और यह जानकारी सिद्धांतकारों द्वारा किया गया है और साथ ही सामान्यीकृत संपीड़न दूरी के लिए अग्रणी है ,logp(x)
  4. शायद स्थानिक पूर्व मान्यताओं को शामिल करने और स्थानीय स्तर पर बर्नौली चर का उपयोग करने के लिए एक चित्रमय मॉडल का उपयोग करें।
  5. ट्रांसलेशनल इनवेरियन को एनकोड करने के लिए, आप एक कंसॉल्यूशन नेटवर्क का उपयोग करके एनर्जी आधारित मॉडल का उपयोग कर सकते हैं ।

उपरोक्त विचारों में से कुछ काफी भारी हैं और मशीन सीखने से आते हैं। यदि आप आगे की सलाह चाहते हैं, तो टिप्पणियों का उपयोग करें।


जाहिर है, कोलमोगोरोव एन्ट्रापी एक दार्शनिक अर्थ में सबसे अच्छा दृष्टिकोण है, यदि आप "अमूर्त पैटर्न सादगी" के बारे में सोचते हैं और आप यह अनुमान लगाने की कोशिश नहीं कर रहे हैं कि यह मानव मस्तिष्क के लिए कितना सरल होगा। यह बस एन्ट्रापी को "सबसे छोटे कार्यक्रम की लंबाई जो उस पैटर्न का उत्पादन कर सकता है" के रूप में बताता है। बेशक, आपको अभी भी कंप्यूटर भाषा को निर्दिष्ट करने की आवश्यकता है, लेकिन आप अभी भी एक अमूर्त ट्यूरिंग मशीन पर चाल खेलने के लिए भरोसा कर सकते हैं।
जेवियर रोड्रिगेज लगुना

प्रोग्रामिंग भाषा वास्तव में महत्वपूर्ण नहीं है। भाषा ए से भाषा बी तक संकलित कार्यक्रम का एक अतिरिक्त हिस्सा एक निरंतर बिट वृद्धि (संकलक) ले जाएगा और इस प्रकार उपेक्षित किया जा सकता है।
15

4

मेरे निम्नलिखित प्रस्ताव को कम करने के बजाय अंतर्दृष्टि दी गई है, इसलिए मैं इसे साबित नहीं कर सकता, लेकिन कम से कम कुछ तर्क दे सकता हूं। स्पॉट के विन्यास के "एन्ट्रॉपी" के आकलन की प्रक्रिया में शामिल हैं:

  1. धब्बों को डिजिटाइज़ करें।
  2. ऑर्थोगोनल प्रोक्रिजेस विश्लेषण द्वारा, कई बार अनुमति के साथ कॉन्फ़िगरेशन की तुलना करें ।
  3. तुलना के प्लॉट परिणाम (पहचान गुणांक) और भूखंड की दांतेदारता का आकलन करते हैं।

डिजिटाइज़ स्पॉट , यानी उनके निर्देशांक लें। उदाहरण के लिए, नीचे क्रमांकित स्पॉट के साथ आपका कॉन्फ़िगरेशन डी है (क्रम क्रम मनमाना हो सकता है) और उनके निर्देशांक। यहाँ छवि विवरण दर्ज करें

spot x   y
1   1   1
2   3   1
3   5   1
4   2   2
5   4   2
6   1   3
7   3   3
8   5   3
9   2   4
10  4   4
11  1   5
12  3   5
13  5   5

क्रमपरिवर्तन करें और Procrustes विश्लेषण करें। परमिट स्पॉट (डेटा में पंक्तियाँ) बेतरतीब ढंग से करते हैं और परमिट किए गए व्यक्ति के साथ मूल (अनुमत नहीं) डेटा की तुलना में Procrustes करते हैं; पहचान गुणांक (दो विन्यासों की समानता का माप, विश्लेषण द्वारा आउटपुट) रिकॉर्ड करें । दोहराव क्रम-निर्धारण - गुणांक - गुणांक को सहेजना, कई बार (जैसे 1000 बार या अधिक)।

एक नियमित संरचना पर उपरोक्त ऑपरेशन के बाद प्राप्त पहचान गुणांक (आईडीसी) से हम क्या इंतजार कर सकते हैं ?उदाहरण के लिए उपरोक्त विन्यास डी पर विचार करें। यदि हम स्वयं के साथ निर्धारित मूल निर्देशांक की तुलना करते हैं, तो हमें निश्चित रूप से IDc = 1 मिलेगा। लेकिन अगर हम मूल सेट और अनुमत के बीच कुछ स्पॉट्स की अनुमति देते हैं, तो नीचे दिए गए कुछ मूल्य होंगे। आइए हम परमिट करते हैं, उदाहरण के लिए, स्पॉट की एक जोड़ी, 1 और 4. IDc = .964 लेबल। अब, इसके बजाय, स्पॉट 3 और 5 को अनुमति दें। दिलचस्प बात यह है कि आईडीसी फिर से होगा। एक ही मूल्य, क्यों? स्पॉट 3 और 5 1 और 4 के सममित हैं, ताकि 90 डिग्री तक रोटेशन उन्हें सुपरपोज करें। Procrustes की तुलना घूर्णन या परावर्तन के प्रति असंवेदनशील है, और इस प्रकार 1-4 के भीतर युग्मन के लिए क्रमबद्धता "5-3" जोड़ी के रूप में क्रमचय के रूप में "समान" है, इसके लिए। अधिक उदाहरण जोड़ने के लिए, यदि आप सिर्फ 4 और 7 स्पॉट की अनुमति देते हैं, तो IDc फिर से होगा। ऐसा प्रतीत होता है कि प्रोक्रेसी के लिए, जोड़ी 4-7 के भीतर क्रमचय "वही" है उपरोक्त दो के रूप में कि यह समानता की समान डिग्री देता है (जैसा कि आईडीसी द्वारा मापा जाता है)। जाहिर है, यह सब इसलिए है क्योंकि कॉन्फ़िगरेशन डी नियमित है।एक नियमित कॉन्फ़िगरेशन के लिए हम अपने क्रमपरिवर्तन / तुलना प्रयोग में IDc के बजाय असतत मूल्यों को प्राप्त करने की उम्मीद करते हैं; अनियमित विन्यास के लिए हम उम्मीद करते हैं कि मूल्य निरंतर बने रहेंगे।

दर्ज आईडीसी मूल्यों को प्लॉट करें। उदाहरण के लिए, मानों को क्रमबद्ध करें और लाइन-प्लॉट बनाएं। मैंने प्रयोग किया - 5000 क्रमोन्नति - आपके प्रत्येक विन्यास A, B (दोनों काफी अनियमित), D, E (दोनों नियमित) और यहाँ लाइन-प्लॉट के साथ:

यहाँ छवि विवरण दर्ज करें

ध्यान दें कि कितना अधिक दांतेदार रेखाएं हैं डी और ई (विशेष रूप से)। इसका कारण मूल्यों की असंगति है। ए और बी के लिए मूल्य बहुत अधिक निरंतर हैं। आप अपने आप को किसी प्रकार का आँकड़ा चुन सकते हैं जो साजिश रचने के बजाय असावधानी / निरंतरता की डिग्री का अनुमान लगाता है। A, B से अधिक निरंतर नहीं लगता है (आपके लिए, कॉन्फ़िगरेशन A कुछ कम नियमित है, लेकिन मेरी लाइन-प्लॉट इसे प्रदर्शित नहीं करती है) या, यदि नहीं, तो शायद IDc मानों का एक और पैटर्न दिखाई देता है। क्या एक और पैटर्न? यह मेरे उत्तर के दायरे से परे है। बड़ा सवाल यह है कि क्या ए वास्तव में बी की तुलना में कम नियमित है: यह आपकी आंख के लिए हो सकता है, लेकिन जरूरी नहीं कि प्रोक्रेसी विश्लेषण या किसी अन्य व्यक्ति की आंख के लिए।

वैसे, पूरे क्रमपरिवर्तन / प्रोक्रेस्ट्स प्रयोग मैंने बहुत जल्दी किया। मैंने SPSS के लिए अपने स्वयं के Procrustes विश्लेषण मैक्रो का उपयोग किया (अपने वेब-पेज पर पाया) और क्रमपरिवर्तन करने के लिए कोड की कुछ पंक्तियों को जोड़ दिया।


3

पारस्परिक जानकारी, प्रत्येक आयाम को एक यादृच्छिक चर के रूप में देखते हुए, इस प्रकार प्रत्येक मैट्रिक्स को संख्याओं के जोड़े के रूप में सी के अलावा सभी मामलों में मदद करनी चाहिए, जहां मुझे परिणाम का यकीन नहीं है।

TMVA मैनुअल या इसी arxiv प्रविष्टि में प्रतिगमन प्रदर्शन विश्लेषण पर अंजीर 8 (p24 में शुरू) के आसपास चर्चा देखें ।

विभिन्न वितरणों के लिए अलग-अलग मीट्रिक


लिंक किए गए दस्तावेज़ को खोलने में मुझे समस्याएं हैं।
ttnphns

एक वैकल्पिक लिंक जोड़ा गया। लेकिन पहले वाला मेरे लिए काम करता है (बस परीक्षण किया गया)।
adavid

3

पैटर्न के वैश्विक गुणों (जैसे समरूपता) को देखने के बजाय, कोई भी स्थानीय लोगों पर एक नज़र डाल सकता है, जैसे प्रत्येक पत्थर (= काला सर्कल) में पड़ोसियों की संख्या। के द्वारा पत्थर की कुल संख्या दिखाता है ।s

यदि पत्थरों को जहां यादृच्छिक रूप से फेंका जाता है, तो पड़ोसियों का वितरण जहां पत्थरों का घनत्व है। स्थानों की संख्या बात पर निर्भर करती है कि कोई पत्थर अंदर ( ), किनारे पर ( ) या कोने ।

Prand,p(k neighbors|n places)=(nk)pk(1p)nk,
p=s/25nn=8n=5(n=3)

यह स्पष्ट रूप से दिखाई देता है, कि सी) , डी) और ई) में पड़ोसियों का वितरण यादृच्छिक से दूर है। उदाहरण के लिए, D के लिए) सभी आंतरिक पत्थरों में ठीक पड़ोसी हैं (यादृच्छिक वितरण के विरोध में, जो में पैदावार देता है) मापा के बजाय )।4(0%,2%,9%,20%,27%,24%,13%,4%,0%)(0%,0%,0%,0%,100%,0%,0%,0%,0%)

इसलिए यह निर्धारित करने के लिए कि यदि कोई पैटर्न यादृच्छिक है, तो आपको उसके पड़ोसी वितरण की तुलना करना होगा और इसकी तुलना एक यादृच्छिक करनी होगी । उदाहरण के लिए आप उनके साधन और प्रकार की तुलना कर सकते हैं।Pmeasured(k|n)Prand,p(k|n)

वैकल्पिक रूप से, कोई फ़ंक्शन रिक्त स्थान में अपनी दूरी को माप सकता है, जैसे: जहां साथ बिंदुओं का मापा अनुपात है आसन्न रिक्त स्थान और एक यादृच्छिक पैटर्न, यानी , और ।

n={3,5,8}k=0n[Pmeasured(k|n)Pmeasured(n)Prand,p(k|n)Prand,p(n)]2,
Pmeasured(n)nPrand,p(n)Prand,p(3)=4/25Prand,p(5)=12/25Prand,p(8)=9/25

2

सूचना सामग्री को अवधारणा के लिए वास्तव में सरल तरीका है जो पाठ स्ट्रिंग के कम से कम निरर्थक प्रतिनिधित्व को खोजने के लिए संभावनाओं और संक्रमण संभावनाओं का उपयोग करके शैनन के (आमतौर पर एक आयामी) विचार को वापस करता है। एक छवि के लिए (इस विशेष मामले में एक द्विआधारी छवि को एक वर्ग मैट्रिक्स पर परिभाषित किया गया है) हम एक्स और वाई डेरिवेटिव (-1,0, + 1) के ज्ञान से विशिष्ट रूप से पुनर्निर्माण कर सकते हैं। हम एक 3x3 संक्रमण संभावना और एक वैश्विक संभावना घनत्व फ़ंक्शन को भी परिभाषित कर सकते हैं, 3x3। शैनन की जानकारी तब 3x3 पर लागू क्लासिक लॉगरिदमिक योग सूत्र से प्राप्त की जाती है। यह एक दूसरा आदेश है शैनन सूचना माप और अच्छी तरह से 3x3 पीडीएफ में स्थानिक संरचना को कैप्चर करता है।

2 से अधिक (बाइनरी) स्तरों के साथ स्केल छवियों पर लागू होने पर यह दृष्टिकोण अधिक सहज है, अधिक जानकारी के लिए https://arxiv.org/abs/1609.01117 देखें।


1

इसे पढ़ने में, दो बातें दिमाग में आती हैं। पहला यह है कि बहुत सारे जेस्टाल्ट गुण भविष्यवाणी करने के लिए काफी चुनौतीपूर्ण हैं, और पीएचडी स्तर का बहुत सारा काम मॉडल में यह पता लगाने की कोशिश में जाता है कि समूह कैसे होते हैं। मेरी वृत्ति यह है कि सबसे आसान नियम जो आप सोच सकते हैं कि काउंटर उदाहरणों के साथ समाप्त हो जाएंगे।

यदि आप अभी के लिए जेस्टाल्ट ग्रुपिंग के विवरण को अलग रख सकते हैं, तो मुझे लगता है कि एक छवि के विशेष मामले के रूप में आपके इनपुट के बारे में सोचना एक सहायक अमूर्तता है। कंप्यूटर विज़न में बहुत सारे एल्गोरिदम होते हैं, जो एक छवि के लिए एक हस्ताक्षर प्रदान करने का उद्देश्य होते हैं, जो सुविधाओं के एक सेट के आधार पर होता है, जो कि पैमाने पर अपरिवर्तनीय और सुविधा अयोग्य होते हैं। मुझे लगता है कि सबसे अच्छी तरह से ज्ञात SIFT विशेषताएं हैं:

http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

मूल रूप से आपका आउटपुट एक नया वेक्टर होगा जो इन सुविधाओं के लिए भार देता है। आप इस वेक्टर का उपयोग कर सकते हैं और या तो इसके लिए एक अनुमान लागू कर सकते हैं (आदर्श, शायद खोजें) और आशा करते हैं कि यह वर्णन करता है कि आप क्या देख रहे हैं। वैकल्पिक रूप से, आप फीचर वेक्टर को इनपुट के रूप में लेने के लिए एक क्लासिफायरियर ट्रेन कर सकते हैं और यह बता सकते हैं कि इसकी 'एन्ट्रोपी' की आपकी धारणा क्या है। इसका उल्टा यह है कि यह उपयुक्त SIFT सुविधाओं का उपयोग करेगा (जो निश्चित रूप से आपकी समस्या के लिए ओवरकिल है) और कुछ प्रकार के मानचित्रण का निर्माण करेंगे जो बहुत अच्छी तरह से उपयुक्त हो सकते हैं। नकारात्मक पक्ष यह है कि आपको अपने आप को लेबल करने में बहुत कुछ करना पड़ता है, और आपको जो भी व्याख्या करना मुश्किल हो सकता है, वह आपके द्वारा उपयोग किए जाने वाले क्लासिफायर पर निर्भर करता है।

मुझे आशा है कि यह मददगार है! बहुत सारे पारंपरिक कंप्यूटर दृष्टि एल्गोरिदम आपके लिए यहां उपयुक्त हो सकते हैं - उस पोर्टल में विकिपीडिया के माध्यम से एक त्वरित ब्राउज़ आपको कुछ अतिरिक्त जानकारी दे सकता है।


0

आपके उदाहरण मुझे बूलियन बीजगणित और डिजिटल सर्किट से सत्य तालिकाओं की याद दिलाते हैं। इस दायरे में, कर्णघ मानचित्र (http://en.wikipedia.org/wiki/Karnaugh_map) पूरे ग्रिड को व्यक्त करने के लिए न्यूनतम बूलियन फ़ंक्शन प्रदान करने के लिए एक उपकरण के रूप में उपयोग किया जा सकता है। वैकल्पिक रूप से, बूलियन बीजगणित पहचान का उपयोग करके फ़ंक्शन को उसके न्यूनतम रूप में कम करने में मदद मिल सकती है। न्यूनतम बूलियन फ़ंक्शन में शब्दों की संख्या की गणना आपके एन्ट्रापी उपाय के रूप में की जा सकती है। यह आपको आसन्न पड़ोसियों को संपीड़ित करने के साथ ऊर्ध्वाधर और क्षैतिज समरूपता देता है, लेकिन विकर्ण समरूपता का अभाव है।

बूलियन बीजगणित का उपयोग करना, दोनों कुल्हाड़ियों को लेबल किया जाता है AE ऊपरी बाएं कोने से शुरू होता है। इस तरीके से, उदाहरण C, बूलियन फ़ंक्शन के लिए मैप करेगा (! A! E)। अन्य उदाहरणों के लिए, कुल्हाड़ियों को अलग से लेबल करने की आवश्यकता होगी (यानी AE, FJ)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.