एक छवि में पिक्सेल को वर्गीकृत करने के लिए एक बुनियादी मार्कोव रैंडम फील्ड का प्रशिक्षण


16

मैं यह सीखने का प्रयास कर रहा हूं कि एक छवि में खंड क्षेत्रों के लिए मार्कोव यादृच्छिक फ़ील्ड का उपयोग कैसे करें। मुझे एमआरएफ में कुछ मापदंडों की समझ नहीं है या मैं जो अपेक्षा अधिकतम करता हूं वह कभी-कभी किसी समाधान में बदलने में विफल रहता है।

बेयस प्रमेय से शुरू होकर, मेरे पास , जहाँ पिक्सेल का ग्रे-स्केल मान है और एक वर्ग लेबल है। मैंने लिए एक गाऊसी वितरण का उपयोग करने के लिए चुना है , जबकि को MRF का उपयोग करके बनाया गया है।y x p ( y | x ) p ( x )p(x|y)=p(y|x)p(x)/p(y)yxp(y|x)p(x)

मैं MRF के लिए एक संभावित फ़ंक्शन का उपयोग करता हूं, जिसमें जोड़ीदार क्लिक क्षमता और पिक्सेल के क्लास लेबल के लिए संभावित मान दोनों वर्गीकृत किए जा रहे हैं। एकल पिक्सेल संभावित मान कुछ स्थिर जो वर्ग लेबल पर निर्भर करता है । 4-जुड़े पड़ोसियों के लिए जोड़ीदार संभावित कार्यों का मूल्यांकन किया जाता है और यदि पॉजिटिव इस में लेबल और भिन्न होने पर पड़ोसी के समान ही लेबल है, तो सकारात्मक लौटाएं ।x β - βαxββ

उम्मीद के अधिकतमकरण के बिंदु पर जहां मुझे और के मानों को ढूंढना है जो लॉग-लाइबिलिटी के अपेक्षित मूल्य को अधिकतम करते हैं मैंने एक संख्यात्मक अनुकूलन विधि का उपयोग किया (संयुग्म ढाल, BFGS, पॉवेल की विधि) की कोशिश की, लेकिन हमेशा पाया जाएगा कि का मान ऋणात्मक हो जाएगा, s नाटकीय रूप से बढ़ेगा और एक पुनरावृत्ति या दो बाद में पूरी छवि केवल एक लेबल को सौंपी जाएगी (पृष्ठभूमि: ICF का उपयोग करके दिए गए MRF पैरामीटर दिए गए वर्ग लेबल असाइन करना) । यदि मैंने अल्फाजों को हटा दिया, यानी केवल जोड़ीदार क्लिक क्षमता का उपयोग किया, तो उम्मीद अधिकतमकरण ठीक काम करेगा।β β αα(x)ββα

कृपया बताएं कि प्रत्येक वर्ग के लिए अल्फाजों का उद्देश्य क्या है? मुझे लगा कि वे उस वर्ग की राशि से संबंधित होंगे जो छवि में मौजूद है, लेकिन ऐसा नहीं है। एक बार जब मैंने एमआरएफ को केवल जोड़ीदार क्षमता के साथ काम किया, तो मैंने इसकी तुलना सीधे फॉरवर्ड गॉसियन मिक्सचर मॉडल से की और पाया कि उन्होंने लगभग समान परिणाम तैयार किए हैं। मैं वर्गों को थोड़ा बाहर निकालने के लिए जोड़ीदार क्षमता की उम्मीद कर रहा था, लेकिन ऐसा नहीं हुआ। कृपया सलाह दें कि मैं कहाँ गलत हो गया।


बस जिज्ञासु, आपने अप्रत्यक्ष ग्राफ़ मॉडल क्यों चुना?

मेरे आवेदन में, पिक्सेल गणना और पड़ोसी पिक्सेल के ग्रे-स्केल मूल्य में एक ही वर्ग लेबल होने की अधिक संभावना है, लेकिन प्रत्येक जोड़ीदार क्लिक्स के लिए एक अलग बीटा का उपयोग करने का कोई कारण नहीं है। मुझे आशा है कि मैंने आपके प्रश्न को ठीक से समझा।
चिप्पी

1
लगातार अक्षत लेबल पर पूर्व वितरण को मॉडल करने के उद्देश्य से काम करते हैं। जैसा कि आप चाहते हैं, सही अल्फ़ाज़ उन लेबलों को सुपरमिज़ करने की संभावना रखते हैं जो प्रशिक्षण सेट में अधिक बार सामना किए जाते हैं। यदि आपका मॉडल उनके बिना अच्छा काम करता है, तो आप उन्हें मॉडल से क्यों नहीं छोड़ते? आपका विवरण इस बात का जवाब देने के लिए पर्याप्त नहीं है कि अल्फाज क्यों बढ़ेंगे और सब कुछ खराब कर देंगे, लेकिन आपको शायद नियमितीकरण की आवश्यकता है। मॉडल के लिए अल्फा पर गाऊसी पहले जोड़ने के लिए, यानी जोड़ने के लिए प्रयास करें लॉग-पीछे करने के लिए, यह शायद overfitting रोका जा सके। λα2
रोमन शापोवालोव

आपके प्रश्न से क्या स्पष्ट नहीं है: 1) क्या आपकी संभावना p (y | x) पिक्सेल पर विघटित है, इसलिए आप प्रत्येक के लिए 1D गौसियन का उपयोग करते हैं? 2) ईएम (आपने लॉग-लाइक का उल्लेख किया है, लेकिन आप पहले मॉडलिंग के लिए एमआरएफ का उपयोग करते हैं) क्या सटीक उद्देश्य है? 3) क्या आप लघुगणक डोमेन में क्षमता को परिभाषित करते हैं? बढ़ते बीटा का मतलब है P (x), या ऊर्जा को बढ़ाना, जो -log P (x), या नकारात्मक ऊर्जा है? 4) क्या आप वास्तव में इस तरह के पतले अल्फ़ाज़ सेट करके EM उद्देश्य को कम करने का प्रबंधन करते हैं, या अनुकूलन विफल रहता है?
रोमन शापोवालोव

लूप विश्वास के प्रचार के बारे में क्या?
वुल्फसाथेदूर 16

जवाबों:


1

निदान

यह एक प्रारंभिक समस्या की तरह लगता है।

एमआरएफ मॉडल जो आप उपयोग कर रहे हैं वह गैर-उत्तल है और, जैसे कि कई स्थानीय मिनीमा है। जहाँ तक मुझे पता है, सभी मौजूदा अनुकूलन तकनीकें आरंभीकरण के प्रति संवेदनशील हैं, जिसका अर्थ है कि अंतिम समाधान की गुणवत्ता अत्यधिक प्रभावित होती है जहाँ से आप अनुकूलन प्रक्रिया शुरू करते हैं।

सुझाया हुआ समाधान

मेरा सुझाव है कि मॉडल को शुरू करने के लिए विभिन्न रणनीतियों की कोशिश करना। उदाहरण के लिए, मेरे दिमाग में आने वाली एक रणनीति निम्नलिखित है:

  1. पहले लिए एक मॉडल को प्रशिक्षित करें और अब के लिए पूर्व शब्द को अनदेखा करें; वह यह है कि ठीक पी ( एक्स ) सेटिंग से, उदाहरण के लिए, के समान होने की α = β = 0 और उन्हें ध्यान में रखते हुए तय की । यदि आप कट्टर होना चाहते हैं, तो आप p ( x ) को एक उत्परिवर्तजन वितरण के लिए ठीक कर सकते हैं जो प्रशिक्षण सेट में लेबल की सापेक्ष आवृत्तियों का प्रतिनिधित्व करता है। आप α मूल्यों को उचित रूप से सेट करके ऐसा कर सकते हैं ।पी(y|एक्स) पी(एक्स)α=β=0 पी(एक्स)α

  2. MRF मॉडल में संयुक्त और युग्मित शब्दों को अनफ्रीज करें; वह है, अपने अनुकूलक को और optim का मान बदलने दें ।αβ

सुझाया गया आरंभीकरण, किसी भी तरह से, आपके अनुकूलन को इनिशियलाइज़ करने का सबसे अच्छा तरीका है, बल्कि केवल एक संभव विकल्प है।

अंत में, जैसा कि रोमन शापोवालोव ने सुझाव दिया था, आप अपने पूर्व मापदंडों को नियमित करने पर विचार कर सकते हैं; उदाहरण के लिए, उन पर एक गाऊसी डालने से पहले: जहां λ अल्फा और λ बीटा अति मापदंडों गाऊसी महंतों के प्रसरण के रूप में व्याख्या की जा सकती है कि कर रहे हैं।λα||α||2+λβ||β||2λαλβ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.