छवि प्रसंस्करण में दृढ़ विश्वास के लिए अंतर्ज्ञान


9

मैंने इमेज प्रोसेसिंग में कनवल्शन के बारे में कई दस्तावेज पढ़े हैं , और उनमें से अधिकांश इसके सूत्र, कुछ अतिरिक्त मापदंडों के बारे में कहते हैं। कोई भी एक छवि पर दृढ़ विश्वास करने के पीछे अंतर्ज्ञान और वास्तविक अर्थ की व्याख्या नहीं करता है। उदाहरण के लिए, ग्राफ़ पर व्युत्पत्ति का अंतर्ज्ञान उदाहरण के लिए इसे अधिक रैखिक बनाता है।

मुझे लगता है कि परिभाषा का एक त्वरित सारांश यह है: छवि और कर्नेल के बीच आक्षेप को कई गुना ओवरलैप किया जाता है, उसके बाद फिर से योग और लंगर में डाल दिया जाता है। और यह मेरे साथ कोई मतलब नहीं है।

सजा के बारे में इस लेख के अनुसार, मैं कल्पना नहीं कर सकता कि सजा कुछ "अविश्वसनीय" चीजें क्यों कर सकता है। उदाहरण के लिए, इस लिंक के अंतिम पृष्ठ पर लाइन और एज डिटेक्शन। बस उपयुक्त कनवल्शन चुनें कर्नेल अच्छा प्रभाव (रेखा का पता लगाने या बढ़त का पता लगाने) कर सकते हैं।

किसी को कुछ अंतर्ज्ञान प्रदान कर सकते हैं (एक साफ सबूत होने की आवश्यकता नहीं है) यह कैसे कर सकता है?

जवाबों:


13

मुझे लगता है कि कन्वोकेशन के बारे में सोचने का सबसे सरल तरीका पिक्सेल के मूल्य को पास के पिक्सल के वजन के आधार पर एक नए मूल्य में बदलने का एक तरीका है।

यह देखना आसान है कि बॉक्स ब्लर क्यों:

_____________
|1/9|1/9|1/9|
|1/9|1/9|1/9|
|1/9|1/9|1/9|
-------------

काम करता है। इस कर्नेल को हल करना एक तस्वीर के प्रत्येक पिक्सेल के माध्यम से जाने और पिक्सेल के नए मूल्य को खुद के औसत और आठ पिक्सेल के बराबर बनाने के समान है।

यदि आपको ऐसा लगता है, तो आप देख सकते हैं कि गॉसियन ब्लर क्यों काम करता है:

_____________________
|.01|.04|.07|.04|.01|
|.04|.16|.26|.16|.04|
|.07|.26|.41|.26|.07|
|.04|.16|.26|.16|.04|
|.01|.04|.07|.04|.01|
---------------------

यह मूल रूप से एक ही चीज है, औसत को छोड़कर पिक्सल के करीब दृढ़ता से भारित होता है जो करीब हैं। फ़ंक्शन जो परिभाषित करता है कि आप कितनी तेजी से वज़न घटाते हैं क्योंकि आप आगे बढ़ते हैं गॉसियन फंक्शन , लेकिन आपको इसे धुंधला करने के लिए उपयोग करने के लिए फ़ंक्शन के विवरण को जानने की आवश्यकता नहीं है।

यदि आप इसे बहुत लंबे समय तक घूरते हैं, तो लिंक किए गए लेख में किनारे का पता लगाने से समझ में आता है:

__________
|-1|-1|-1|
|-1|.8|-1|
|-1|-1|-1|
----------

यह मूल रूप से कह रहा है कि किसी भी पिक्सेल का मूल्य मूल मूल्य के 8/9 वें भाग से शुरू होता है। फिर आप अपने नए पिक्सेल पर आने के लिए इसके चारों ओर के प्रत्येक पिक्सेल के मूल्यों को घटाते हैं।

इसलिए यदि किसी पिक्सेल का मूल्य अधिक है और उसके आसपास के पिक्सेल का मूल्य बहुत अधिक है, तो वे एक दूसरे को रद्द कर देंगे। यदि पिक्सेल का मूल्य कम है और इसके आसपास के सभी पिक्सेल कम हैं, तो वे एक दूसरे को भी रद्द कर देंगे। यदि पिक्सेल का मूल्य अधिक है और इसके चारों ओर पिक्सेल का मूल्य कम है (जैसे कि किसी वस्तु के किनारे पर पिक्सेल में) तो नया पिक्सेल मूल्य अधिक होगा।


6

कनवल्शन / क्रॉसकोरेल्टेशन के बारे में सोचने का एक तरीका यह है कि क्या आप अपने डेटा में कुछ सिग्नल खोज रहे हैं। जितना अधिक डेटा कर्नेल की तरह दिखाई देगा, उतना ही अधिक परिणामी मूल्य होगा। मैं वास्तव में कर्नेल के विपरीत ले जाता हूं, जैसे कि क्रॉस-सहसंबंध में, लेकिन यह मूल रूप से एक ही बात है।

उदाहरण के लिए, मान लें कि आप अपने 1 डी डेटा में एक दिशात्मक कदम की तलाश कर रहे हैं।

गिरी हो सकता है

[-1 1]

और डेटा पर लागू होते हैं

[2 2 2 2 2 1 1 1 1 1]

परिणाम होगा

[0 0 0 0 0 1 0 0 0 0]

जो कदम के स्थान का पता लगाता है। एक बड़ा कदम एक बड़ा मूल्य देगा।

यह काम करता है क्योंकि जब आप कर्नेल में प्रदर्शित होने वाले एक पैटर्न को गुणा करते हैं तो आपको एक उच्च मूल्य मिलता है।

एज डिटेक्शन (या कोई अन्य पैटर्न डिटेक्शन) उसी तरह काम करता है, उदाहरण के लिए कर्नेल के साथ

[-1 2 -1]

यदि इस तरह से उच्च आयामों के विस्तार पर भी विचार किया जा सकता है।

यह आपको कम से कम कनवल्शन इमेज प्रोसेसिंग के कुछ अनुप्रयोगों के बारे में जानकारी देनी चाहिए।


4

यदि आपको लगता है कि दृढ़ संकल्प को समझना थोड़ा कठिन है, तो मैं आपको इमेज प्रोसेसिंग के लिए लागू गणितीय आकृति विज्ञान के बारे में खोज शुरू करने की सलाह देता हूं, गणितीय रूप से आकृति विज्ञान के पीछे बड़ा विचार यह है कि आप "ऑपरेशन" को बदलने के लिए, कन्वर्जन के बहुत करीब एक ऑपरेशन करेंगे। छवि की आकृति विज्ञान, लेकिन टोपोलॉजी की जानकारी को बनाए रखें, इस तरह, आप एक खड़े मानव, एक कंकाल, जो कि बहुत ज्यादा छड़ी वाला इंसान है, की छवि बना सकते हैं, कटाव ऑपरेशन को लागू करने की कोशिश करें, फिर ऑपरेशन को पतला करें, फिर खुले में जाएं / करीबी ऑपरेशन, आप यह समझना शुरू कर देंगे कि प्रत्येक पिक्सेल छवि के लिए लागू किया गया मुखौटा क्या कर सकता है, और महान परिणामों को प्राप्त करने के लिए उन्हें एक बड़े परिदृश्य में कैसे उपयोग किया जा सकता है (जैसे कि पिछले क्षरण का उपयोग करके कुछ शुरू करने के लिए एक स्थान खोजना) आप गणितीय आकृति विज्ञान को समझते हैं, दृढ़ संकल्प थोड़ा कठिन है,क्योंकि यह पथरी पर आधारित है, और एकीकृत होने के बाद भी परिभाषित किया गया है, लेकिन फिर भी, बहुत से समझ में आना आसान है, जैसे कि मीडियन ब्लर, गॉसियन ब्लर, शार्पन, एज डिटेक्शन, लैपल्स, ग्रेडिएंट, आदि।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.