छवियों के मामले में फ़्रीक्वेंसी डोमेन क्या दर्शाता है?


110

मैं बस छवियों में आवृत्ति डोमेन के बारे में सीख रहा था।

मैं तरंगों के मामले में आवृत्ति स्पेक्ट्रम को समझ सकता हूं। यह दर्शाता है कि एक तरंग में क्या आवृत्तियाँ होती हैं। यदि हम की आवृत्ति स्पेक्ट्रम खींचते हैं , तो हमें और पर एक आवेग संकेत मिलता है । और हम विशेष जानकारी निकालने के लिए संबंधित फ़िल्टर का उपयोग कर सकते हैं।cos(2πft)f+f

लेकिन छवियों के मामले में आवृत्ति स्पेक्ट्रम का क्या मतलब है? जब हम OpenCV में किसी छवि का FFT लेते हैं, तो हमें एक अजीब तस्वीर मिलती है। यह छवि क्या दर्शाती है? और इसका आवेदन क्या है?

मैं कुछ किताबें पढ़ता हूं, लेकिन वे शारीरिक निहितार्थ के बजाय बहुत सारे गणितीय समीकरण देते हैं। तो क्या कोई इमेज प्रोसेसिंग में इसके एक साधारण अनुप्रयोग के साथ छवियों में आवृत्ति डोमेन की एक सरल व्याख्या प्रदान कर सकता है?


5
यह समझने का सबसे अच्छा तरीका है कि एक ट्रांसफॉर्म क्या होता है, उलटे ट्रांसफॉर्म को सरल इनपुट्स खिलाने के साथ चारों ओर खेलना है ।
एंडोलिथ

1
यह भी देखें स्टीव Eddins द्वारा इस दिलचस्प स्पष्टीकरण blogs.mathworks.com/steve/2009/12/04/...
Alessandro Jacopson

@endolith हाँ! आपको यह समझने के लिए डोमेन पर पहले से कुछ ज्ञान की आवश्यकता है कि क्या हो रहा है और क्यों हो रहा है ..
SIslam

प्रिय छवि की आवृत्ति डोमेन वाट में शक्ति की तीव्रता को हर्टिज़ में निश्चित आवृत्ति के संबंध में दर्शाती है जैसे (डीसी घटक, कम आवृत्ति और उच्च आवृत्ति)
mntaser

जवाबों:


93

लेकिन छवियों के मामले में आवृत्ति स्पेक्ट्रम का क्या मतलब है?

"गणितीय समीकरण" महत्वपूर्ण हैं, इसलिए उन्हें पूरी तरह से न छोड़ें। लेकिन 2d FFT की एक सहज व्याख्या भी है। चित्रण के लिए, मैंने कुछ नमूना चित्रों के व्युत्क्रम FFT की गणना की है:

यहाँ छवि विवरण दर्ज करें

जैसा कि आप देख सकते हैं, आवृत्ति डोमेन में केवल एक पिक्सेल सेट है। छवि डोमेन में परिणाम (मैंने केवल वास्तविक भाग प्रदर्शित किया है) एक "घुमाया हुआ कोसाइन पैटर्न" है (काल्पनिक भाग संगत साइन होगा)।

अगर मैं फ़्रीक्वेंसी डोमेन में एक अलग पिक्सेल सेट करता हूँ (बाईं सीमा पर):

यहाँ छवि विवरण दर्ज करें

मुझे एक अलग 2d आवृत्ति पैटर्न मिलता है।

यदि मैं फ़्रीक्वेंसी डोमेन में एक से अधिक पिक्सेल सेट करता हूँ:

यहाँ छवि विवरण दर्ज करें

आपको दो कोस का योग मिलता है।

तो 1 डी तरंग की तरह, जिसे साइन और कोजाइन के योग के रूप में दर्शाया जा सकता है, किसी भी 2 डी छवि को "घुमाए गए साइन और कॉज़नेस" के योग के रूप में दर्शाया जा सकता है, जैसा कि ऊपर दिखाया गया है।

जब हम opencv में किसी छवि का विराम लेते हैं, तो हमें अजीब तस्वीर मिलती है। यह छवि क्या दर्शाती है?

यह साइन / कोसाइन के आयाम और आवृत्तियों को दर्शाता है, जब जोड़ा जाता है, आपको मूल छवि देगा।

और इसका आवेदन क्या है?

उन सभी को नाम देने के लिए वास्तव में बहुत सारे हैं। एफएफटी का उपयोग करके सहसंबंध और दृढ़ संकल्प की गणना बहुत कुशलता से की जा सकती है, लेकिन यह एक अनुकूलन के अधिक है, आप इसके लिए एफएफटी परिणाम पर "नहीं" दिखते हैं। इसका उपयोग छवि संपीड़न के लिए किया जाता है, क्योंकि उच्च आवृत्ति घटक आमतौर पर केवल शोर होते हैं।


3
क्या आप निर्दिष्ट कर सकते हैं कि हाईफ्रीक्वेंसी हिस्सा कौन सा है और फ्रीक्वेंसी डोमेन इमेज में कम आवृत्ति वाला हिस्सा कौन सा है?
आबिद रहमान के

4
@arkiaz: मैंने जो चित्र दिखाए हैं, उनमें सबसे अधिक आवृत्ति छवि के केंद्र में है, सबसे कम आवृत्ति (यानी इनपुट छवि का मतलब) एफएफटी परिणाम में शीर्ष बाएं पिक्सेल है। यही सबसे अधिक एफएफटी कार्यान्वयन आपको देते हैं। यदि आप FFT परिणाम प्रदर्शित करते हैं, तो प्रदर्शित छवि के केंद्र में सबसे कम आवृत्ति को स्थानांतरित करना आम है।
निकी एस्टनर

1
@ मोहम्मद: मैंने गणितज्ञ के InverseFourierकार्य का उपयोग किया है । ऑक्टेव / मतलाब भी ifft2ऐसा नहीं करता है ?
निकी एस्टनर

1
@JimClay रंगीन चित्रों के लिए, मैं वास्तव में YUV डोमेन का उपयोग करने की सलाह दूंगा । Y = पूर्ण तीव्रता और UV = रंग। यहां तक ​​कि रंग छवियों के लिए, आपकी रुचि की अधिकांश जानकारी छवि के तीव्रता वाले हिस्से में है। आप सभी समान गणितीय उपकरणों का उपयोग करते हैं, बस वापस बदलना याद रखें।
Atav32

4
इन एनिमेशन के रूप में बहुत अच्छा होगा, चारों ओर बिंदु को स्थानांतरित और दिखाने की तरह कैसे लहरों चौड़ाई और कोण बदलने
endolith

29

मुझे लगता है कि यह बहुत अच्छी तरह से ज्ञात "डीएसपी गाइड" ( अध्याय 24, धारा 5 ) में डाला गया था :

फूरियर विश्लेषण का उपयोग छवि प्रसंस्करण में उसी तरह किया जाता है जैसे कि एक आयामी संकेतों के साथ। हालाँकि, छवियों में उनकी जानकारी आवृत्ति डोमेन में एन्कोडेड नहीं है, जिससे तकनीक बहुत कम उपयोगी हो जाती है। उदाहरण के लिए, जब फूरियर ट्रांसफॉर्म को ऑडियो सिग्नल से लिया जाता है, तो भ्रमित समय डोमेन तरंग को फ्रीक्वेंसी स्पेक्ट्रम को समझने में आसान में बदल दिया जाता है।

इसकी तुलना में, एक छवि का फूरियर रूपांतरण लेने से स्थानिक डोमेन में सीधी जानकारी को आवृत्ति डोमेन में एक तले हुए रूप में परिवर्तित किया जाता है। संक्षेप में, छवियों में एन्कोड की गई जानकारी को समझने में आपकी मदद करने के लिए फूरियर ट्रांसफॉर्म की अपेक्षा न करें।

इसलिए, निश्चित रूप से, एक विशिष्ट छवि (जैसे नीचे उदाहरण) के डीएफटी को प्राप्त करके प्रतीत होता है यादृच्छिक पैटर्न के पीछे कुछ संरचना और अर्थ है, लेकिन यह इस रूप में नहीं है कि मानव मस्तिष्क को सहज रूप से समझने के लिए तैयार किया जाता है, कम से कम दृश्य धारणा के बारे में।

Imgur

यहां एक और दिलचस्प और काफी पठनीय प्रदर्शनी है जो एक छवि के फूरियर रूपांतरण में निहित है, और इसकी व्याख्या कैसे की जा सकती है। इसमें छवियों की एक श्रृंखला है जो यह स्पष्ट करती है कि फूरियर-रूपांतरित और मूल छवि के बीच पत्राचार क्या है।

संपादित करें: इस पृष्ठ पर भी एक नज़र डालें , जो अंत तक प्रदर्शित करता है- एक छवि की अवधारणात्मक रूप से महत्वपूर्ण जानकारी आवृत्ति प्रतिनिधित्व के चरण (कोण) घटक में कैसे संग्रहीत की जाती है।

2 संपादित करें: फूरियर प्रतिनिधित्व में चरण और परिमाण के अर्थ का एक और उदाहरण : टीयू डेल्फ़्ट की पाठ्यपुस्तक " फंडामेंटल्स ऑफ इमेज प्रोसेसिंग " का "अनुभाग 3.4.1, चरण और परिमाण का महत्व " यह काफी स्पष्ट रूप से प्रदर्शित करता है:

Imgur


अरे! मैंने आपके प्रश्न के दूसरे लिंक का अनुसरण करने की कोशिश की ( "एक और दिलचस्प और काफी पठनीय प्रदर्शनी ..." ) लेकिन लिंक काम नहीं कर रहा है। मैंने टिप्पणियों में दिए गए लिंक की भी कोशिश की, लेकिन काम नहीं करता है। क्या आप कृपया एक लिंक काम में पा सकते हैं और संपादित कर सकते हैं?
पेनेलोप

@penelope लिंक के साथ समस्याओं पर ध्यान देने के लिए आप दूसरे व्यक्ति हैं (मेरी पिछली टिप्पणी देखें)। पृष्ठ वास्तव में अस्थिर प्रतीत होता है। जैसा कि मैंने पहले कहा था, मैं लिंक को वेब आर्काइव संस्करण से बदल दूंगा। इस पर ध्यान दिलाने के लिए धन्यवाद!
वॉलीड्रिअस

1
वास्तव में, (अंत में काम कर रहे) लिंक के उदाहरण और स्पष्टीकरण बहुत अच्छे हैं :)
पेनेलोप

12

तरंग एक आयामी लहर है; यह केवल पर निर्भर करता । तरंग एक द्वि-आयामी तरंग है। यह और पर निर्भर करता है । जैसा कि आप देखते हैं, आपके पास दो फ्रीक्वेंसी हैं, दोनों दिशा में।f(t)=cos(ωt)tf(x,y)=cos(ωx+ψy)xy

इसलिए, फूरियर को बदलने की (FFT) आप दे देंगे , बस के FFT तरह आप देता है । और यदि आपका इनपुट 2 डी कोसाइन का एक फ़ंक्शन है, तो आपका 2 डी एफएफटी उन कॉशन की आवृत्तियों का योग होगा - फिर से 1 डी एफएफटी का सीधा एनालॉग।cos(ωx+ψy)ω,ψcos(ωx)ω


10

यह ध्यान देने योग्य हो सकता है कि फूरियर विश्लेषण एक अवधारणा का एक विशेष मामला है जिसे ऑर्थोगोनल फ़ंक्शन कहा जाता है । मूल विचार यह है कि आप एक जटिल संकेत को सरल "आधार" कार्यों के रैखिक सुपरपोजिशन में तोड़ देते हैं। आप आधार कार्यों पर अपना प्रसंस्करण या विश्लेषण कर सकते हैं और फिर मूल संकेत के लिए परिणाम प्राप्त करने के लिए आधार कार्यों के लिए परिणाम जोड़ सकते हैं।

इसके लिए काम करने के लिए आधार कार्यों के लिए कुछ गणितीय आवश्यकताएं हैं, अर्थात वे आदर्श रूप से एक असाधारण आधार बनाते हैं। फूरियर रूपांतरण के मामले में आधार कार्य जटिल घातीय हैं। हालाँकि, कई अन्य कार्य भी हैं जिनका उपयोग इसके लिए भी किया जा सकता है।


यह सच है। अन्य प्रकार के आधार कार्य क्या हैं? मैं सोच रहा हूँ डेब्यूज़ वेवलेट्स, लेकिन क्या अन्य भी हैं? उन्हें क्या अंतर होगा?
स्पेसी

संभवतः सबसे प्रसिद्ध बहुपद हैं; बहुपद के सेट के रूप में एक फ़ंक्शन का प्रतिनिधित्व इसके टेलर सीरी के रूप में जाना जाता है । इस सीरी की गणना फंक्शन डेरिवेटिव से आसानी से की जाती है।
MSalters 9:12

2
आधार फ़ंक्शन खोजने का एक तरीका प्रिंसिपल कंपोनेंट्स एनालिसिस लागू कर रहा है । परिणामस्वरूप 'ईजेन-इमेज' में अक्सर पाप / ब्रह्मांड कार्यों की तुलना में अधिक मानव-सहज उपस्थिति होती है। एक उदाहरण के लिए, Eigenfaces देखें । आवृत्ति डोमेन अभी भी धारणा के लिए प्रासंगिक है (हमारी आंखों / दिमागों में किनारे-डिटेक्टर हैं जो आवृत्ति के प्रति संवेदनशील हैं, खासकर जब गति शामिल होती है); आधार कार्य छवियों के रूप में बहुत सार्थक नहीं हैं।
दान ब्रायंट

पीसीए एक अच्छा आधार गणना तकनीक है जिसे व्यापक रूप से समझा जाता है, लेकिन कई अन्य हैं जो डेटा को कैसे उत्पन्न किया गया, इसके बारे में विभिन्न धारणाएं बनाते हैं; स्वतंत्र घटक विश्लेषण (ICA) एक लोकप्रिय उदाहरण है। थोड़ा और आगे, वहाँ स्पार्स कोडिंग (जैसे जे मेराल एट अल। "," ऑनलाइन शब्दकोश लर्निंग फॉर स्पार्स कोडिंग, "आईसीएमएल 2009) का उपयोग करके जेनेरिक आधार फ़ंक्शन सीखने के लिए एल्गोरिदम हैं, और फिर गहरी नेट द्वारा विकसित" फीचर लर्निंग "। मित्रों।
lmjohns3

1
कार्यों को ऑर्थोगोनल क्यों करना पड़ता है?
क्वांटम 231

8

छवियों में वृद्धि आवृत्ति चमक या रंग में अधिक अचानक बदलाव के साथ जुड़ी हुई है। इसके अलावा, शोर आमतौर पर स्पेक्ट्रम के उच्च अंत में एम्बेडेड होता है, इसलिए शोर कम करने के लिए कम-पास फ़िल्टरिंग का उपयोग किया जा सकता है।


1
तो आपका मतलब है कि अचानक परिवर्तन को कभी-कभी शोर माना जाता है?
आबिद रहमान के

1
हाँ कभी कभी। सामान्य उदाहरणों में मच्छर शोर (किनारों के चारों ओर बजना), जेपीईजी ब्लॉक शोर मैक्रोब्लॉक्स के किनारों पर और, ज़ाहिर है, अनाज। एक साधारण ढाल की छवि पर विचार करें। इस छवि में अनाज जोड़ने से छवि में मिनट के संक्रमण को शुरू करने से इसकी उच्च आवृत्ति सामग्री बढ़ जाती है।
एम्रे

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.