अनसुचित छवि विभाजन


11

मैं एक एल्गोरिथ्म को लागू करने की कोशिश कर रहा हूं जहां एक विमान की मेज पर कई वस्तुओं के साथ एक छवि दी गई है, वांछित प्रत्येक वस्तु के लिए विभाजन मास्क का उत्पादन है। सीएनएन के विपरीत, यहां का उद्देश्य अपरिचित वातावरण में वस्तुओं का पता लगाना है। इस समस्या के लिए सबसे अच्छा तरीका क्या हैं? इसके अलावा, क्या कोई कार्यान्वयन उदाहरण ऑनलाइन उपलब्ध हैं?

संपादित करें: मुझे खेद है, सवाल थोड़ा भ्रामक रहा होगा। "अपरिचित वातावरण" से मेरा तात्पर्य यह है कि वस्तुएं एल्गोरिथ्म के लिए अज्ञात हो सकती हैं। एल्गोरिथ्म को यह समझने की आवश्यकता नहीं है कि ऑब्जेक्ट क्या है, लेकिन केवल ऑब्जेक्ट का पता लगाना चाहिए। मुझे इस समस्या से कैसे संपर्क करना चाहिए?


"सीएनएन के विपरीत" कोई मतलब नहीं है; CNN एक प्रकार का मॉडल है, न कि एक उद्देश्य के साथ एक प्रकार का कार्य। CNNs का उपयोग करके भी अनसुचित छवि विभाजन किया जा सकता है
नाथन

जवाबों:


4

तेजी से जवाब

O(n)O(n2)

कुछ स्पष्टीकरण

KO(n)K-माइन्स विफल क्योंकि यह अण्डाकार समूहों को खोजने के लिए डिज़ाइन है और यादृच्छिक आकार वाले नहीं हैं।

इसके विपरीत हमारे पास मीन शिफ्ट है जो स्वचालित रूप से क्लस्टर की संख्या को खोजने में सक्षम है - जो तब उपयोगी होता है जब आप नहीं जानते कि आप क्या देख रहे हैं - यादृच्छिक आकृतियों के साथ ।

KK

छवि विभाजन क्लस्टरिंग के लिए एक सलाह

RGB से LUV तक अपना कलर स्पेस ट्रांसफ़ॉर्म करें जो यूक्लिडियन दूरी के लिए बेहतर है।

K

  • O(α.n)
  • O(β.n)
  • α>β

मीन शिफ्ट LSH धीमा है, लेकिन यह आपकी आवश्यकताओं के साथ बेहतर बैठता है। यह अभी भी रैखिक है और उल्लिखित कार्यान्वयन के साथ स्केलेबल भी है।

पुनश्च: मेरी प्रोफ़ाइल तस्वीर अपने आप में मीन शिफ्ट एलएसएच का एक अनुप्रयोग है यदि यह पता लगाने में मदद कर सकता है कि यह कैसे काम करता है।


3

आपको CVPR 2018 के लिए प्रस्तुत और स्वीकार किए गए इस कार्य पर एक नज़र डालने की आवश्यकता हो सकती है: लर्निंग टू सेगमेंट एवरी थिंग

इस काम में, वे हर चीज को खंडित करने की कोशिश करते हैं, यहां तक ​​कि वस्तुओं को भी जो नेटवर्क के लिए ज्ञात नहीं हैं। मास्क आर-सीएनएन का उपयोग किया गया है, एक ट्रांसफर लर्निंग सब-नेटवर्क के साथ मिलकर, उन्हें लगभग सब कुछ सेगमेंट करने में बहुत अच्छे परिणाम मिलते हैं।


2

छवि विभाजन के लिए अत्याधुनिक (SOTA) फेसबुक का मास्क-RCNN होगा

हालांकि यह आमतौर पर COCO या पास्कल जैसे डेटासेट पर प्रशिक्षित होता है जिसमें वास्तविक जीवन की वस्तुएं होती हैं, आप इसे अपनी पसंद, वास्तविक या वास्तविक के डेटासेट पर फिर से प्रशिक्षित कर सकते हैं।

फेसबुक Apache2 लाइसेंस के तहत एक कार्यान्वयन ( Detectron ) प्रदान करता है । कोशिश करो!


वास्तव में मुझे लगता है कि मैंने भ्रामक तरीके से सवाल पूछा, मेरा बुरा। मैंने अभी एक संपादन पोस्ट किया है, क्या आप इसे फिर से देख सकते हैं?
मुहसिनफतिह

2

दरअसल, आपके कार्य की देखरेख की जाती है। Segnetआपके उद्देश्य के लिए अच्छी वास्तुकला हो सकती है, जिसके कार्यान्वयन में से एक को यहां तक पहुँचा जा सकता हैSegNet पर्यवेक्षित शिक्षण से पिक्सेल-वार वर्ग लेबल की भविष्यवाणी करना सीखता है। इसलिए हमें संबंधित जमीनी सच्चाई लेबल के साथ इनपुट छवियों के डेटासेट की आवश्यकता होती है। छवियों पर लेबल एक चैनल, प्रत्येक पिक्सेल अपने वर्ग के साथ लेबल के साथ होना चाहिए ...

इसके अलावा, पूरी तरह से संवेदी नेटवर्क पर एक नज़र डालें जो आपके कार्य के लिए अच्छी तरह से अनुकूल हैं।


प्रश्न में संपादन के आधार पर, मैं अतिरिक्त जानकारी जोड़ता हूं। इस कार्य के लिए कई विधियाँ लागू की जा सकती हैं। मूल रूप से सबसे आसान एक पृष्ठभूमि लेबल का उपयोग करना और उन वर्गों को वर्गीकृत करना है जिन्हें आप उल्लेखित आर्किटेक्चर को नियोजित करके पृष्ठभूमि के रूप में नहीं जानते हैं। ऐसा करने से आपके पास ऐसे लेबल होंगे जो पृष्ठभूमि वर्ग के लिए ओवरलैप हो सकते हैं जो इस दृष्टिकोण का एक संभावित नकारात्मक पहलू है लेकिन इसका फायदा यह है कि उन मामलों में जहां आपके प्रशिक्षित लेबल अक्सर इनपुट में उपयोग किए जाते हैं, आपके पास वास्तुकला का अपेक्षाकृत हल्का संस्करण हो सकता है जो अज्ञात वर्गों को पहचानता है।


वास्तव में मुझे लगता है कि मैंने भ्रामक तरीके से सवाल पूछा, मेरा बुरा। मैंने अभी एक संपादन पोस्ट किया है, क्या आप इसे फिर से देख सकते हैं?
मुहसिनफतिह

@MuhsinFatih ने संपादित किया।
मीडिया

यह निश्चित रूप से आसान होगा , और बेहतर प्रदर्शन को प्राप्त करेगा, अगर यह एक पर्यवेक्षित कार्य था, लेकिन साथ ही असुरक्षित छवि विभाजन भी संभव है।
नाथन

@ नथन मैंने उस समय अपनी राय दी है। निश्चित रूप से, यह संभव है।
मीडिया

1

यह कुछ ऐसा हो सकता है जिसकी आपको तलाश है। चूंकि आप छवि विभाजन के बारे में पूछते हैं और विभाजन नहीं semantic / instance, इसलिए मुझे लगता है कि आपको छवि में प्रत्येक खंड के लिए लेबलिंग की आवश्यकता नहीं है।

उस विधि को कहा जाता है scene-cutजो एक छवि को वर्ग-अज्ञेय क्षेत्रों में एक अनुप्रेषित फैशन में खंडित करती है। इनडोर अव्यवस्थित वातावरण के मामले में यह बहुत अच्छा काम करता है।

पेपर लिंक: arxiv

कोड: कोड

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.