"सेगमेंटेशन" और "सीन लेबलिंग" की तुलना में "सिमेंटिक सेगमेंटेशन" क्या है?


97

सिमेंटिक सेग्मेंटेशन केवल प्लोमनस्म है या "सिमेंटिक सेगमेंटेशन" और "सेगमेंटेशन" के बीच अंतर है? क्या "दृश्य लेबलिंग" या "दृश्य पार्सिंग" में कोई अंतर है?

पिक्सेल-स्तर और पिक्सेल-विभाजन के बीच अंतर क्या है?

(साइड-क्वेश्चन: जब आपके पास इस तरह की पिक्सेल-वार एनोटेशन होती है, तो क्या आपको ऑब्जेक्ट डिटेक्शन मुफ्त में मिलता है या कुछ करने के लिए है?)

कृपया अपनी परिभाषा के लिए एक स्रोत दें।

"अर्थ विभाजन" का उपयोग करने वाले स्रोत

  • जोनाथन लॉन्ग, इवान शेल्मर, ट्रेवर डारेल: सिमेंटिक सेग्मेंटेशन के लिए पूरी तरह से कन्वेन्शनल नेटवर्क । सीवीपीआर, 2015 और पीएएमआई, 2016
  • हाँग, सियुनगून, हियोनवो नोह और बोहुंग हान: "अर्ध-पर्यवेक्षित सिमेंटिक सेगमेंटेशन के लिए डीप न्यूरल नेटवर्क को कम कर दिया।" arXiv प्रीप्रिंट arXiv: 1506.04924 , 2015।
  • वी। लेम्पिट्स्की, ए। वेदाल्डी, और ए। ज़िसरमैन: सिमेंटिक सेगमेंट के लिए एक तोरण मॉडल। तंत्रिका सूचना प्रसंस्करण प्रणाली में प्रगति, 2011।

"दृश्य लेबलिंग" का उपयोग करने वाले स्रोत

स्रोत जो "पिक्सेल-स्तर" का उपयोग करते हैं

  • पिनेहिरो, पेड्रो ओ।, और रोनन कोलोबर्ट: "इमेज-लेवल से लेकर पिक्सेल-लेवल लेबलिंग विथ कन्फ्यूज़नल नेटवर्क्स।" कंप्यूटर विजन और पैटर्न मान्यता, 2015 पर IEEE सम्मेलन की कार्यवाही (देखें http://arxiv.org/abs/1411.6228 )

स्रोत जो "पिक्सेल वाइज" का उपयोग करते हैं

  • ली, होन्शेंग, रुई झाओ और शियाओगंग वांग: "पिक्सेलवाइज़ वर्गीकरण के लिए अत्यधिक कुशल आगे और पीछे तंत्रिका नेटवर्क का प्रसार।" arXiv प्रीप्रिंट arXiv: 1412.4526 , 2014।

Google Ngrams

"सिमेंटिक सेगमेंटेशन" हाल ही में "दृश्य लेबलिंग" की तुलना में अधिक उपयोग किया जा रहा है

यहां छवि विवरण दर्ज करें


अन्य शब्द जो बहुत समान प्रतीत होते हैं: (प्रति-) पिक्सेल वर्गीकरण / लेबलिंग
मार्टिन थोमा

12
यह वास्तव में दिलचस्प है कि @MartinThoma में अर्क्सिव प्रीप्रिंट सर्वेइंग सिमेंटिक सेगमेंटेशन है, जो प्रश्न पूछने के लगभग 6 महीने बाद प्रकाशित हुआ है [लिंक] ( arxiv.org/pdf/1602.06541.pdf )। बहुत बढ़िया!
मोहम्मद हसन

जवाबों:


92

"विभाजन" कई "सुसंगत" भागों में एक छवि का एक विभाजन है, लेकिन यह समझने का कोई प्रयास किए बिना कि ये भाग क्या दर्शाते हैं। सबसे प्रसिद्ध कार्यों में से एक (लेकिन निश्चित रूप से पहला नहीं) शि और मलिक "सामान्यीकृत कटौती और छवि विभाजन" PAMA 2000 है । ये निम्न-स्तरीय cues जैसे रंग, बनावट और सीमा की चिकनाई के संदर्भ में "सुसंगतता" को परिभाषित करने का प्रयास करते हैं। आप इन कार्यों को गेस्टाल्ट सिद्धांत में वापस ट्रेस कर सकते हैं ।

दूसरी ओर "सिमेंटिक सेगमेंटेशन" छवि को शब्दार्थ अर्थपूर्ण भागों में विभाजित करने का प्रयास करता है, और प्रत्येक भाग को पूर्व-निर्धारित कक्षाओं में से एक में वर्गीकृत करता है। आप प्रत्येक पिक्सेल (संपूर्ण छवि / खंड के बजाय) को वर्गीकृत करके एक ही लक्ष्य प्राप्त कर सकते हैं। उस मामले में आप पिक्सेल-वार वर्गीकरण कर रहे हैं, जो एक ही अंतिम परिणाम की ओर ले जाता है लेकिन थोड़ा अलग रास्ते में ...

इसलिए, मुझे लगता है कि आप कह सकते हैं कि "सिमेंटिक सेगमेंटेशन", "सीन लेबलिंग" और "पिक्सेलवाइज़ वर्गीकरण" मूल रूप से एक ही लक्ष्य को प्राप्त करने की कोशिश कर रहे हैं: छवि में प्रत्येक पिक्सेल की भूमिका को शब्दार्थ रूप से समझना। उस लक्ष्य तक पहुंचने के लिए आप कई रास्ते अपना सकते हैं, और ये रास्ते शब्दावली में मामूली बारीकियों की ओर ले जाते हैं।


2
कौन सा पथ सिमेंटिक विभाजन की ओर जाता है और जो दृश्य लेबलिंग या पिक्सेल वाइज वर्गीकरण की ओर जाता है?
मार्टिन थोमा

3
@ आम तौर पर बोलते हुए, यदि आप "सेगमेंटेशन" रिसर्च फील्ड (जैसे, CRF, स्मूद इंडेक्सिंग टर्म्स, आदि) में उत्पन्न टूल और एल्गोरिदम का उपयोग करते हैं, तो आप "सिमेंटिक सेगमेंटेशन" कर रहे हैं। दूसरी ओर, यदि आप छवि वर्गीकरण में उपयोग किए जाने वाले टूल और एल्गोरिदम का उपयोग कर रहे हैं, तो उन्हें स्थानीय स्तर पर लागू करने से आपके कार्य को "पिक्सेल वाइज लेबलिंग" के रूप में वर्णित करने की अधिक संभावना है। हालांकि, मुझे नहीं लगता कि वास्तव में कोई व्यावहारिक अंतर है, केवल शब्दार्थ: ये एक ही अंत-लक्ष्य के काफी समानार्थक शब्द हैं।
शैई

63

मैंने ऑब्जेक्ट डिटेक्शन, ऑब्जेक्ट रिकॉग्निशन, ऑब्जेक्ट सेगमेंटेशन, इमेज सेगमेंटेशन और सिमेंटिक इमेज सेगमेंटेशन के बारे में बहुत सारे पेपर पढ़े और यहाँ मेरे निष्कर्ष जो सच नहीं हो सकते हैं:

ऑब्जेक्ट रिकग्निशन: किसी दिए गए चित्र में आपको सभी ऑब्जेक्ट्स (ऑब्जेक्ट्स की एक प्रतिबंधित श्रेणी आपके डेटासेट पर निर्भर करती है) का पता लगाना होगा, उन्हें एक बाउंडिंग बॉक्स और लेबल के साथ बाउंडिंग बॉक्स के साथ स्थानीयकृत करें। नीचे की छवि में आप कला वस्तु मान्यता की स्थिति का एक सरल आउटपुट देखेंगे।

वस्तु मान्यता

ऑब्जेक्ट डिटेक्शन: यह ऑब्जेक्ट मान्यता की तरह है लेकिन इस कार्य में आपके पास ऑब्जेक्ट वर्गीकरण का केवल दो वर्ग है जिसका अर्थ है ऑब्जेक्ट बाउंडिंग बॉक्स और नॉन-ऑब्जेक्ट बाउंडिंग बॉक्स। उदाहरण के लिए कार का पता लगाना: आपको सभी कारों का उनके बाउंडिंग बॉक्स के साथ पता लगाना होगा।

ऑब्जेक्ट डिटेक्शन

ऑब्जेक्ट सेगमेंटेशन: ऑब्जेक्ट रिकग्निशन की तरह आप एक इमेज में सभी ऑब्जेक्ट्स को पहचान लेंगे लेकिन आपके आउटपुट को इमेज के क्लासिफाइडिंग पिक्स को इस ऑब्जेक्ट को दिखाना चाहिए।

वस्तु विभाजन

छवि विभाजन: छवि विभाजन में आप छवि के क्षेत्रों को विभाजित करेंगे। आपका आउटपुट किसी छवि के सेगमेंट और क्षेत्र को लेबल नहीं करेगा जो एक-दूसरे के साथ एक ही सेगमेंट में होना चाहिए। किसी छवि से सुपर पिक्सेल निकालना इस कार्य या अग्रभूमि-पृष्ठभूमि विभाजन का एक उदाहरण है।

छवि विभाजन

सिमेंटिक सेगमेंटेशन: सिमेंटिक सेग्मेंटेशन में आपको प्रत्येक पिक्सेल को ऑब्जेक्ट्स (कार, पर्सन, डॉग, ...) और नॉन-ऑब्जेक्ट्स (वाटर, स्काई, रोड, ...) के एक वर्ग के साथ लेबल करना होता है। मैं सिमेंटिक सेग्मेंटेशन के अन्य शब्दों को इमेज के प्रत्येक क्षेत्र में लेबल करूँगा।

शब्दार्थ भेद

मुझे लगता है कि मूल रूप से पिक्सेल-स्तर और पिक्सेल वाइज लेबलिंग एक ही है, छवि विभाजन या शब्दार्थ विभाजन हो सकता है। मैंने इस लिंक में भी आपके प्रश्न का उत्तर दिया है ।


8
मैं उदाहरण विभाजन को भी जोड़ूंगा, यानी समान वस्तु के उदाहरणों के बीच विचार-विमर्श
एलेक्स

1
मेरा तर्क है कि "छवि पहचान" "छवि पहचान" के बजाय "छवि वर्गीकरण" का एक पर्याय है। यह एक छवि में एक या कई वस्तुओं को पहचानने और अगर यह मौजूद है तो यह बताने में सक्षम होने के बारे में है। अगर हम यह भी जानना चाहते हैं कि यह कहाँ है, तो हमें बाउंडिंग बॉक्स का उपयोग करके वस्तुओं का पता लगाना होगा। इसके अलावा, मुझे कोई कारण नहीं दिखाई देता है कि एक वस्तु डिटेक्टर को केवल एकल वर्ग का पता लगाने में सक्षम क्यों होना चाहिए।
पिएट्ज

मैं आपसे आंशिक रूप से सहमत हूं। मैंने यह उल्लेख नहीं किया कि छवि मान्यता क्या है, इसलिए छवि पहचान और वर्गीकरण का अर्थ समान हो सकता है। हालाँकि, ऑब्जेक्ट का पता लगाने का उपयोग दो वर्ग समस्याओं और बहु ​​वर्ग के लिए ऑब्जेक्ट पहचान के लिए किया जाता है। वैसे भी, मेरे पास अपने उत्तर के लिए कोई गार्ड नहीं है, यह सिर्फ तीन साल पहले कुछ पेपर पढ़ने से मेरा विचार था! चीयर्स!
e_soroush

क्या आप कुछ ऐसे स्थानों पर विस्तृत जानकारी प्राप्त कर सकते हैं जहाँ से आप अपनी रीडिंग पाते हैं?
qarthandso

36

पिछले उत्तर वास्तव में बहुत अच्छे हैं, मैं कुछ और अतिरिक्त बातें बताना चाहूंगा:

वस्तु विभाजन

इसका एक कारण यह है कि यह शोध समुदाय के पक्ष में है क्योंकि यह समस्याग्रस्त रूप से अस्पष्ट है। ऑब्जेक्ट विभाजन का अर्थ केवल एक छवि में एक या छोटी संख्या की वस्तुओं को खोजने और उनके चारों ओर एक सीमा खींचना है, और अधिकांश उद्देश्यों के लिए आप अभी भी मान सकते हैं कि इसका मतलब है। हालाँकि, इसका उपयोग उन वस्तुओं के विभाजन के लिए किया जाने लगा, जिनका पृष्ठभूमि से वस्तुओं का विभाजन हो सकता है (आमतौर पर जिसे अब बैकग्राउंड सबट्रैक्शन या बैकग्राउंड सेग्मेंटेशन या फोरग्राउंड डिटेक्शन कहा जाता है), और यहां तक ​​कि कुछ मामलों में इंटरचेंजबाइक का उपयोग ऑब्जेक्ट मान्यता के साथ बाउंडिंग बॉक्स का उपयोग करके किया जाता है (यह ऑब्जेक्ट मान्यता के लिए गहरी न्यूरल नेटवर्क दृष्टिकोण के आगमन के साथ बंद हो जाता है, लेकिन पहले से ऑब्जेक्ट मान्यता भी हो सकता है) मतलब बस इसमें ऑब्जेक्ट के साथ पूरी इमेज को लेबल करना)।

क्या "विभाजन" "शब्दार्थ" बनाता है?

सिम्पी, प्रत्येक खंड, या प्रत्येक पिक्सेल के गहरे तरीकों के मामले में, श्रेणी के आधार पर एक वर्ग लेबल दिया जाता है। सामान्य रूप से विभाजन केवल कुछ नियम द्वारा छवि का विभाजन है। Meanshift विभाजन, उदाहरण के लिए, एक बहुत ही उच्च स्तर विभाजन से डेटा छवि के ऊर्जा के क्षेत्र में परिवर्तन के अनुसार। ग्राफ में कटौतीआधारित विभाजन समान रूप से सीखा नहीं है, लेकिन सीधे बाकी से अलग प्रत्येक छवि के गुणों से लिया गया है। अधिक हाल ही में (न्यूरल नेटवर्क आधारित) विधियाँ उन पिक्सल का उपयोग करती हैं जो उन विशिष्ट विशेषताओं के साथ जुड़ी स्थानीय विशेषताओं की पहचान करने के लिए लेबल किए जाते हैं, और फिर प्रत्येक पिक्सेल को वर्गीकृत करते हैं जिसके आधार पर उस पिक्सेल के लिए सबसे अधिक आत्मविश्वास होता है। इस तरह, "पिक्सेल-लेबलिंग" वास्तव में कार्य के लिए अधिक ईमानदार नाम है, और "विभाजन" घटक उभर रहा है।

उदाहरण खंड

ऑब्जेक्ट सेगमेंटेशन का संभवतः सबसे कठिन, प्रासंगिक और मूल अर्थ है, "उदाहरण विभाजन" का अर्थ है किसी भी दृश्य के भीतर व्यक्तिगत वस्तुओं का विभाजन, भले ही वे एक ही प्रकार के हों। हालाँकि, इसका एक कारण इतना कठिन है क्योंकि एक दृष्टि के दृष्टिकोण से (और कुछ मायनों में एक दार्शनिक) एक "वस्तु" उदाहरण बनाता है जो पूरी तरह से स्पष्ट नहीं है। क्या शरीर के अंग वस्तु हैं? इस तरह के "भाग-वस्तुओं" को एक उदाहरण विभाजन एल्गोरिथ्म द्वारा बिल्कुल खंडित किया जाना चाहिए? अगर उन्हें पूरे से अलग देखा जाए तो क्या उन्हें केवल खंडित किया जाना चाहिए? यौगिक वस्तुओं के बारे में दो चीजों को स्पष्ट रूप से स्थगित किया जाना चाहिए, लेकिन अलग होना एक वस्तु या दो होना चाहिए (क्या एक छड़ी एक कुल्हाड़ी, एक हथौड़ा, या सिर्फ एक छड़ी और एक चट्टान के शीर्ष से चिपकी हुई है जब तक कि ठीक से नहीं बनाई गई हो?)। इसके अलावा, यह नहीं है ' उदाहरणों को भेद करने के लिए स्पष्ट नहीं है। क्या अन्य दीवारों से एक अलग उदाहरण है जो इसे संलग्न है? उदाहरणों को किस क्रम में गिना जाना चाहिए? जैसा कि वे दिखाई देते हैं? दृष्टिकोण के लिए निकटता? इन कठिनाइयों के बावजूद, वस्तुओं का विभाजन अभी भी एक बड़ी बात है क्योंकि मनुष्य के रूप में हम हर समय वस्तुओं के साथ बातचीत करते हैं चाहे उनकी "क्लास लेबल" की परवाह किए बिना (अपने आस-पास यादृच्छिक वस्तुओं का उपयोग करते हुए, पेपर वेट पर, उन चीजों पर बैठे हों जो कुर्सियाँ नहीं हैं)। और इसलिए कुछ डेटासेट इस समस्या को प्राप्त करने का प्रयास करते हैं, लेकिन मुख्य कारण इस समस्या पर बहुत ध्यान नहीं दिया गया है क्योंकि यह अच्छी तरह से परिभाषित नहीं है। यहां छवि विवरण दर्ज करें

दृश्य पार्सिंग / दृश्य लेबलिंग

सीन पार्सिंग दृश्य लेबलिंग के लिए कड़ाई से विभाजन दृष्टिकोण है, जिसमें अपनी स्वयं की कुछ अस्पष्टता समस्याएं भी हैं। ऐतिहासिक रूप से, दृश्य लेबलिंग का अर्थ संपूर्ण "दृश्य" (छवि) को खंडों में विभाजित करना और उन्हें सभी वर्ग लेबल देना है। हालांकि, इसका मतलब यह भी था कि छवि के क्षेत्रों को स्पष्ट रूप से विभाजित किए बिना वर्ग लेबल देने का मतलब है। विभाजन के संबंध में, "सिमेंटिक विभाजन" पूरे दृश्य को विभाजित नहीं करता है । सिमेंटिक सेगमेंटेशन के लिए, एल्गोरिथ्म का उद्देश्य केवल उन वस्तुओं को सेगमेंट करना है, जिन्हें वह जानता है, और पिक्सल को लेबल करने के लिए इसके नुकसान फ़ंक्शन द्वारा दंडित किया जाएगा, जिसमें कोई लेबल नहीं है। उदाहरण के लिए MS-COCO डेटासेट सिमेंटिक सेगमेंट के लिए एक डेटासेट है जहां केवल कुछ वस्तुओं को खंडित किया जाता है। MS-COCO नमूना चित्र

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.