वस्तु का पता लगाने, शब्दार्थ विभाजन और स्थानीयकरण के बीच अंतर क्या है?


23

मैंने उन शब्दों को काफी प्रकाशनों में पढ़ा है और मैं उन शब्दों के लिए कुछ अच्छी परिभाषाएँ देना चाहूँगा, जो यह स्पष्ट करते हैं कि वस्तु-निर्धारण बनाम शब्दार्थ विभाजन के बीच का अंतर क्या है। यह अच्छा होगा यदि आप अपनी परिभाषाओं के लिए स्रोत दे सकते हैं।


1
यहां की स्लाइड देखें: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
शत्रु

जवाबों:


18

मैंने ऑब्जेक्ट डिटेक्शन, ऑब्जेक्ट रिकॉग्निशन, ऑब्जेक्ट सेगमेंटेशन, इमेज सेगमेंटेशन और सिमेंटिक इमेज सेगमेंटेशन के बारे में बहुत सारे पेपर पढ़े और यहाँ मेरे निष्कर्ष जो सच नहीं हो सकते हैं:

ऑब्जेक्ट रिकग्निशन: किसी दिए गए चित्र में आपको सभी ऑब्जेक्ट्स (ऑब्जेक्ट्स का एक प्रतिबंधित वर्ग आपके डेटासेट पर निर्भर करता है) का पता लगाना होगा, उन्हें एक बाउंडिंग बॉक्स और लेबल के साथ बाउंडिंग बॉक्स लेबल के साथ स्थानीयकृत करें। नीचे की छवि में आप कला वस्तु मान्यता की स्थिति का एक सरल आउटपुट देखेंगे।

वस्तु मान्यता

ऑब्जेक्ट डिटेक्शन: यह ऑब्जेक्ट मान्यता की तरह है लेकिन इस कार्य में आपके पास ऑब्जेक्ट वर्गीकरण का केवल दो वर्ग है जिसका अर्थ है ऑब्जेक्ट बाउंडिंग बॉक्स और नॉन-ऑब्जेक्ट बाउंडिंग बॉक्स। उदाहरण के लिए कार का पता लगाना: आपको सभी कारों का उनके बाउंडिंग बॉक्स के साथ पता लगाना होगा।

ऑब्जेक्ट डिटेक्शन

ऑब्जेक्ट सेगमेंटेशन: ऑब्जेक्ट रिकग्निशन की तरह आप एक इमेज में सभी ऑब्जेक्ट्स को पहचान लेंगे लेकिन आपके आउटपुट को इमेज के क्लासिफाइडिंग पिक्स को इस ऑब्जेक्ट को दिखाना चाहिए।

वस्तु विभाजन

छवि विभाजन: छवि विभाजन में आप छवि के क्षेत्रों को विभाजित करेंगे। आपका आउटपुट किसी छवि के सेगमेंट और क्षेत्र को लेबल नहीं करेगा जो एक-दूसरे के साथ एक ही सेगमेंट में होना चाहिए। किसी छवि से सुपर पिक्सेल निकालना इस कार्य या अग्रभूमि-पृष्ठभूमि विभाजन का एक उदाहरण है।

छवि विभाजन

सिमेंटिक सेगमेंटेशन: सिमेंटिक सेग्मेंटेशन में आपको प्रत्येक पिक्सेल को ऑब्जेक्ट्स (कार, पर्सन, डॉग, ...) और नॉन-ऑब्जेक्ट्स (वाटर, स्काई, रोड, ...) के एक वर्ग के साथ लेबल करना होता है। मैं सिमेंटिक सेग्मेंटेशन के अन्य शब्दों को इमेज के प्रत्येक क्षेत्र में लेबल करूँगा।

शब्दार्थ भेद


अच्छा जवाब। मैं ध्यान दूंगा कि cs231n.stanford.edu/slides/winter1516_lecture8.pdf स्लाइड 8 ऑब्जेक्ट डिटेक्शन की एक अलग परिभाषा का उपयोग करता है जो एक ही वर्ग के भीतर कई वर्गों और कई उदाहरणों का पता लगाता है (मुझे नहीं पता कि एक एकल स्वीकृत परिभाषा है या नहीं। तो यह सिर्फ अस्पष्टता के कारण हो सकता है)।
कीथ

1
उदाहरण सेगमेंटेशन, सिमेंटिक सेगमेंटेशन की तरह लेकिन गायों को अलग करने के लिए लेबल करना पड़ता है
टाइटन

2
पहली टिप्पणी से स्लाइड अब यहाँ हैं: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
शत्रु

5

चूंकि यह मुद्दा अभी भी 2019 में अभी भी स्पष्ट नहीं है, और यह नए एमएल-लर्नर को चुनने में मदद कर सकता है, यहां अंतर दिखाने वाली बहुत अच्छी छवि है:

(स्थानीयकरण "भेड़" वर्ग के चारों ओर बाउंडिंग बॉक्स है, चित्र का वर्गीकरण होने के बाद) स्रोत: https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42s27ea स्रोत: Towardsdatascience.com


3

मेरा मानना ​​है कि "स्थानीयकरण" का अर्थ है "एकल वस्तु वर्गीकरण + स्थानीयकरण 2 डी या 3 डी बाउंडिंग बॉक्स का उपयोग करना"।

"ऑब्जेक्ट डिटेक्शन" सवाल में ज्ञात ऑब्जेक्ट कक्षाओं के सभी उदाहरणों को स्थानीयकृत + वर्गीकृत कर रहा है।

सिमेंटिक सेगमेंटेशन मूल रूप से प्रति पिक्सेल वर्गीकरण है।

इसके अलावा राइट मेट्रिक्स (स्रोत: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

सटीक भविष्यवाणी की गई वस्तुओं की कुल संख्या के लिए सटीक रूप से पहचानी गई वस्तुओं का अनुपात है (सही सकारात्मक के लिए सकारात्मक स्थिति और झूठी सकारात्मक के अनुपात)।

स्मरण छवियों में वास्तविक वस्तुओं की कुल संख्या के लिए सही पहचानी गई वस्तुओं का अनुपात है (वास्तविक सकारात्मकता के साथ वास्तविक सकारात्मक के अनुपात)।

एमएपी: सटीक के उत्पाद के आधार पर एक सरल औसत औसत सटीक स्कोर और डेटेक्टनेट के लिए याद। यह इस बात के लिए एक अच्छा संयुक्त उपाय है कि नेटवर्क ब्याज की वस्तुओं के प्रति कितना संवेदनशील है और झूठे अलार्म से कैसे बचा जाता है।


2

स्थानीयकरण शब्द अस्पष्ट है। इसलिए मैं शब्दों का पता लगाने और शब्दार्थ विभाजन पर चर्चा करूंगा।

ऑब्जेक्ट डिटेक्शन में, प्रत्येक छवि पिक्सेल को वर्गीकृत किया जाता है चाहे वह किसी विशेष वर्ग (जैसे चेहरा) से संबंधित हो या नहीं। व्यवहार में, बाउंडिंग बॉक्स बनाने के लिए पिक्सल को एक साथ समूहित करके इसे सरल बनाया जाता है, इसलिए यह तय करने के लिए समस्या को कम किया जाए कि क्या बाउंडिंग बॉक्स ऑब्जेक्ट के चारों ओर एक तंग फिट है। जैसा कि पिक्सेल कई ऑब्जेक्ट्स (उदाहरण के लिए चेहरा, आंख) से संबंधित होते हैं, वे एक ही समय में कई लेबल पकड़ सकते हैं।

दूसरी ओर, शब्दार्थ विभाजन में प्रत्येक छवि पिक्सेल में कक्षा लेबल निर्दिष्ट करना शामिल है। जबकि वे बेहतर स्थानीयकरण सटीकता के लिए अनुमति देते हैं क्योंकि वे बाउंडिंग बॉक्स सरलीकरण को शामिल नहीं करते हैं, वे सख्ती से प्रति पिक्सेल एक लेबल लागू करते हैं।


-2

सिमेंटिक सेगमेंटेशन: यह छवियों के कुछ हिस्सों को एक साथ जोड़ने का कार्य है जो एक ही ऑब्जेक्ट क्लास से संबंधित हैं। उदाहरण: सड़क के संकेतों का पता लगाना


2
लेकिन सड़क के संकेतों का पता लगाना वस्तु का पता लगाना है। क्या आप अंतर समझा सकते हैं?
रीयरियरपोस्ट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.