पिक्सेल-आधारित और ऑब्जेक्ट आधारित वर्गीकरण के बीच अंतर?


14

मैं रिमोट सेंसिंग डोमेन में पिक्सेल-आधारित और ऑब्जेक्ट-आधारित वर्गीकरण के बीच के अंतर को स्पष्ट रूप से समझने के लिए संघर्ष कर रहा हूं और उम्मीद कर रहा हूं कि इस समुदाय से कोई व्यक्ति अंतर्दृष्टि प्रदान कर सकता है।

मेरे पास अब तक की जानकारी के आधार पर, मेरी वर्तमान समझ इन पंक्तियों के साथ है:

पिक्सेल-आधारित वर्गीकरण: प्रति पिक्सेल स्तर पर वर्गीकरण किया जाता है, केवल उस व्यक्तिगत पिक्सेल के लिए उपलब्ध वर्णक्रमीय जानकारी का उपयोग करते हुए (अर्थात इलाके के भीतर पिक्सेल के मूल्यों को अनदेखा किया जाता है)। इस अर्थ में प्रत्येक पिक्सेल एक वर्गीकरण एल्गोरिथ्म के लिए एक प्रशिक्षण उदाहरण का प्रतिनिधित्व करेगा, और यह प्रशिक्षण उदाहरण एक n- आयामी वेक्टर के रूप में होगा, जहां n छवि डेटा में वर्णक्रमीय बैंड की संख्या थी। तदनुसार प्रशिक्षित वर्गीकरण एल्गोरिदम एक छवि में प्रत्येक व्यक्ति पिक्सेल के लिए एक वर्ग भविष्यवाणी का उत्पादन करेगा।

ऑब्जेक्ट-आधारित वर्गीकरण: पिक्सल के स्थानीयकृत समूह पर वर्गीकरण किया जाता है, प्रत्येक पिक्सेल के स्थानिक गुणों को ध्यान में रखते हुए वे एक दूसरे से संबंधित होते हैं। इस अर्थ में एक वर्गीकरण एल्गोरिथ्म के लिए एक प्रशिक्षण उदाहरण में पिक्सल्स का एक समूह शामिल होगा, और प्रशिक्षित वर्गीकरण एल्गोरिदम तदनुसार समूह के आधार पर पिक्सल्स के लिए एक वर्ग भविष्यवाणी का उत्पादन करेगा। एक क्रूड उदाहरण के लिए, एक छवि को समान आकार के एन सेगमेंट में विभाजित किया जा सकता है, और प्रत्येक सेगमेंट को तब एक वर्ग दिया जाएगा (अर्थात इसमें ऑब्जेक्ट / ऑब्जेक्ट शामिल नहीं है)।

क्या यह सोच इन शर्तों के अर्थ के बारे में सटीक है, या क्या ऐसा कुछ है जो मैंने याद किया है?

जवाबों:


9

आपकी समझ आम तौर पर सही है, हालांकि, वस्तु आधारित वर्गीकरण के आपके विवरण में खतरे हैं - 'ऑब्जेक्ट' शब्द का अर्थ पिक्सेल के समूह से है, न कि इसमें किसी दिए गए ऑब्जेक्ट को शामिल किया गया है या नहीं।
इसके अलावा, एक वस्तु आधारित वर्गीकरण में केंद्रीय लक्ष्य बराबर आकार के क्षेत्रों के लिए, लेकिन "कटा हुआ" के लिए नहीं है / छवि के आंतरिक रूप से सजातीय मात्रा में ऊपर ही खंडित अलग आकार। अंत में, वस्तु-आधारित वर्गीकरण के लिए प्रशिक्षण उदाहरण आमतौर पर छवि विभाजन में निर्मित एक या अधिक हिस्सा होगा।

सभी में, उपरोक्त आपके विवरण पर केवल मामूली बदलाव है।

अब केंद्रीय भाग पर - प्रत्येक पद्धति को कब लागू करना है, और संभावित रूप से अपनी ताकत को कैसे संयोजित करना है।


धन्यवाद, जिसने वास्तव में स्पष्ट करने में मदद की है। मुझे संदेह था कि मुझे वस्तु-आधारित वर्गीकरण की सूक्ष्मता समझ में नहीं आई है! यह दिलचस्प है कि आप हाइब्रिड दृष्टिकोणों की संभावना का उल्लेख करते हैं, मैंने अभी तक इसके बारे में नहीं सोचा था। क्या मैं पूछ सकता हूं, अगर मैं वस्तुओं का पता लगाने और वर्गीकृत करने के लिए स्लाइडिंग विंडो दृष्टिकोण ले रहा था, तो क्या रिमोट सेंसिंग डोमेन में इस तरह के दृष्टिकोण के लिए एक तकनीकी शब्द है?
RDG

1
हां, इसे संकल्‍प कहते हैं। मेरा जवाब देखिए।
जॉन पॉवेल

मेरी राय में, पिक्सेल आधारित वर्गीकरण में शून्य ताकत है। दिलचस्प वर्कफ़्लोज़ हैं जिनमें बाउंडिंग बॉक्स और स्थान की भविष्यवाणी करने के लिए दृढ़ संकल्प प्लस प्रतिगमन शामिल हैं, लेकिन अपने आप पर पिक्सेल-आधारित वर्गीकरण का कोई मूल्य नहीं है, इम्हो।
जॉन पॉवेल

1
@ JohnPowellakaBarça - बहु-विषयक अनुप्रयोगों पर विचार करते समय पिक्सेल-आधारित दृष्टिकोणों में कुछ मूल्य है, जहां पारंपरिक एकल टाइमस्टेप के बजाय वर्गीकरण बदलते क्षेत्रों पर अधिक केंद्रित है।
मिकेल लिडहोम रासमुसेन

1
ज़रूर, हाँ, काफी उचित। हालांकि, यकीनन, क्षेत्र आधारित दृष्टिकोण, सदिश, और फिर समय की तुलना में, संभावित रूप से बड़ी अंतर्दृष्टि प्राप्त कर सकता है, लेकिन आपकी बात अच्छी तरह से ली गई है।
जॉन पॉवेल

12

जहाँ तक पिक्सेल-आधारित वर्गीकरण का संबंध है, आप हाजिर हैं। प्रत्येक पिक्सेल एक एन-डायमेंशनल वेक्टर है और कुछ मेट्रिक के अनुसार किसी न किसी वर्ग को सौंपा जाएगा, चाहे सपोर्ट वेक्टर मशीन, एमएलई, किसी प्रकार का नॉन क्लासिफायर, आदि।

जहां तक ​​क्षेत्र आधारित क्लासिफायर का सवाल है, हालांकि, पिछले कुछ वर्षों में बहुत सारे विकास हुए हैं, GPU के संयोजन से संचालित, डेटा की विशाल मात्रा, क्लाउड और एल्गोरिदम की व्यापक उपलब्धता खुले स्रोत के विकास के लिए धन्यवाद (सुविधा) github द्वारा)। कंप्यूटर दृष्टि / वर्गीकरण के सबसे बड़े विकास में से एक है कंसिस्टेंट न्यूरल नेटवर्क (CNNs)। पारंपरिक पिक्सेल-आधारित क्लासिफायर के साथ, रंग के आधार पर, "रंग" पर आधारित हो सकती है, लेकिन यह भी एज डिटेक्टरों और सभी प्रकार के अन्य फ़ीचर एक्सट्रैक्टर्स बनाते हैं जो पिक्सेल के क्षेत्र में मौजूद हो सकते हैं (इसलिए कंफ्यूजनियल पार्ट) पिक्सेल-आधारित वर्गीकरण से कभी भी नहीं निकाला जा सकता है। इसका मतलब है कि वे किसी अन्य प्रकार के पिक्सेल के क्षेत्र के बीच एक पिक्सेल को गलत तरीके से वर्गीकृत करने की कम संभावना रखते हैं - यदि आपने कभी वर्गीकरण चलाया है और अमेज़ॅन के बीच में बर्फ मिली है, तो आप इस समस्या को समझेंगे।

फिर आप वास्तव में वर्गीकरण करने के लिए संकल्पों के माध्यम से सीखी गई "सुविधाओं" से पूरी तरह से जुड़ा हुआ तंत्रिका जाल लागू करते हैं। CNNs के अन्य महान फायदों में से एक यह है कि वे स्केल और रोटेशन अपरिवर्तनीय हैं, क्योंकि आमतौर पर कनवल्शन लेयर्स और वर्गीकरण परत के बीच मध्यवर्ती परतें होती हैं, जो सुविधाओं का सामान्यीकरण करती हैं, पूलिंग और ड्रॉपआउट का उपयोग करते हुए, ओवरफिटिंग से बचने और आसपास के मुद्दों के साथ मदद करने के लिए पैमाने और अभिविन्यास।

कंफर्टेबल न्यूरल नेटवर्क पर कई संसाधन हैं, हालांकि सबसे अच्छा आंद्रेई करपैथी का स्टैंडर्ड क्लास है , जो इस क्षेत्र के अग्रदूतों में से एक है, और संपूर्ण व्याख्यान श्रृंखला यूट्यूब पर उपलब्ध है ।

निश्चित रूप से, पिक्सेल बनाम क्षेत्र आधारित वर्गीकरण से निपटने के अन्य तरीके हैं, लेकिन वर्तमान में यह कला दृष्टिकोण की स्थिति है, और रिमोट सेंसिंग वर्गीकरण से परे कई एप्लिकेशन हैं, जैसे कि मशीन अनुवाद और सेल्फ-ड्राइविंग कारें।

यहाँ क्षेत्र-आधारित वर्गीकरण का एक और उदाहरण है , टैग किए गए प्रशिक्षण डेटा के लिए ओपन स्ट्रीट मैप का उपयोग करना, जिसमें TensorFlow की स्थापना और AWS पर चलने के निर्देश शामिल हैं।

यहां एक उदाहरण के रूप में धार का पता लगाने के आधार पर एक क्लासिफायरियर के Google अर्थ इंजन का उपयोग किया जाता है, इस मामले में धुरी सिंचाई के लिए - गॉसियन कर्नेल और संकल्पों से अधिक कुछ भी नहीं का उपयोग करते हुए, लेकिन फिर से, क्षेत्र / धार आधारित दृष्टिकोणों की शक्ति दिखाते हुए।

यहाँ छवि विवरण दर्ज करें

जबकि पिक्सेल-आधारित क्लासफिकेशन पर वस्तु की श्रेष्ठता को व्यापक रूप से स्वीकार किया जाता है, यहां दूरस्थ संवेदी पत्रों में एक दिलचस्प लेख है जो ऑब्जेक्ट-आधारित वर्गीकरण के प्रदर्शन का आकलन करता है

अंत में, एक मनोरंजक उदाहरण, बस यह दिखाने के लिए कि क्षेत्रीय / विचारात्मक आधारित क्लासीफायर के साथ, कंप्यूटर की दृष्टि अभी भी वास्तव में कठिन है - सौभाग्य से, Google, फेसबुक, आदि में सबसे चतुर लोग, के बीच के अंतर को निर्धारित करने में सक्षम होने के लिए एल्गोरिदम पर काम कर रहे हैं कुत्तों, बिल्लियों और कुत्तों और बिल्लियों की अलग-अलग नस्लें। इसलिए, रिमोट सेंसिंग में रुचि रखने वाले लोग रात में आसानी से सो सकते हैं: डी

यहाँ छवि विवरण दर्ज करें


0

एक बहुत ही सरल उत्तर इस प्रकार है:

यदि आप प्रशिक्षण सेट के रूप में केवल वर्णक्रमीय जानकारी (पिक्सेल तीव्रता) का उपयोग करते हैं तो आप पिक्सेल आधार वर्गीकरण करते हैं।

यदि आप स्थानिक (पड़ोस पिक्सल) और वर्णक्रमीय जानकारी दोनों का उपयोग प्रशिक्षण सेट के रूप में करते हैं, तो आप ऑब्जेक्ट बेस वर्गीकरण (विभाजन आधारित एल्गोरिथ्म जैसे DBScan का उपयोग करके) करते हैं। कंप्यूटर विज़न में इस डीबीएसकेन का उपयोग सुपरपिक्सल निष्कर्षण के लिए किया गया था।

नोट: आप सुविधा निकासी के लिए वर्णक्रमीय जानकारी का उपयोग किसी भी अर्थ (आकार, आकार, संदर्भ / बनावट) में कर सकते हैं।

वर्णक्रमीय जानकारी का उपयोग करके सुविधा निष्कर्षण करने के लिए आप विभिन्न तरीकों का उपयोग कर सकते हैं।

मुख्य सवाल यह है कि सुविधा की निकासी के लिए कोई व्यक्ति सबसे उचित दृष्टिकोण कैसे पा सकता है और वर्णक्रमीय जानकारी से बाहर ड्राइव करने के लिए कुशल समस्या के लिए कुशल एल्गोरिथम (किनारे का पता लगाने, स्पेक्ट्रल-आधारित विभाजन, क्लस्टरिंग) को लागू कर सकता है।

एक प्रशिक्षण सेट बनाने के लिए वर्णक्रमीय और स्थानिक जानकारी दोनों में अच्छा विश्लेषण करने के लिए कन्वेंशन मैट्रिक्स के बारे में सोच सकते हैं।

संदर्भ: रिमोट सेंसिंग और जीआईएस डोमेन में काम करने के 3 साल से अधिक का अनुभव होने के बाद मेरा ज्ञान।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.