मेरे पास एक परियोजना पर आधारित एक दिलचस्प चर्चा थी, जिस पर हम काम कर रहे थे: टेम्पलेट मिलान एल्गोरिथ्म पर सीएनएन दृश्य निरीक्षण प्रणाली का उपयोग क्यों करें?
पृष्ठभूमि: मैंने एक साधारण सीएनएन विज़न सिस्टम (वेबकेम + लैपटॉप) का एक डेमो दिखाया था जिसमें पता चला था कि एक विशेष प्रकार की वस्तु "टूटी हुई" / दोषपूर्ण है या नहीं - इस मामले में, पीसीबी सर्किट बोर्ड। मेरे सीएनएन मॉडल को एक स्थिर पृष्ठभूमि पर उचित और टूटे सर्किट बोर्ड (प्रत्येक की लगभग 100 छवियां) के उदाहरण दिखाए गए थे। हमारे मॉडल ने पहले से प्रशिक्षित VGG16 (इमेजेनैट पर) के पहले कुछ कनव / मैक्समूल परतों का उपयोग किया, और फिर हमने कुछ और ड्रैंस के साथ कुछ और ट्रेन योग्य कन्टेंस / पूल जोड़े, जिनकी वजह से वर्गीकरण के लिए एक मंद -3 एक हॉट एन्कोडेड एक्टर्ड आउटपुट प्राप्त हुआ। : (is_empty, has_good_product, has_defective_product)।
मॉडल ने बहुत आसानी से प्रशिक्षित किया और बिना किसी समस्या के 99% सत्यापन तक पहुंच गया; जब हम जानते थे कि हमारे डेटासेट छोटे थे, तो हमने विभिन्न डेटा संवर्द्धन के साथ प्रशिक्षण दिया। व्यवहार में, यह 10 में से 9 बार काम करता था, लेकिन एक ही सर्किट बोर्ड के कुछ यादृच्छिक अनुवाद / घुमाव कभी-कभी इसे विपरीत वर्ग में डालते थे। शायद अधिक आक्रामक डेटा वृद्धि ने मदद की होगी। वैसे भी, एक प्रोटोटाइप अवधारणा परियोजना के लिए हम खुश थे।
अब हम एक अन्य इंजीनियर और उनके सहयोगी को प्रस्तुत कर रहे थे, और उन्होंने यह तर्क पेश किया कि एनएन इसके लिए ओवरकिल हैं, बस टेम्पलेट मिलान का उपयोग करना चाहिए, कोई सीएनएन क्यों करना चाहेगा?
हमारे पास इस बात का कोई बड़ा जवाब नहीं था कि हमारा दृष्टिकोण कुछ अनुप्रयोगों में बेहतर क्यों हो सकता है (उदाहरण के लिए निरीक्षण करने के लिए अन्य भागों)। कुछ बिंदु जो हम लाए हैं:
1) आक्रमणकारियों के लिए अधिक मजबूत (उदाहरण के लिए डेटा वृद्धि)
2) सिस्टम को बेहतर बनाने के लिए ऑनलाइन लर्निंग कर सकते हैं (जैसे मानव सॉफ्टवेयर को बता सकता है कि कौन से उदाहरण गलत हो गए)
3) शास्त्रीय कंप्यूटर दृष्टि एल्गोरिदम की तरह थ्रेसहोल्ड सेट करने की कोई आवश्यकता नहीं है आप लोग क्या सोचते हैं, क्या इस प्रकार के निरीक्षण कार्य के लिए सीएनएन सिस्टम के लिए अधिक फायदे हैं? किन मामलों में यह मिलान से बेहतर होगा?
जब एनएन के लिए कुछ और यादृच्छिक विचार काम के लिए तकनीकी हो सकते हैं: उन प्रणालियों के लिए जिन्हें इनपुट के हिस्से के रूप में 3 डी गहराई संवेदन की आवश्यकता होती है, या किसी भी प्रकार की वस्तु जिसे विकृत / फैला / स्किड किया जा सकता है लेकिन फिर भी "अच्छा" हो सकता है। दोषपूर्ण नहीं (उदाहरण के लिए एक भरवां जानवर, तार, आदि)। अपने विचारों को सुनने के लिए उत्सुक :)