भरी हुई कांच की वस्तु का पता लगाना


10

स्टैकओवरफ़्लो में मुझे इस प्रश्न से यहाँ भेजा गया है , कृपया मुझे क्षमा करें यदि प्रश्न बहुत विशिष्ट आता है और यह यहाँ के शिष्टाचार में नहीं है :)

कार्य यह है कि इसमें विशिष्ट तरल के साथ एक गिलास मिल जाए। मैं आपको तस्वीरें दिखाता हूं और फिर वर्णन करता हूं कि मैं क्या हासिल करने की कोशिश कर रहा हूं और तस्वीरों के नीचे विवरण में मैं अब तक कैसे हासिल करने की कोशिश कर रहा हूं।

चित्र : (लगता है मुझे चित्रों और लिंक को पोस्ट करने के लिए कम से कम 10 प्रतिष्ठा की आवश्यकता है, इसलिए लिंक करना होगा :( अन्यथा आप स्टैक ओवरफ्लो प्रश्न को देख सकते हैं)

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

एक विस्तृत विवरण : मैं एक एल्गोरिथ्म को लागू करने की कोशिश कर रहा था जो कि ओपेंसेव में एक विशिष्ट आकार के एक गिलास का पता लगाएगा (ग्लास को एक अलग कैमरा शॉट कोण / दूरी द्वारा बदल दिया जा सकता है)। अन्य आकृतियों के अन्य ग्लास भी होंगे। मैं जिस ग्लास की खोज कर रहा हूँ, वह भी कुछ रंगीन तरल से भरा होगा जो इसे अन्य रंगों वाले चश्मे से अलग करेगा।

अब तक, मैंने ग्लास में कुछ सुविधाओं को खोजने की कोशिश करने के लिए SIFT फीचर एक्सट्रैक्टर का उपयोग करने की कोशिश की है और फिर इसमें ग्लास के साथ अन्य फ़ोटो के साथ उनका मिलान किया है।

इस दृष्टिकोण ने केवल बहुत ही विशिष्ट परिस्थितियों में काम किया, जहां मैं एक बहुत विशिष्ट स्थिति में ग्लास होगा और पृष्ठभूमि सीखने की छवियों के समान होगी। समस्या यह भी है कि ग्लास एक 3 डी ऑब्जेक्ट है और मुझे नहीं पता कि इससे कैसे फीचर्स निकाले जा सकते हैं (हो सकता है कि अलग-अलग एंगल से जुड़े कई फोटो किसी तरह जुड़े हों?)।

अब मुझे नहीं पता कि मैं किस अन्य दृष्टिकोण का उपयोग कर सकता हूं। मुझे इस पर कुछ सुराग मिले हैं (यहाँ /programming/10168686/algorithm-improvement-for-coca-cola-can-shape-recognition#answer-10219818 ) लेकिन लिंक टूटे हुए लग रहे हैं।

इस तरह के ग्लास में विभिन्न "खालीपन के स्तर" का पता लगाने के लिए एक और समस्या होगी, लेकिन मैं अभी तक ग्लास को ठीक से खोजने में सक्षम नहीं हुआ हूं।

इस कार्य में दृष्टिकोण पर आपकी सिफारिशें क्या होंगी? क्या स्थानीय 3 डी ऑब्जेक्ट फीचर को खोजने के लिए एक अलग तरीके का उपयोग करना बेहतर होगा? या पूरी तरह से अन्य दृष्टिकोण का उपयोग करना बेहतर होगा? मैंने कई तस्वीरों के एक सेट से ऑब्जेक्ट को "सीखने" के बारे में सुना है लेकिन मैंने इसे अभ्यास में कभी नहीं देखा है।

किसी भी सलाह वास्तव में सराहना की जाएगी


सी # में पूर्ण स्रोत कोड नमूने के साथ कोई अंतिम समाधान?
किकेनेट

वाह यह काफी विशिष्ट अनुरोध है। समस्या का अभी तक समाधान नहीं हुआ है और मैं इसे सुलझाने में अधिक समय नहीं लगाऊंगा। मेरा मानना ​​है कि यहां उल्लिखित कागज को देखते हुए, कि वैज्ञानिक आधारों का समाधान बहुत जल्द और न ही होगा, क्योंकि सुझाए गए एल्गोरिथ्म में बहुत सटीक सटीक दरें थीं। वैसे भी, चूंकि यह परियोजना मेरी नौकरी के लिए थी, इसलिए मैंने एक ग्राहक के साथ समझौता करने के बारे में बहस करना समाप्त कर दिया, क्योंकि यह कार्य पूरा होने के लिए असत्य है। "कुछ भी है कि एक कप की तरह लग रहा है" के लिए कुछ नियमित haar की तरह सुविधा डिटेक्टरों का इस्तेमाल किया और फिर बीयर का पता लगाने के लिए पीले रंग के hues का चयन किया। मूल कार्य नहीं
user1916182

जवाबों:



0

शायद यह कागज आपकी मदद कर सकता है: http://ai.stanford.edu/~ang/papers/iros09-ScalableLearningObjectDetectionGPU.pdf

यद्यपि वे गहराई से छवियों को प्राप्त करने के लिए 2 डी छवियों के अलावा सक्रिय स्टीरियो सिस्टम का उपयोग करते हैं, यह दिलचस्प है कि वे पैच-आधारित सुविधाओं का उपयोग कैसे करते हैं, कई छोटे टुकड़ों के साथ वस्तु के शब्दकोश का निर्माण करते हैं और फिर एक क्लासिफायरियर का प्रशिक्षण करते हैं। हो सकता है कि आप अपनी पहचान दर में सुधार करने के लिए इस सुविधाओं को जोड़ सकते हैं।


मुझे नहीं लगता कि इस काम को जंगली प्रैक्सिस में बहुत अच्छी तरह से इस्तेमाल किया जा सकता है। कागज में वर्णित रोबोट को गहराई की जानकारी का पता लगाने के लिए एक गहराई संवेदक की आवश्यकता होती है ... सेलफोन या किसी चीज़ पर यादृच्छिक चित्र लेने के दौरान किनेक्ट को ले जाने के लिए बहुत व्यावहारिक नहीं ... लेकिन हाँ, पैच आधारित विशेषताएं बहुत दिलचस्प दृष्टिकोण हैं!
user1916182

-1

फेशियल रिकग्निशन सॉफ्टवेयर की बात करें तो इस पर बहुत काम किया गया है। उदाहरण के लिए, यदि आप फ़ोटोज़ को टैग करते समय फ़ेसबुक पर देखते हैं तो चेहरों के स्थान को बॉक्स किया जाता है और आपको सुझाव दिया जाता है।

मैंने तंत्रिका नेटवर्क का उपयोग करके चित्रों में चेहरे की पहचान पर बहुत अधिक साहित्य देखा है और एक त्वरित Google खोज निस्संदेह विषय पर जानकारी की एक बड़ी मात्रा को बदल देगी। ये नेटवर्क इमेज के पिक्सल को इनपुट के रूप में लेते हैं। आपके मामले में, जिस तरह से अपारदर्शिता / प्रकाश का परिवर्तन कांच को दर्शाता है, वह पहचानने की अच्छी विशेषताएं हो सकती हैं जो नेटवर्क सीखेगा।

एक समस्या उन तस्वीरों की संख्या हो सकती है जिन्हें आपको प्रशिक्षण डेटा और इन के पूर्व-प्रसंस्करण के रूप में उपयोग करना है (अर्थात स्वयं चेहरे की पहचान करना)। यदि आपके नेटवर्क को अच्छी तरह से प्रशिक्षित करने के लिए पर्याप्त छवियों के लिए ऐसा करना अक्षम्य है तो आपको सीखने के चरण में कुछ शॉर्टकट देखने होंगे। यह पेपर प्रासंगिक है कि आप क्या करना चाहते हैं: http://www.ll.mit.edu/publications/journal/pdf/vol04_no2/4.2.5.neuralnetwork.pdf

सौभाग्य से यह एक बहुत सक्रिय क्षेत्र है और इस प्रकार की समस्या के लिए आवश्यक कोड बहुत आसानी से ऑनलाइन उपलब्ध है।

एक बार जब आप छवियों में चश्मे की पहचान करने में सक्षम हो जाते हैं तो आप वहां से और विश्लेषण कर सकते हैं।


यह पूरी तरह से अप्रासंगिक है
user1916182

दिलचस्प है कि आपको कहना चाहिए वैसे भी यहाँ तंत्रिका नेटवर्क पर आधारित फेसबुक द्वारा उपयोग किए गए डिटेक्ट एल्गोरिदम का लिंक है। गुड लक, github.com/facebookresearch/Detectron
rwolst
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.