ऊपर से पता लगाने वाले लोग


16

मैं जमीन से केवल 3 मीटर ऊपर एक कैमरे का उपयोग करके लोगों का पता लगाने के लिए कुछ विधि खोजने की कोशिश कर रहा हूं। यह कैमरा द्वारा लौटाया गया एक फ्रेम है:

यहाँ छवि विवरण दर्ज करें

अद्यतन: वीडियो परीक्षण -> http://dl.dropbox.com/u/5576334/top_head_shadow.avi

ऐसा करने के लिए, पहले मैं समझता हूं कि मुझे पृष्ठभूमि-अग्रभूमि विभाजन करना है। वह आसान हिस्सा है।

अग्रभूमि के मुखौटे के साथ, मैं हलकों को खोजने के लिए इस तरह के पर्याप्त परिवर्तन को सरल ऑपरेशन करने में सक्षम हूं, लेकिन इस तरह से केवल 60% प्रमुखों का पता लगाता है, जिसमें कई झूठे सकारात्मक भी शामिल हैं।

मैं रंग विभाजन जैसी कुछ अन्य सरल तकनीकों का उपयोग कर सकता था, लेकिन मैंने पाया कि लोगों के सिर उनके केश, रंग, बालों की मात्रा, ...

अन्य विकल्प जो मेरे पास हैं, हालांकि इसके बारे में HOG Descriptors, या Haar जैसी सुविधाओं का उपयोग करने की संभावना है, लेकिन मुझे मॉडल को प्रशिक्षित करने के लिए ऊपर से देखे गए लोगों के व्यापक डेटाबेस की आवश्यकता होगी। मुझे ऐसा कुछ नहीं मिला है।

मुझे लगा कि यह एक बहुत ही समवर्ती समस्या होगी, लेकिन मैं इसके बारे में साहित्य या इंटरनेट में बहुत अधिक नहीं पा सकता हूं। इस कार्य को हल करने के लिए किसी भी मदद की सराहना की जाएगी :-)

अद्यतन: अधिक जानकारी के लिए, पैदल यात्री प्रवाह पर नज़र रखने के लिए कुछ सामान्य पद्धति को लागू करना लक्ष्य है। एक मॉल में पहले प्रोटोटाइप का परीक्षण किया जाएगा।


1
यदि आप कुछ वीडियो पोस्ट कर सकते हैं, तो एक मौका है कि कोई व्यक्ति एक प्रोटोटाइप लिखेगा। क्या आप कृपया पोस्ट कर सकते हैं?
एंड्री रूबश्टिन

@ और, मैंने समस्या दिखाते हुए एक वीडियो परीक्षण अपलोड किया।
एम्पेट्रेस

@emepetres यदि आपके पास इस समस्या का परीक्षण करने के लिए संसाधन हैं, तो शायद आपके पास द्वितीयक कैमरा खोजने के लिए भी संसाधन हैं? दो कैमरों (एक शीर्ष-दृश्य, और एक ललाट या एक कोण से) के दृश्यों का संयोजन और दोनों ध्वनियों से जानकारी का उपयोग करना दिलचस्प लगता है और पैदल प्रवाह पर नज़र रखने के लिए एक प्रशंसनीय दृष्टिकोण की तरह है (आपकी ज़रूरत सटीकता के आधार पर)
पेनेलोप

4
इस कार्य को साहित्य में "लोगों की गिनती" कहा जाता है।
मर्ग्लोम

क्या आप इस वीडियो के लिए लिंक प्रदान कर सकते हैं यह उपलब्ध लिंक में अब उपलब्ध नहीं है
गरविता तिवारी

जवाबों:


11

क्या कोई अन्य वस्तुएं हैं जो लोगों के पास जा सकती हैं? अगर वहाँ नहीं हैं, तो आप अपने अग्रभूमि के मुखौटे में केवल बूँदें (जुड़े हुए घटक) पा सकते हैं, और ये आपके लोग हैं।

वे एक दूसरे के साथ "टकरा" सकते हैं, दो के बजाय एक बूँद बना सकते हैं। इस मामले में, आप एक गति ट्रैकिंग कर सकते हैं और इस तथ्य का उपयोग करके अस्पष्टता को हल कर सकते हैं कि प्रक्षेपवक्र और गति चिकनी है।

यदि अन्य वस्तुएं (जैसे कुत्ते, कार) हैं, तो आपको एक क्लासिफायरियर बनाना चाहिए जो बूँद मापदंडों को प्राप्त करता है जैसे:

  • बूँद आँकड़े (आकार, ठोसता, आदि ..)
  • रंग
  • एज की जानकारी
  • गति (ट्रैकिंग के मामले में)

और सही वर्ग (मानव / मानव नहीं) लौटाता है।


1
मैं एक मजबूत विधि की तलाश कर रहा हूं जो मानव / गैर-मानव के बीच भी अंतर कर सके। इस तरह, आपके जवाब के बारे में सोचने के बाद, मुझे लगता है कि आपने जो सुझाव दिया था, उसमें कुछ मापदंडों का उपयोग करते हुए ट्रैकिंग विशेषताओं के साथ संयुक्त और बूँद की कुछ सांख्यिकीय जानकारी पर्याप्त रूप से मजबूत होनी चाहिए।
एमीपेट्रेस

8

मैं "अच्छी तरह से परीक्षण किए गए तरीकों का उपयोग करने के लिए गया हूं" मुझे उदाहरणों के एक व्यापक डेटाबेस की आवश्यकता होगी जो मेरे पास "बहुत छोटी कंपनी में स्थिति" नहीं है जो "इसे बर्दाश्त नहीं कर सके"। मुझे बहुत पछतावा है कि मैंने जितना संभव हो उतना डेटा प्राप्त करने के लिए जो भी आवश्यक था, वह नहीं किया। मुझे लगता है कि अंत में यह उनके लिए अंतर की दुनिया बना देता।

किसी भी प्रकार की वास्तविक विश्व दृष्टि का पता लगाने की एक लाख चीजें हैं जो आपने तब तक नहीं सोची थीं जब तक आप इसे करने की कोशिश नहीं करते और यह विफल हो गया। यह एक पुरानी समस्या है, कई बार यह प्रकट होने की तुलना में अधिक कठिन है। मैं "दिग्गजों के कंधों पर खड़े होने" (या लगभग उतना ही अच्छा, बौनों के बड़े ढेर पर) के न्यूटन विधि से चिपके रहने की सलाह दूंगा। यही है, एक विधि का उपयोग करें जो आप पहले से ही जानते हैं कि काम करता है और मजबूत है। ऐसा लगता है कि सभी सामान "अच्छा पर्याप्त" होगा बजाय बुरी तरह से विफल हो जाएगा।

पैदल यात्री का पता लगाने की अंतिम अवस्था में मुझे पता था कि HOG था जो मूल रूप से उस सेटिंग में परीक्षण किया गया था। आप ट्रैकिंग करना चाहते हैं ताकि आपको इसे खोजने के लिए Google विद्वान में थोड़ा घूमना पड़े। मेरा मुख्य बिंदु खरीदें, मैं एक समान स्थिति में हूं और इससे मैं आपको अपने डेटाबेस को प्राप्त करने की सलाह दूंगा, जो कुछ भी आपको करना है, और कुछ ऐसे कार्यों का उपयोग करें जिन्हें आप जानते हैं, जो पहले से ही ज्ञात विफलता दर के साथ परीक्षण किया गया है, नहीं कुछ ऐसा है बस अच्छा लग रहा है। कंप्यूटर विज़न एल्गोरिदम का 40 साल का डेथ मार्च, जो "वे काम करेंगे जैसे ध्वनि" कुछ ऐसा नहीं है जिसका आप हिस्सा बनना चाहते हैं।

PS कंप्यूटर की दृष्टि को कम करने की कोशिश नहीं कर रहा है। यह मेरे पसंदीदा क्षेत्रों में से एक है। लेकिन यह इतिहास बताता है कि बहुत सारे सही कदम उठाने के लिए एक हजार गलत कदम हैं। इसका पालन करना बेहतर है जो पहले से ही उन कुछ सही कदमों का पता लगा ले।


शायद आप सही हैं, और मुझे कुछ समय बिताने के लिए एक अच्छा डेटाबेस बनाने और एक एचओजी विवरणक का परीक्षण करने के लिए डेटाबेस बनाना चाहिए। इस तरह, क्या आप जानते हैं कि प्रशिक्षण को सही ढंग से बनाने के लिए इस डेटाबेस में कौन सा न्यूनतम आकार होगा?
एमीपेट्रेस

1
मुझे नहीं पता। संभव के रूप में एक किस्म के रूप में। इसके अलावा, HOG एक डिटेक्टर है, यह "एक व्यक्ति के लिए हाँ" या "कोई व्यक्ति नहीं" एक छवि के लिए प्रतिक्रिया देता है और कुछ नहीं। यह इस बारे में कुछ नहीं कहता है कि व्यक्ति (स्थान) या पिक्सल कौन से व्यक्ति (विभाजन) हैं या क्या एक व्यक्ति बनाम कई व्यक्ति हैं। मुझे लगता है कि एचओजी के लिए कुछ अनुकूलन किए गए हैं (कुछ पेटेंट किए गए हैं) लेकिन मुद्दा यह है कि आप जो चाहते हैं वह व्यक्ति ट्रैकिंग और एचओजी है क्योंकि यह खड़ा है केवल पता लगाने के बारे में है , यहां तक ​​कि स्थान भी नहीं। मैंने इसे कभी नहीं किया है लेकिन व्यक्ति ट्रैकिंग एक लंबे समय तक चलने वाला विषय है। ट्रैकिंग करने वाले व्यक्ति के कागजात देखें।
जॉन रॉबर्टसन

1
@ जॉन रॉबर्टसन HOG डिटेक्टर नहीं है यह सिर्फ डिस्क्रिप्टर है और इसका उपयोग कुछ क्लासिफिकेटर (उदाहरण के लिए SVM + HOG) के साथ किया जाता है और यह ऑब्जेक्ट का स्थान लौटा सकता है।
मर्ग्लोम

1
@mrgloom आप सही हैं। यह एक विंडो खोज कर स्थान वापस करता है। हालांकि यह एक बड़े निगम द्वारा पेटेंट विधि का उपयोग करके केवल तेजी से है। मैं यहाँ तकनीकी अर्थ में डिटेक्टर शब्द का उपयोग करने के लिए नहीं था, सिर्फ सादे अंग्रेजी अर्थ में कि यह कुछ ऐसा है जो पता लगाता है। यह केवल एक ढीले अर्थ में स्थान प्रदान करता है कि उस खिड़की के भीतर खिड़की के पैमाने के लगभग 80-90% पर कोई है लेकिन किसी भी पहचान के बिना खिड़की के किन हिस्सों के व्यक्ति के हो सकते हैं। मैं डिस्क्रिप्टर / डिटेक्टर तकनीकी भेद से परिचित हूं।
जॉन रॉबर्टसन

3

मुझे लगता है कि आप यहां से कुछ उत्तरों को मिलाकर शुरुआत कर सकते हैं।

इस उत्तर में वर्णित दो अलग-अलग दृष्टिकोण हैं , प्रमुख अंतर के साथ कि आपके लिए चेहरे का पता लगाना असंभव है क्योंकि आप चेहरे नहीं देखते हैं। लेकिन अन्य दृष्टिकोण अभी भी लागू है: मौसम का फैसला कुछ पैदल है या नहीं यह क्रियाओं (आंदोलनों) पर आधारित है

जैसा कि आपने भविष्यवाणी की थी, कुछ प्रकार के अग्रभूमि-पृष्ठभूमि विभाजन का उपयोग करने का सुझाव देते हैं। एक बहुत तेजी से googling ने यह हालिया लेख पाया को देखा जो बहुत आशाजनक लग रहा था, लेकिन जब से मैंने व्यक्तिगत रूप से ऐसा कभी नहीं किया है, तो आप या किसी और के पास इस कदम में उपयोग करने के लिए विशिष्ट एल्गोरिदम के लिए बेहतर सुझाव हो सकते हैं।

अब, मैंने जो पहला उत्तर दिया, वह सिर्फ एक सामान्य दृष्टिकोण है। यह उत्तर आपको अपने अगले चरणों के बारे में विचार दे सकता है: वस्तुओं को ट्रैक करें, और गति या चलती दिशा के आधार पर उनके बीच अंतर करने का प्रयास करें

अंत में, मैंने कभी भी आपकी समस्या का सामना नहीं किया, इसलिए मैं शायद ज्यादा मदद करने वाला नहीं हूं, लेकिन हो सकता है कि मेरे द्वारा जुड़े जवाब आपको शुरू करने के लिए कुछ सामान्य विचार दे सकें। इसने मुझे भी आश्चर्यचकित किया कि मैं आपकी समस्या का उत्तर खोजते समय कोई भी पिछला काम और लेख नहीं खोज सका, लेकिन तब, शायद आपको इस समस्या का वर्णन करने के लिए किसी को सही कीवर्ड बताने की आवश्यकता हो ।


आपके उत्तर के लिए धन्यवाद। अग्रभूमि विभाजन के बारे में लेख बहुत दिलचस्प लगता है। जैसा कि आपने और @Andrey ने सुझाव दिया, मैं प्रत्येक बूँद में मनुष्यों की संख्या निर्धारित करने के लिए बूँद विश्लेषण के दृष्टिकोण का पालन करूँगा।
एम्पेट्रेस

@emepetres यह अच्छा होगा यदि आप हमें अपने परिणामों के बारे में बताएं, और जब आप इसे आज़माएँ और इसे आज़माएं तो दृष्टिकोण कितना सफल रहा
पेनेलोप

1

लोगों को गिनते हुए मुझे यहाँ किसी प्रकार का काम है। लेकिन मेरी आवश्यकता यह है कि कैमरा को बाएं / दाएं तरफ से लोगों का सामना करना चाहिए, न कि सिर के ऊपर।

कहा जा रहा है कि, मेरे मामले के लिए संभावित समाधान की खोज करते हुए, मैं आपके मामले (ओवरहेड का पता लगाने) के लिए एक दिलचस्प विधि पर ठोकर खाता हूं। वे समाधान स्टीरियो कैमरा का उपयोग करते हैं ताकि आप गहराई को देखकर (जैसे कि केवल औसत लोगों के सिर के स्तर पर बूँदें देखें) को ब्लब्स संभाल सकें (जैसे लोग एक साथ बहुत करीब बढ़ रहे हैं)।

यह उत्पाद आपको बेहतर स्पष्टीकरण दे सकता है: digiop । अधिक तकनीकी स्पष्टीकरण के लिए विवरणिका देखें।

पीएस मैं कंपनी का प्रतिनिधित्व नहीं कर रहा हूं, बस एक अच्छी तरह से प्रलेखित समाधान को इंगित करता हूं


साझा करने के लिए धन्यवाद, यह समस्या को हल करने का एक दिलचस्प तरीका है।
एमीपेट्रेस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.