CNNs की पैटर्न मान्यता क्षमता छवि प्रसंस्करण तक सीमित है?


21

क्या एक समस्याग्रस्त डोमेन में पैटर्न मान्यता के लिए एक संवादात्मक तंत्रिका नेटवर्क का उपयोग किया जा सकता है, जहां पहले से मौजूद चित्र नहीं हैं, सार डेटा को रेखांकन द्वारा दर्शाते हैं? क्या यह हमेशा कम कुशल होगा?

इस डेवलपर का कहना है कि वर्तमान विकास और आगे बढ़ सकता है लेकिन छवि मान्यता के बाहर कोई सीमा नहीं है।


1
मुझे यहां कम से कम दो प्रश्न दिखाई देते हैं। आप विभाजन के बारे में कैसे सोचते हैं? इसके अलावा, यदि आप शीर्षक शीर्षक प्रश्न को खोज चुके हैं, तो आप इस सवाल का विस्तार कर सकते हैं कि यदि आप विस्तार कर सकते हैं, तो उच्च गुणवत्ता का रास्ता क्या होगा।
एरिक प्लटन

@EricPlaton ने इसे थोड़ा बढ़ा दिया। मेरा मुख्य प्रश्न सीएनएन और छवियों के बीच संबंध की प्रकृति के बारे में है। दूसरे प्रश्न के लिए आपका सुझाव क्या होगा?
dynrepsys

धन्यवाद, प्रश्न मेरे लिए अच्छा है (हालाँकि मुझे अब अपना उत्तर हटाना चाहिए ~)। दूसरे प्रश्न के लिए, "कैच क्या है" दृष्टिकोण के बारे में कैसे? "क्या यह हमेशा कम कुशल है?" अभी भी ठीक है अगर कोई प्रति-उदाहरण के साथ आ सकता है।
एरिक प्लटन

"क्या एक समस्याग्रस्त डोमेन में पैटर्न मान्यता के लिए एक संवादात्मक तंत्रिका नेटवर्क का उपयोग किया जा सकता है, जहां पहले से मौजूद चित्र नहीं हैं, क्या सार डेटा को रेखांकन द्वारा दर्शाते हैं?" क्या आप पूछ रहे हैं कि क्या हम छवि के रूप में किसी भी डेटा का प्रतिनिधित्व कर सकते हैं और सीएनएन लागू कर सकते हैं? जैसे 100-फीचर डेटासेट पढ़ना और इसे 10x10 इमेज के रूप में दर्शाते हैं?
rcpinto

जवाबों:


10

संवेगात्मक जाल (CNN) गणितीय संकेतन (जैसे 2D या 3D संकेतन) पर निर्भर करते हैं, जो आमतौर पर सिग्नल प्रोसेसिंग के लिए उपयोग किया जाता है। छवियाँ एक प्रकार का संकेत हैं, और दृढ़ संकल्प ध्वनि, कंपन आदि पर समान रूप से उपयोग किया जा सकता है। इसलिए, सिद्धांत रूप में, सीएनएन किसी भी संकेत के लिए आवेदन पा सकते हैं, और शायद अधिक।

व्यवहार में, पहले से ही एनएलपी (मैथ्यू ग्रेव्स द्वारा उल्लिखित) पर काम मौजूद है, जहां कुछ लोग पुनरावर्ती नेटवर्क के बजाय सीएनएन के साथ पाठ की प्रक्रिया करते हैं। कुछ अन्य कार्य ध्वनि प्रसंस्करण पर लागू होते हैं (यहां कोई संदर्भ नहीं है, लेकिन मैंने अभी तक अप्रकाशित कार्य जारी है)।


मूल सामग्री: मूल शीर्षक प्रश्न के उत्तर में, जो अब बदल गया है। शायद इसे हटाने की जरूरत है

प्रतिकूल नेटवर्क (और संबंधित) पर शोध से पता चलता है कि यहां तक ​​कि गहरे नेटवर्क को आसानी से बेवकूफ बनाया जा सकता है , जिससे उन्हें एक कुत्ते (या जो भी वस्तु) को देखने के लिए अग्रणी होता है, जब एक मानवीय नज़र आती है तो यह यादृच्छिक शोर प्रतीत होता है (लेख में स्पष्ट उदाहरण हैं)।

एक अन्य मुद्दा तंत्रिका नेटवर्क का सामान्यीकरण शक्ति है। संवादात्मक जाल ने दुनिया को अन्य तकनीकों की तुलना में बेहतर तरीके से सामान्य बनाने की क्षमता के साथ आश्चर्यचकित किया है। लेकिन अगर नेटवर्क केवल बिल्लियों की छवियों को खिलाया जाता है, तो यह केवल बिल्लियों को पहचानेगा (और शायद हर जगह बिल्लियों को देखेगा, जैसा कि प्रतिकूल नेटवर्क परिणामों के अनुसार)। दूसरे शब्दों में, यहाँ तक कि सीएन ने भी जो कुछ सीखा उससे परे एक कठिन समय को सामान्य बनाना है ।

मान्यता सीमा ठीक-ठीक परिभाषित करना कठिन है। मैं बस इतना कहूंगा कि सीखने के आंकड़ों की विविधता सीमा को धक्का देती है (मुझे लगता है कि आगे के विवरण को चर्चा के लिए अधिक उपयुक्त स्थान पर ले जाना चाहिए)।


5

सरल उत्तर "नहीं, वे छवियों तक सीमित नहीं हैं": सीएनएन का उपयोग प्राकृतिक भाषा प्रसंस्करण के लिए भी किया जा रहा है। ( परिचय के लिए यहां देखें ।)

मैंने उन्हें अभी तक ग्राफ़िकल डेटा पर लागू नहीं देखा है, लेकिन मैंने नहीं देखा है; कोशिश करने के लिए कुछ स्पष्ट चीजें हैं और इसलिए मैं आशावादी हूं कि यह काम करेगा।


3

संवादात्मक तंत्रिका नेटवर्क को न केवल छवि मान्यता के लिए बल्कि वीडियो विश्लेषण और मान्यता, प्राकृतिक भाषा प्रसंस्करण, खेल (जैसे गो ) या यहां तक ​​कि दवा की खोज के लिए भी अणुओं और जैविक प्रोटीन विकी के बीच बातचीत की भविष्यवाणी करके लागू किया जा सकता है ।

इसलिए यह विभिन्न प्रकार की समस्याओं के लिए इस्तेमाल किया जा सकता है और अधिक पूरी तरह से जुड़े परतों से जुड़े परतों और subsampling परतों का उपयोग करके। उन्हें प्रशिक्षित करना आसान है, क्योंकि समान संख्या में छिपी इकाइयों के साथ पूरी तरह से जुड़े नेटवर्क की तुलना में कम पैरामीटर हैं। UFLDL


3

जहां भी पैटर्न स्थानीय रूप से सहसंबंधित और अनुवाद करने योग्य हैं (शिफ्टेबल के रूप में) एक दृढ़ तंत्रिका नेटवर्क का उपयोग किया जा सकता है। यह मामला है क्योंकि CNN में फिल्टर होते हैं जो इनपुट में हर जगह कुछ स्थानीय पैटर्न की तलाश करते हैं। आपको चित्रों, पाठ, समय श्रृंखला आदि में स्थानीय और अनुवाद करने योग्य पैटर्न मिलेंगे।

यदि आपका डेटा एक अप्रासंगिक क्रम के साथ सुविधाओं के एक बैग की तरह अधिक है, तो सीएनएन का उपयोग करने के लिए यह कोई मतलब नहीं है। उस स्थिति में, आपको उन पैटर्न का पता लगाने में परेशानी हो सकती है, जिनमें ऐसी विशेषताएं हैं जो आपके इनपुट वेक्टर के अलावा दूर तक होती हैं। आप अपने डेटा में स्थानीय और अनुवाद करने योग्य पैटर्न नहीं पाएंगे यदि आप जानकारी खोए बिना इनपुट वैक्टर के डेटा बिंदुओं को फिर से व्यवस्थित कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.