तंत्रिका नेटवर्क को सुविधा चयन / इंजीनियरिंग की आवश्यकता क्यों है?


14

विशेष रूप से कागल प्रतियोगिताओं के संदर्भ में मैंने देखा है कि मॉडल का प्रदर्शन फीचर चयन / इंजीनियरिंग के बारे में है। जबकि मैं पूरी तरह से समझ सकता हूं कि अधिक परंपरागत / पुराने-स्कूल एमएल एल्गोरिदम से निपटने के दौरान ऐसा क्यों होता है, मैं यह नहीं देखता कि गहरे तंत्रिका नेटवर्क का उपयोग करते समय ऐसा क्यों होगा।

दीप लर्निंग किताब का हवाला देते हुए:

डीप लर्निंग इस केंद्रीय समस्या को अन्य, सरल अभ्यावेदन के रूप में व्यक्त किए गए अभ्यावेदन को प्रस्तुत करते हुए प्रतिनिधित्व सीखने में हल करता है। डीप लर्निंग कंप्यूटर को सरल अवधारणाओं से जटिल अवधारणाओं को बनाने में सक्षम बनाता है।

इसलिए मैंने हमेशा सोचा था कि अगर "जानकारी डेटा में है", पर्याप्त रूप से गहरा, अच्छी तरह से पैरामीटर वाला तंत्रिका नेटवर्क पर्याप्त प्रशिक्षण समय दिए गए सही सुविधाओं को उठाएगा।


4
आपका मस्तिष्क अभी भी एक मशीन से अधिक शक्तिशाली है, इसलिए मानव की थोड़ी सी मदद एक लंबा रास्ता तय करती है
अक्कल

कौन कहता है कि उन्हें सुविधा चयन / इंजीनियरिंग की आवश्यकता है? क्या आप कोई संदर्भ दे सकते हैं? जब आप छवियों के साथ काम करते हैं, तो वे बहुत अंत तक काम करते हैं ...

@ user2137591 यह बात है। मुझे यह आभास होता है कि साहित्य में तंत्रिका जाल को अक्सर पारंपरिक मशीन लर्निंग से एक कदम के रूप में चित्रित किया जाता है क्योंकि वे कथित तौर पर स्वचालित रूप से इंजीनियरिंग और चयन करते हैं (जैसा कि दीप लर्निंग बुक में गुडफेलो, बेंगियो, कोर्टविल द्वारा निहित है)। सीवी या एनएलपी में कई कार्यों में यह सच है जहां मेरा मानना ​​है कि जानकारी अभी भी दुर्लभ है। दूसरी ओर, प्रतिस्पर्धी डेटा विज्ञान (kaggle) में, जहां बहुत अधिक शोर डेटा उपलब्ध है, एक आम धारणा यह है कि प्रतिस्पर्धी समाधान के निर्माण में सबसे महत्वपूर्ण कारक "जादू सुविधा" है।
सेफासव

मैं CompVis के लिए बोल सकता हूं, जहां मैं नेटवर्क में फीड करने के लिए फीचर इंजीनियरिंग करने वाली किसी भी परियोजना को बाद में याद नहीं कर सकता ... यह मेडिकल इमेज डेटा के लिए भी है, जहां छवि की गुणवत्ता आमतौर पर कम है। शायद यह अन्य क्षेत्रों में अलग है ... क्या आपके पास कोई कागजात या कोई प्रकाशित स्रोत है जिसे आप इस संबंध में संदर्भित कर सकते हैं? मैं इसकी सराहना करूंगा, धन्यवाद।

जवाबों:


18
  • क्या होगा यदि "पर्याप्त रूप से गहरा" नेटवर्क स्पष्ट रूप से विशाल है, या तो मॉडल प्रशिक्षण को बहुत महंगा बना रहा है (क्योंकि एडब्ल्यूएस की फीस बढ़ गई है?) या क्योंकि आपको संसाधन-विवश वातावरण में नेटवर्क को तैनात करने की आवश्यकता है?

  • आप कैसे जान सकते हैं, एक प्राथमिकता जो नेटवर्क अच्छी तरह से परिचालित है? यह एक नेटवर्क को खोजने के लिए बहुत सारे प्रयोग कर सकता है जो अच्छी तरह से काम करता है।

  • क्या होगा यदि आप जिस डेटा के साथ काम कर रहे हैं, वह मानक विश्लेषण विधियों के लिए "अनुकूल" नहीं है, जैसे कि बाइनरी स्ट्रिंग जिसमें हजारों या लाखों बिट्स होते हैं, जहां प्रत्येक अनुक्रम की एक अलग लंबाई होती है?

  • क्या होगा यदि आप उपयोगकर्ता-स्तरीय डेटा में रुचि रखते हैं, लेकिन आप एक डेटाबेस के साथ काम करने के लिए मजबूर हैं जो केवल लेनदेन-स्तर डेटा एकत्र करता है?

  • 12,32,486,73,5,18,7

हम ऐसी दुनिया में रहना चाहते हैं जहां डेटा विश्लेषण "टर्नकी" है, लेकिन इस प्रकार के समाधान आमतौर पर केवल विशेष उदाहरणों में मौजूद हैं। बहुत सारे काम छवि वर्गीकरण के लिए गहरे सीएनएन के रूप में विकसित हुए - पूर्व कार्य में एक ऐसा कदम था जिसने प्रत्येक छवि को एक निश्चित लंबाई के वेक्टर में बदल दिया।

फ़ीचर इंजीनियरिंग व्यवसायी को समस्या के बारे में ज्ञान को सीधे फीड-फॉरवर्ड नेटवर्क के लिए एक निश्चित लंबाई वाले वेक्टर में बदल देती है। फ़ीचर सेलेक्शन इतनी सारी अप्रासंगिक विशेषताओं को शामिल करने की समस्या को हल कर सकता है कि किसी भी सिग्नल को खो दिया जाता है, साथ ही नाटकीय रूप से मॉडल की संख्या को कम कर देता है।


6

यहाँ प्रमुख शब्द पादरी और पैमाने हैं । एक साधारण उदाहरण के रूप में, कल्पना कीजिए कि आप एक तस्वीर से किसी व्यक्ति की उम्र का अनुमान लगाने की कोशिश कर रहे हैं। छवियों और उम्र के डेटासेट के साथ, आप भविष्यवाणियों को बनाने के लिए एक गहन-सीखने वाले मॉडल को प्रशिक्षित कर सकते हैं। यह वास्तव में वास्तव में अक्षम है क्योंकि 90% छवि बेकार है, और केवल व्यक्ति के साथ क्षेत्र वास्तव में उपयोगी है। विशेष रूप से, व्यक्ति का चेहरा, उनका शरीर और शायद उनके कपड़े।

दूसरी ओर, आप पहले व्यक्ति के लिए बाउंडिंग बॉक्स निकालने, छवि को क्रॉप करने और उसके बाद नेटवर्क से गुजरने के लिए पहले से प्रशिक्षित ऑब्जेक्ट डिटेक्शन नेटवर्क का उपयोग कर सकते हैं। यह प्रक्रिया कई कारणों से आपके मॉडल की सटीकता में काफी सुधार करेगी:

1) सभी नेटवर्क संसाधन (यानी वजन) उम्र की भविष्यवाणी के वास्तविक कार्य पर ध्यान केंद्रित कर सकते हैं, जैसा कि पहले व्यक्ति को पहले खोजने के लिए किया गया था। यह विशेष रूप से महत्वपूर्ण है क्योंकि व्यक्ति के चेहरे में उपयोगी विशेषताएं हैं। अन्यथा, बेहतर फीचर्स जिनकी आपको जरूरत है, पहले कुछ परतों में खो सकते हैं। सिद्धांत रूप में एक बड़ा-पर्याप्त नेटवर्क इसे हल कर सकता है, लेकिन यह काफी अक्षम होगा। फसली छवि भी मूल छवि की तुलना में काफी अधिक नियमित है। जबकि मूल छवि में एक टन का शोर होता है, इसके तर्क में फसली छवि की विसंगतियों का उद्देश्य के साथ बहुत अधिक संबंध है।

2) फसली छवि को समान पैमाने पर करने के लिए सामान्यीकृत किया जा सकता है । यह स्केलिंग मुद्दों के साथ दूसरे नेटवर्क सौदे में मदद करता है, क्योंकि मूल छवि में, लोग निकट या दूर हो सकते हैं। पहले से सामान्य करने का पैमाना सामान्य बनाता है ताकि क्रॉप्ड इमेज की गारंटी हो कि उसमें एक ऐसा व्यक्ति हो जो पूरी क्रॉप्ड इमेज भरता हो (अगर दूर थे तो पिक्सलेट होने के बावजूद)। यह देखने के लिए कि यह कैसे पैमाने पर मदद कर सकता है, एक क्रॉप्ड बॉडी जो मूल छवि की आधी चौड़ाई और ऊंचाई है प्रक्रिया के लिए 4x कम पिक्सल है, और इसलिए इस छवि पर लागू एक ही नेटवर्क में प्रत्येक परत पर मूल नेटवर्क के ग्रहणशील क्षेत्र 4x होगा।

उदाहरण के लिए, कागल फेफड़े की प्रतियोगिता में, शीर्ष समाधानों में एक सामान्य विषय था फेफड़े के चित्रों पर किसी प्रकार की पूर्वप्रक्रिया करना, जिसने उन्हें जितना संभव हो उतना काट दिया और प्रत्येक फेफड़े के घटकों को अलग कर दिया। यह 3 डी छवियों में विशेष रूप से महत्वपूर्ण है क्योंकि प्रभाव घन है: प्रत्येक आयाम का 20% निकालने से, आपको लगभग आधे पिक्सेल से छुटकारा मिलता है!


4

इस घटना के बारे में मेरा अंतर्ज्ञान सीखने की मॉडल की जटिलता से जुड़ा है। एक गहरी तंत्रिका नेटवर्क वास्तव में सिद्धांत में किसी भी फ़ंक्शन का अनुमान लगा सकता है , लेकिन पैरामीटर स्पेस का आयाम वास्तव में बड़ा हो सकता है, जैसे लाखों में। तो, वास्तव में एक अच्छा तंत्रिका नेटवर्क ढूंढना वास्तव में मुश्किल है। मैं एल्गोरिथ्म को एक हेड स्टार्ट देने के रूप में फीचर इंजीनियरिंग के बारे में सोचना पसंद करता हूं, यह डेटा प्रतिनिधित्व के बारे में कुछ अतिरिक्त जानकारी प्रदान करता है जो कुछ अर्थों में काफी अच्छा है। बेशक, यह एक औपचारिक स्पष्टीकरण नहीं है, यह सवाल वैज्ञानिक कठोरता के साथ जवाब देने के लिए वास्तव में कठिन हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.