अभ्यास में गहरी सीखने को लागू करने की अड़चन

9

बहुत सारे गहरे शिक्षण पत्रों को पढ़ने के बाद, एक प्रकार की खुरदरी भावना यह है कि बेहतर-सामान्य प्रदर्शन प्राप्त करने के लिए नेटवर्क को प्रशिक्षित करने में बहुत सारी चालें मौजूद हैं। उद्योग एप्लिकेशन के नजरिए से, बड़ी तकनीकी कंपनियों, जैसे, Google या फेसबुक में उन कुलीन अनुसंधान समूहों को छोड़कर इस तरह के ट्रिक विकसित करना बहुत कठिन है। फिर अभ्यास में गहरी सीखने के एल्गोरिदम को लागू करने का सबसे अच्छा तरीका क्या है। किसी भी विचार और सुझावों की बहुत सराहना की जाएगी।

machine-learning deep-learning deep-belief-networks

— user3269
स्रोत

9

सच है, प्रदर्शन में सुधार के लिए उपयोग किए जाने वाले कुछ विवरणों को ट्रिक्स के रूप में माना जाता है और आपको हमेशा पता नहीं चलेगा कि क्या ये ट्रिक्स आपके डेटा और आपके नेटवर्क के लिए समान सुधार प्राप्त करते हैं।

कुछ चीजें जिनकी आपको निश्चित रूप से आवश्यकता होगी:

डेटा , यह बहुत सारे
जीपीयू आपको प्रयोगों को तेजी से चलाने देगा और कम समय में अधिक चीजों की कोशिश करेगा।
वक्र विश्लेषण सीखना। अंत में यह टेस्ट सेट पर प्रदर्शन के लिए नीचे आता है, लेकिन ट्रेन और टेस्ट मेट्रिक्स दोनों को देखकर आप खराब प्रदर्शन के कारणों की पहचान कर सकते हैं। मजबूत पूर्वाग्रह? बहुत सारे छिपे हुए नोड्स से ओवरफिटिंग?
सक्रियण समारोह । मुझे नहीं लगता कि यह जानने के लिए कि आपको किस प्रकार के सक्रियण फ़ंक्शन की आवश्यकता है, एक ट्रिक के रूप में गिना जाता है। ReLU में एक महत्वपूर्ण चरित्र है कि वे sigmoids और tanh की तरह संतृप्त नहीं करते हैं। ReLU के साथ एक न्यूरॉन में संभावना-जैसे आउटपुट होंगे, लेकिन आपको मिड-लेवल लेयर्स में न्यूरॉन्स के लिए इसकी आवश्यकता नहीं है। आपके द्वारा प्राप्त किए जाने वाले आफरेग को ग्रेडिएंट्स के लुप्त होने या विस्फोट को कम किया जा रहा है और अभिसरण की गति बढ़ाई जा रही है।
नियमितीकरण । चाल के रूप में लागू हो सकता है, लेकिन अगर आप मुख्यधारा की किसी भी गहरी शिक्षण लाइब्रेरी का उपयोग कर रहे हैं, तो आप ड्रॉपआउट के नियमितीकरण के लिए ऑफ-द-शेल्फ कार्यान्वयन प्राप्त कर सकते हैं।
डेटा वृद्धि। मैन्युअल एनोटेशन की अतिरिक्त लागत के बिना आप मूल रूप से अपने डेटासेट का विस्तार कर रहे हैं। कुंजी उन परिवर्तनों के साथ डेटा को बढ़ाने के लिए है जो एक्टुएल को समझ में आते हैं। ताकि नेटवर्क को उस डेटा के वेरिएंट देखने को मिलें, जो परीक्षण चरण में आ सकते हैं या जब वह उत्पाद में तैनात हो जाता है। दृश्य डेटा के लिए यह क्षैतिज फ़्लिपिंग तुच्छ है और बहुत अधिक लाभ जोड़ता है। जिटर शायद डेटा के प्रकार पर निर्भर है और यह कितना शोर है।
हाइपरपरेटम एक्सप्लोरेशन में गोता लगाने से निराशा हो सकती है। छोटे नेटवर्क और सरल प्रशिक्षण प्रक्रियाओं के साथ शुरुआत करें। छोटे नेटवर्क प्रशिक्षित करने के लिए तेज़ हैं। जब आप ओवरफिटिंग के लक्षण देखते हैं तो अधिक परतें जोड़ें।
अच्छा इनिशियलाइज़ेशन । नेटवर्क की क्षमता को अभिसरण करने के लिए रैंडम इंट्रस्टीलेशन उपयुक्त है, लेकिन जरूरी नहीं कि यह इष्टतम प्रदर्शन करे। उसी समय, केवल पुनरावृत्ति करते रहने से प्रशिक्षण डेटा से अधिक नेटवर्क हो सकता है। यदि संभव हो तो एक पूर्व-प्रशिक्षित नेटवर्क का उपयोग करें जो पहले से ही एक प्रतिनिधित्व सीख चुका है और आपके डेटासेट में इसे ठीक करता है। Unsupervised पूर्व प्रशिक्षण जाने का एक और तरीका है और पर्यवेक्षित प्रशिक्षण प्रक्रिया को वजन स्थान में कहीं अधिक आशाजनक स्थिति से शुरू करने की अनुमति दे सकता है।
ताकनाचाल। समझें कि चाल वास्तव में क्या करती है। एक छोटे विवरण का वर्णन करने वाला एक पेपर जो एक नेटवर्क के प्रदर्शन को बेहतर बनाने में उपयोग किया गया था, उस नए पहलू पर ध्यान केंद्रित करेगा। कागज परियोजनाओं के उस क्रम का हिस्सा हो सकता है, जिस पर लेखक काम करते रहे हैं। चाल का संदर्भ हमेशा स्पष्ट नहीं हो सकता है, लेकिन लेखकों के लिए यह एक चाल नहीं है, बल्कि एक तकनीक है जो एक समस्या को हल करती है। कभी-कभी एक तकनीक सामने आती है और इसे एक चाल के रूप में माना जाता है और बाद में कोई व्यक्ति इसके प्रभाव का विश्लेषण करेगा और इसके कार्य का वर्णन करेगा। उदाहरण के लिए कि यह ट्रिक L2 नियमितीकरण के बराबर है जिससे अधिक लोग परिचित हैं। हम तय कर सकते हैं कि क्या हमें इस नई तकनीक को आजमाना चाहिए या एल 2 नियमितीकरण के साथ रहना चाहिए जिसके बारे में हम पहले से ही जानते हैं। इनमें से बहुत सारी तरकीबें गहरी शिक्षा में समस्याओं को हल करने की कोशिश करती हैं, जैसे कि ओवरफिटिंग का जोखिम, मानकीकरण और अत्यधिक निरर्थक भार से अधिक महंगा संगणना। यह समझने में समय लगता है कि ये चालें वास्तव में क्या करती हैं। जिस समस्या को वे हल करने का प्रयास करते हैं, उसे समझने के द्वारा हम विभिन्न ट्रिक्स की प्रयोज्यता का अंदाजा लगा सकते हैं और हमारे पास जो अड़चनें हैं, उन्हें अच्छी तरह से काम करने में सक्षम किया जा सकता है (जैसे थोड़ी कंप्यूटिंग शक्ति, छोटे डेटासेट)

— ypx
स्रोत

2

यहाँ एक दिलचस्प पुस्तक है न्यूरल नेटवर्क्स: ट्रिक्स ऑफ़ द ट्रेड , पुस्तक का एक अद्यतन 2012 संस्करण। तंत्रिका नेटवर्क के कुछ अग्रदूतों द्वारा बहुत सारे लेख।

प्रशिक्षण के साथ बहुत सारे व्यावहारिक मुद्दों पर ypx ने खूबसूरती से छुआ है, इसलिए आपके द्वारा उठाए गए अन्य मुद्दों पर छूने के लिए: बहुत सारे कुलीन औद्योगिक प्रयोगशालाएं अभी भी अपने परिणाम प्रकाशित करती हैं। उदाहरण के लिए, माइक्रोसॉफ्ट रिसर्च की टीम ने सिर्फ इमेजनेट 2015 जीता और उन्होंने अपने नए गहरे नेट मॉड्यूल का वर्णन करते हुए एक तकनीकी रिपोर्ट जारी की: डीप रेजिडेंशियल लर्निंग फॉर इमेज रिकॉग्निशन , Google की टीम ने अपने इनसेप्शन आर्किटेक्चर को प्रकाशित किया, साथ ही गोइंग डेपर विद कन्वर्सेशन । गैर-तुच्छ डिग्री के लिए बड़े नवाचारों को साझा करने के लिए अभी भी मशीन लर्निंग (अभी के लिए) में एक संस्कृति है। संभवतः क्योंकि डेटा तक पहुंच की कुंजी है। Google और Facebook के पास केवल उन डेटा तक पहुंच है जो हम नहीं करते हैं। यह कहना मुश्किल है कि रॉ एल्गोरिथम इनोवेशन का कितना क्रेडिट जाता है और कितना बड़ा डेटा जाता है।

भविष्य में क्या होगा? बताना कठिन है। यह एक मुद्दा है कि बहुत से लोगों ने उठाया है कि ये डेटा संचालित कंपनियां कितनी मूल्यवान हो गई हैं और बाजार कितना प्रतिस्पर्धी है। लेकिन अब के लिए, मुझे लगता है कि औद्योगिक अनुसंधान प्रयोगशालाओं के पास काफी अच्छा संतुलन है और साझा नहीं करते हैं। मैं समझता हूं कि वे अपने सटीक कोड कार्यान्वयन को साझा नहीं कर रहे हैं। लेकिन वे कुछ बहुत उपन्यास नवाचार साझा करते हैं।

उन शोधकर्ताओं को खोजें जो महत्वपूर्ण परिणाम प्रकाशित करते हैं और पढ़ते हैं, पढ़ते हैं, पढ़ते हैं। मुझे विश्वास है कि Reddit पर Yann LeCun के AMA में उन्होंने उल्लेख किया था कि वह एक भयावह पाठक हैं। मेरा मानना है कि यह सबसे महत्वपूर्ण चीज है। और इस हद तक कि यह व्यावहारिक है, उनके मानदंड को फिर से बनाने की कोशिश करें, या अपने बजट के भीतर एक डेटासेट में उनकी विधि लागू करें।

मुझे लगता है कि भले ही आप कहाँ हैं या जीवन में आपका स्टेशन क्या है, यह तेज रहने और अपने कौशल का विकास जारी रखने का सबसे अच्छा तरीका है। एक सतर्क पाठक बनें और चीजों को लागू करें और अंतर्ज्ञान का निर्माण करें। मेरे पास व्यक्तिगत रूप से ImageNet प्रतियोगिताओं में भाग लेने के लिए संसाधन नहीं हैं, लेकिन सभी शीर्ष प्रदर्शन करने वाले ImageNet समूह के लेखों को पढ़ने से मुझे काफी मदद मिली है।

— इंडी ए.आई.
स्रोत