पूछने के लिए कई प्रश्न हैं:
- क्या आपके पास प्रत्येक परत में न्यूरॉन्स की उचित संख्या है
- क्या आप उचित प्रकार के स्थानांतरण कार्यों का उपयोग कर रहे हैं?
- क्या आप उपयुक्त प्रकार के लर्निंग एल्गोरिदम का उपयोग कर रहे हैं
- क्या आपके पास एक बड़ा पर्याप्त नमूना आकार है
- क्या आप इस बात की पुष्टि कर सकते हैं कि आपके नमूनों का एक दूसरे के साथ सही तरह से संबंध होना जानकारीपूर्ण है? (प्रासंगिक आयाम, आदि के बारे में अनावश्यक नहीं ...)
आप पंचांग के तरीके में क्या दे सकते हैं? क्या आप हमें डेटा की प्रकृति के बारे में कुछ बता सकते हैं?
आप न्यूरल नेटवर्क्स का ग्रेडिएंट बूस्टेड ट्री बना सकते हैं।
आपने पूछा कि अगर आप जल्दी रुक जाते हैं तो क्या होता है।
आप खुद आजमा सकते हैं। 300x चलाएं जहां आप यादृच्छिक आरंभिक भार के साथ शुरू करते हैं, और फिर पुनरावृत्तियों की एक निर्दिष्ट संख्या पर रोकते हैं, 100 बताते हैं। उस बिंदु पर अपने कलाकारों की टुकड़ी त्रुटि, आपके प्रशिक्षण-सबसेट की त्रुटि, और आपके परीक्षण-सेट त्रुटि की गणना करें। दोहराएँ। आपके पास यह बताने के लिए 300 मान हैं कि त्रुटि क्या है, आप 100 सीखने के पुनरावृत्तियों को देखते हुए अपने त्रुटि वितरण का अंदाजा लगा सकते हैं। यदि आप चाहें, तो आप उस वितरण को सीखने के कई अन्य मूल्यों पर देख सकते हैं। मैं 200, 500 और 1000 पुनरावृत्तियों का सुझाव देता हूं। इससे आपको पता चल जाएगा कि समय के साथ आपका SNR कैसे बदलता है। SNR बनाम पुनरावृत्ति गिनती का एक भूखंड आपको "चट्टानों" या "काफी अच्छा" के बारे में एक विचार दे सकता है। कभी-कभी ऐसी चट्टानें होती हैं जहाँ त्रुटि होती है। कभी-कभी त्रुटि उस बिंदु पर स्वीकार्य होती है।
यह आपके सिस्टम के लिए "अपेक्षाकृत सरल" डेटा या "बहुत अच्छा" भाग्य लेता है जो लगातार 100 पुनरावृत्तियों में परिवर्तित होता है। जो दोनों दोहराव के बारे में नहीं हैं और न ही वे सामान्य हैं।
क्यों आप वज़न बदलने के संदर्भ में सोच रहे हैं और किसी विशेष सीमा से नीचे होने में त्रुटि नहीं है। क्या आपने कभी मतदान विरोधाभास के बारे में सुना है? ( लिंक ) जब आपके सिस्टम में चक्रीय बातचीत होती है (जैसे कि न्यूरल नेटवर्क्स में फीडबैक) तो आपके पास वोटिंग विरोधाभास - युग्मित परिवर्तन हो सकते हैं। मुझे नहीं पता कि क्या वजन अकेले नेटवर्क के अभिसरण के लिए पर्याप्त संकेतक है।
आप वेट को एक स्पेस के रूप में सोच सकते हैं। इसके 3 से अधिक आयाम हैं, लेकिन यह अभी भी एक स्थान है। उस स्पेस के "सेंट्रोइड" में आपका "बेस्ट फिट" क्षेत्र है। केन्द्रक से दूर एक कम अच्छा फिट है। आप उस जगह में एक बिंदु के रूप में अपने भार की वर्तमान सेटिंग के बारे में सोच सकते हैं।
अब आप नहीं जानते कि वास्तव में "अच्छा" कहाँ है। आपके पास क्या है एक स्थानीय "ढलान" है। आप स्थानीय "बेहतर" की दिशा में ढाल मूल प्रदर्शन कर सकते हैं, जहां आपकी बात अभी है। यह आपको "सार्वभौमिक" बेहतर नहीं बताता है, लेकिन स्थानीय कुछ भी नहीं से बेहतर है।
तो आप पुनरावृत्ति करना शुरू कर देते हैं, जो कि विश्वासघात की घाटी की ओर नीचे की ओर चलना है। आप तब तक पुनरावृति करते हैं जब तक आपको लगता है कि आप कर चुके हैं। हो सकता है कि आपके वज़न का मूल्य बड़ा हो। हो सकता है कि वे सभी जगह उछल रहे हों। शायद गणना "बहुत लंबा समय ले रही है"। आप करना चाहते हैं।
तो आप कैसे जानते हैं कि क्या आप "अच्छे पर्याप्त" हैं?
यहाँ एक त्वरित परीक्षण है जो आप कर सकते हैं:
डेटा के 30 समान रैंडम सबसेट लें (जैसे डेटा का कुछ प्रतिशत) और उन पर नेटवर्क को फिर से लिखें। यह ज्यादा तेज होना चाहिए। गौर करें कि उन्हें बड़े सेट के अभिसरण इतिहास के साथ इसे संयोजित करने और तुलना करने में कितना समय लगता है। इन सबसेट पर पूरे डेटा के लिए नेटवर्क की त्रुटि का परीक्षण करें और देखें कि त्रुटियों का वितरण आपकी बड़ी त्रुटि की तुलना कैसे करता है। अब अपने डेटा के 5% तक उप-आकार को टक्कर दें और दोहराएं। देखें कि यह आपको क्या सिखाता है।
यह कण झुंड अनुकूलन (संदर्भ देखें) पर एक भिन्नता है जो इस बात पर आधारित है कि हनी स्काउटिंग के आधार पर निर्णय कैसे लेते हैं।
आपने पूछा कि अगर वज़न नहीं जुटाता तो क्या होता है।
तंत्रिका नेटवर्क एक उपकरण हैं। वे एकमात्र उपकरण नहीं हैं। और भी हैं। मैं उनमें से एक का उपयोग करके देखूंगा।
मैं सूचना मानदंड के संदर्भ में काम करता हूं, इसलिए मैं दोनों भार (पैरामीटर गणना) और त्रुटि को देखता हूं। आप उनमें से एक को आजमा सकते हैं।
कुछ प्रकार के प्रीप्रोसेसिंग हैं जो उपयोगी हो सकते हैं। केंद्र और स्केल। प्रमुख घटकों का उपयोग करके घुमाएँ। यदि आप अपने प्रमुख घटकों में आइजनवेल्स को देखते हैं तो आप अपने डेटा के आयाम का अनुमान लगाने के लिए स्की प्लॉट नियमों का उपयोग कर सकते हैं। आयाम कम करने से अभिसरण में सुधार हो सकता है। यदि आप 'अंतर्निहित भौतिकी' के बारे में कुछ जानते हैं तो आप शोर को दूर करने के लिए डेटा को सुचारू या फ़िल्टर कर सकते हैं। कभी-कभी अभिसरण प्रणाली में शोर के बारे में है।
मुझे कम्प्रेस्ड सेंसिंग का विचार दिलचस्प लगता है। यह सामान्यीकरण के नुकसान के बिना कुछ प्रणालियों के कट्टरपंथी उप-नमूने की अनुमति दे सकता है। मैं यह निर्धारित करने के लिए कुछ बूटस्ट्रैप री-सैंपल किए गए आँकड़ों और आपके डेटा के वितरण को देखूंगा कि प्रशिक्षण सेट का उप-नमूना किस स्तर पर प्रतिनिधि बनता है। यह आपको आपके डेटा के "स्वास्थ्य" का कुछ माप देता है।
कभी-कभी यह अच्छी बात है कि वे नहीं जुटे
क्या आपने कभी मतदान विरोधाभास के बारे में सुना है? आप इसे दोतरफा गति के लिए एक उच्च-गिनती के चचेरे भाई के रूप में सोच सकते हैं। यह एक पाश है। 2-व्यक्ति मतदान विरोधाभास में पहला व्यक्ति "ए" चाहता है जबकि दूसरा उम्मीदवार "बी" (या नहीं-ए या ऐसा) चाहता है। महत्वपूर्ण हिस्सा यह है कि आप इसे लूप के रूप में सोच सकते हैं।
तंत्रिका नेटवर्क में लूप महत्वपूर्ण हैं। प्रतिपुष्टि। प्रत्यावर्तन। इसने अवधारणात्मक को XOR जैसी समस्याओं को हल करने में सक्षम बनाया। यह लूप बनाता है, और कभी-कभी लूप वोटिंग विरोधाभास की तरह काम कर सकते हैं, जहां वे अनंत पुनरावृत्तियों होने पर वज़न बदलते रहेंगे। वे अभिसरण करने के लिए नहीं हैं क्योंकि यह अलग-अलग वजन नहीं है जो मायने रखता है, लेकिन लूप में वजन की बातचीत।
ध्यान दें:
केवल 500 पुनरावृत्तियों का उपयोग करना एक समस्या हो सकती है। मेरे पास एनएन है जहां 10,000 पुनरावृत्तियों मुश्किल से पर्याप्त थे। "पर्याप्त" होने के लिए पुनरावृत्तियों की संख्या निर्भर है, जैसा कि मैंने पहले ही डेटा, एनएन-टोपोलॉजी, नोड-ट्रांसफर फ़ंक्शन, सीखने / प्रशिक्षण फ़ंक्शन और यहां तक कि कंप्यूटर हार्डवेयर पर संकेत दिया है। आपको इस बात की अच्छी समझ होनी चाहिए कि यह कहने से पहले कि वे सभी आपकी पुनरावृत्ति गणना के साथ कैसे तालमेल बिठाते हैं, "पर्याप्त" या "बहुत अधिक" पुनरावृत्तियाँ हुई हैं। समय, बजट और एनएन के साथ आप क्या करना चाहते हैं जब आप प्रशिक्षण कर रहे हैं, तो इस पर भी विचार किया जाना चाहिए।
चेन, आरबी, चांग, एसपी, वांग, डब्ल्यू।, और वोंग, डब्ल्यूके, (2011, सितंबर)। पार्टिकल झुंड ऑप्टिमाइज़ेशन मेथड्स (प्रिप्रिंट) के जरिए ऑप्टिमल एक्सपेरिमेंटल डिज़ाइन्स, 25 मार्च, 2012 को http://www.math.ntu.edu.tw/~mathlib/preprint/2011-03.pdf से प्राप्त