खैर सवाल यह सब कहता है।
"पूर्व प्रशिक्षण एक तंत्रिका नेटवर्क" से क्या अभिप्राय है? क्या कोई शुद्ध सरल अंग्रेजी में समझा सकता है?
मुझे इससे संबंधित कोई संसाधन नहीं मिल रहे हैं। यह बहुत अच्छा होगा अगर कोई मुझे उनसे बात कर सके।
खैर सवाल यह सब कहता है।
"पूर्व प्रशिक्षण एक तंत्रिका नेटवर्क" से क्या अभिप्राय है? क्या कोई शुद्ध सरल अंग्रेजी में समझा सकता है?
मुझे इससे संबंधित कोई संसाधन नहीं मिल रहे हैं। यह बहुत अच्छा होगा अगर कोई मुझे उनसे बात कर सके।
जवाबों:
एक नेटवर्क को प्रशिक्षित करने का सामान्य तरीका:
आप एक डेटा सेट (उदाहरण के लिए छवियों का एक सेट) पर कार्य (जैसे वर्गीकरण) करने के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित करना चाहते हैं। आप बेतरतीब ढंग से वज़न को बढ़ाकर प्रशिक्षण शुरू करते हैं। जैसे ही आप प्रशिक्षण शुरू करते हैं, कार्य को कम गलतियों (यानी अनुकूलन) के साथ करने के लिए वज़न बदल दिया जाता है। एक बार जब आप प्रशिक्षण परिणामों से संतुष्ट हो जाते हैं तो आप कहीं न कहीं अपने नेटवर्क के भार को बचाते हैं।
अब आप एक अलग कार्य डेटा सेट पर एक नया कार्य (जैसे ऑब्जेक्ट डिटेक्शन) करने के लिए एक नेटवर्क को प्रशिक्षित करने में रुचि रखते हैं (उदाहरण के लिए चित्र भी लेकिन वही नहीं जो आप पहले इस्तेमाल करते थे)। पहले नेटवर्क के लिए आपने जो किया उसे दोहराने के बजाय और बेतरतीब ढंग से प्रारंभिक भार के साथ प्रशिक्षण से शुरू करके, आप अपने नए प्रयोग के लिए शुरुआती वजन मूल्यों के रूप में पिछले नेटवर्क से आपके द्वारा बचाए गए वजन का उपयोग कर सकते हैं। इस तरह से वजन को शुरू करने के लिए एक पूर्व-प्रशिक्षित नेटवर्क का उपयोग करने के रूप में संदर्भित किया जाता है। पहला नेटवर्क आपका पूर्व-प्रशिक्षित नेटवर्क है। दूसरा एक नेटवर्क है जो आप ठीक-ठीक ट्यूनिंग कर रहे हैं।
पूर्व प्रशिक्षण के पीछे विचार यह है कि यादृच्छिक आरंभीकरण है ... अच्छी तरह से ... यादृच्छिक, वजन के मूल्यों का उस कार्य से कोई लेना-देना नहीं है जिसे आप हल करने का प्रयास कर रहे हैं। मूल्यों का एक सेट दूसरे सेट से बेहतर क्यों होना चाहिए? लेकिन आप वेट को कैसे इनिशियलाइज़ करेंगे? यदि आप जानते हैं कि उन्हें कार्य के लिए ठीक से कैसे आरंभ किया जाए, तो आप उन्हें इष्टतम मूल्यों (थोड़ा अतिरंजित) पर सेट कर सकते हैं। कुछ भी प्रशिक्षित करने की आवश्यकता नहीं है। आपके पास अपनी समस्या का इष्टतम समाधान है। पूर्व-प्रशिक्षण नेटवर्क को एक प्रमुख शुरुआत देता है। जैसे कि यह पहले डेटा देख चुका है।
जब पूर्व प्रशिक्षण के लिए क्या देखना है:
नेटवर्क को पूर्व-प्रशिक्षण में उपयोग करने वाला पहला कार्य ठीक-ट्यूनिंग चरण के समान हो सकता है। पूर्व-प्रशिक्षण बनाम फाइन-ट्यूनिंग के लिए उपयोग किए जाने वाले डेटासेट भी समान हो सकते हैं, लेकिन अलग-अलग भी हो सकते हैं। यह देखना वास्तव में दिलचस्प है कि किसी अलग कार्य और विभिन्न डेटासेट पर पूर्व-प्रशिक्षण अभी भी एक नए डेटासेट और नए कार्य में कैसे स्थानांतरित किया जा सकता है जो थोड़ा अलग है। पूर्व-प्रशिक्षित नेटवर्क का उपयोग करना आम तौर पर समझ में आता है यदि दोनों कार्य या दोनों डेटासेट में कुछ समान है। बड़ा अंतर, कम प्रभावी पूर्व प्रशिक्षण होगा। यह वित्तीय आंकड़ों पर पहले प्रशिक्षण देकर छवि वर्गीकरण के लिए एक नेटवर्क को पूर्व-प्रशिक्षित करने के लिए बहुत कम समझ में आता है। इस मामले में पूर्व-प्रशिक्षण और ठीक-ट्यूनिंग चरणों के बीच बहुत अधिक डिस्कनेक्ट है ।
ऊपर दिए गए दो उत्तर अच्छी तरह से समझाते हैं। बस डीप बिलीफ नेट्स (डीबीएन) के लिए पूर्व प्रशिक्षण के संबंध में एक सूक्ष्म बात जोड़ना चाहते हैं। डीबीएन के लिए पूर्व-प्रशिक्षण अप्रशिक्षित शिक्षा है (यानी w / o लेबल डेटा) और बाद में प्रशिक्षण को सीखने (यानी w / लेबल डेटा) की निगरानी की जाती है।