CNN प्रशिक्षण में किस परत का अधिक समय लगता है? एफसी परतों के विरूद्ध संवहन परतें


11

संवादी तंत्रिका नेटवर्क में, कौन सी परत प्रशिक्षण में अधिकतम समय लेती है? बातचीत परतें या पूरी तरह से कनेक्टेड परतें? इसे समझने के लिए हम एलेक्सनेट आर्किटेक्चर ले सकते हैं। मैं प्रशिक्षण प्रक्रिया के समय को देखना चाहता हूं। मैं एक सापेक्ष समय की तुलना करना चाहता हूं ताकि हम किसी भी निरंतर GPU कॉन्फ़िगरेशन को ले सकें।

जवाबों:


11

नोट: मैंने इन गणनाओं को सट्टा रूप से किया था, इसलिए कुछ त्रुटियां सामने आ सकती हैं। कृपया ऐसी किसी भी त्रुटि के बारे में सूचित करें ताकि मैं इसे सही कर सकूं।

किसी भी सीएनएन में सामान्य रूप से प्रशिक्षण का अधिकतम समय पूरी तरह से कनेक्टेड लेयर में त्रुटियों के बैक-प्रचार में जाता है (छवि आकार पर निर्भर करता है)। साथ ही अधिकतम मेमोरी भी उनके कब्जे में है। यहां वीजीजी नेट मापदंडों के बारे में स्टैनफोर्ड से एक स्लाइड है:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

स्पष्ट रूप से आप देख सकते हैं कि पूरी तरह से जुड़ी हुई परतें लगभग 90% मापदंडों में योगदान करती हैं। इसलिए अधिकतम स्मृति उनके कब्जे में है।

(3*3*3)(3*3*3)224*224224*224*(3*3*3)64224*22464*224*224*(3*3*3)87*106

56*56*25656*56(3*3*256)56*56256*56*56*(3*3*256)1850*106

रोंटीआरमैं=1

सीnnएलरोंयूटीपीयूटी*(पीमैंएक्सएलहेयूटीपीयूटीमैंजीटी*पीमैंएक्सएलहेयूटीपीयूटीwमैंटी)*(मैंएलटीआरमैंजीटी*मैंएलटीआरwमैंटी*सीnnएलरोंमैंnपीयूटी)

तेजी से GPU के लिए धन्यवाद हम आसानी से इन विशाल गणनाओं को संभालने में सक्षम हैं। लेकिन एफसी परतों में पूरे मैट्रिक्स को लोड करने की आवश्यकता होती है जो स्मृति समस्याओं का कारण बनती है जो आम तौर पर दृढ़ परतों का मामला नहीं होता है, इसलिए दृढ़ परतों का प्रशिक्षण अभी भी आसान है। इसके अलावा इन सभी को GPU मेमोरी में ही लोड करना होगा न कि CPU की रैम में।

यहाँ भी ऐलेक्सनेट का पैरामीटर चार्ट है:

यहाँ छवि विवरण दर्ज करें

और यहां विभिन्न सीएनएन आर्किटेक्चर की तुलना की गई है:

यहाँ छवि विवरण दर्ज करें

मेरा सुझाव है कि आप सीएनएन आर्किटेक्चर के नुक्कड़ और सारस की बेहतर समझ के लिए स्टैनफोर्ड यूनिवर्सिटी द्वारा CS231n लेक्चर 9 देखें


4

चूंकि सीएनएन में कनवल्शन ऑपरेशन होता है, लेकिन DNN प्रशिक्षण के लिए कंस्ट्रक्टिव डाइवर्जेंस का उपयोग करता है। बिग ओ अंकन के संदर्भ में सीएनएन अधिक जटिल है।

सन्दर्भ के लिए:

1) सीएनएन समय जटिलता
https://arxiv.org/pdf/1412.1710.pdf

2) पूरी तरह से कनेक्टेड लेयर्स / डीप न्यूरल नेटवर्क (DNN) / मल्टी लेयर परसेप्ट्रॉन (MLP) https://www.researchgate.net/post/What_is_the_time_complexity_of_Multilayer_erceptron_MLP_and_ny_neural_networks

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.