नोट: मैंने इन गणनाओं को सट्टा रूप से किया था, इसलिए कुछ त्रुटियां सामने आ सकती हैं। कृपया ऐसी किसी भी त्रुटि के बारे में सूचित करें ताकि मैं इसे सही कर सकूं।
किसी भी सीएनएन में सामान्य रूप से प्रशिक्षण का अधिकतम समय पूरी तरह से कनेक्टेड लेयर में त्रुटियों के बैक-प्रचार में जाता है (छवि आकार पर निर्भर करता है)। साथ ही अधिकतम मेमोरी भी उनके कब्जे में है। यहां वीजीजी नेट मापदंडों के बारे में स्टैनफोर्ड से एक स्लाइड है:
स्पष्ट रूप से आप देख सकते हैं कि पूरी तरह से जुड़ी हुई परतें लगभग 90% मापदंडों में योगदान करती हैं। इसलिए अधिकतम स्मृति उनके कब्जे में है।
( 3 * 3 * 3 )( 3 * 3 * 3 )224 * 224224 * 224 * ( 3 * 3 * 3 )64224 * 22464 * 224 * 224 * ( 3 * 3 * 3 ) ≈ 87 * 106
56 ∗ 56 ∗ 25656 ∗ 56( 3 ∗ 3 ∗ 256 )56 ∗ 56256 * 56 * 56 * ( 3 * 3 * 256 ) ≈ 1850 * 106
s t r i dई = 1
c h a n n e l sओ यू टी पी यू टी* ( पी मैं एक्स ई एल ओ यू टी पी यू टीज ई i गज ट∗ पी आई एक्स ई एल ओ यू टी पी यू टीw i dटी एच)∗ ( चमैं एल टी ई आरज ई i गज ट∗ चमैं एल टी ई आरw i dटी एच∗ c h a n n e l sमैं एन पी यू टी)
तेजी से GPU के लिए धन्यवाद हम आसानी से इन विशाल गणनाओं को संभालने में सक्षम हैं। लेकिन एफसी परतों में पूरे मैट्रिक्स को लोड करने की आवश्यकता होती है जो स्मृति समस्याओं का कारण बनती है जो आम तौर पर दृढ़ परतों का मामला नहीं होता है, इसलिए दृढ़ परतों का प्रशिक्षण अभी भी आसान है। इसके अलावा इन सभी को GPU मेमोरी में ही लोड करना होगा न कि CPU की रैम में।
यहाँ भी ऐलेक्सनेट का पैरामीटर चार्ट है:
और यहां विभिन्न सीएनएन आर्किटेक्चर की तुलना की गई है:
मेरा सुझाव है कि आप सीएनएन आर्किटेक्चर के नुक्कड़ और सारस की बेहतर समझ के लिए स्टैनफोर्ड यूनिवर्सिटी द्वारा CS231n लेक्चर 9 देखें ।