गहरे संवेदी तंत्रिका नेटवर्क के लिए कुछ उपयोगी डेटा वृद्धि तकनीक क्या हैं?


13

पृष्ठभूमि: मैंने हाल ही में एक गहरे स्तर पर समझा कि डेटा संवर्द्धन का महत्व जब जियोफ्री हिंटन द्वारा इस उत्कृष्ट बात को देखने के बाद दृढ़ तंत्रिका नेटवर्क को प्रशिक्षित करता है ।

वह बताते हैं कि वर्तमान पीढ़ी के संवेगात्मक तंत्रिका नेटवर्क परीक्षण के तहत वस्तु के संदर्भ के फ्रेम को सामान्य बनाने में सक्षम नहीं हैं, जिससे एक नेटवर्क के लिए वास्तव में यह समझना मुश्किल हो जाता है कि किसी वस्तु के प्रतिबिम्बित चित्र समान हैं।

कुछ शोध इस उपाय को करने की कोशिश में गए हैं। यहाँ कई उदाहरणों में से एक है । मुझे लगता है कि यह इस बात को स्थापित करने में मदद करता है कि जटिल तंत्रिका नेटवर्क के प्रशिक्षण के दौरान महत्वपूर्ण डेटा वृद्धि कैसे होती है।

डेटा वृद्धि तकनीकों को शायद ही कभी एक दूसरे के खिलाफ बेंचमार्क किया जाता है। इसलिये:

प्रशन:

  • कुछ कागजात कहाँ हैं जहां चिकित्सकों ने असाधारण बेहतर प्रदर्शन की सूचना दी?

  • कुछ डेटा वृद्धि तकनीकें हैं जिन्हें आपने उपयोगी पाया है?


हाय @ श्राद्ध, क्या आपको कोई खबर है? धन्यवाद :)
nullgeppetto

जवाबों:


1

सेक। 1: डेटा ऑगमेंटेशन चूंकि संतोषजनक प्रदर्शन प्राप्त करने के लिए गहरी नेटवर्क को बड़ी संख्या में प्रशिक्षण छवियों पर प्रशिक्षित करना पड़ता है, अगर मूल छवि डेटा सेट में सीमित प्रशिक्षण छवियां होती हैं, तो प्रदर्शन को बढ़ावा देने के लिए डेटा वृद्धि करना बेहतर होता है। इसके अलावा, डेटा वृद्धि एक गहरी नेटवर्क को प्रशिक्षित करते समय करना चाहिए।

  • डेटा वृद्धि करने के कई तरीके हैं, जैसे कि लोकप्रिय क्षैतिज रूप से फ़्लिपिंग, यादृच्छिक फसलें और रंग घबराना। इसके अलावा,
    आप
    एक ही समय में रोटेशन और रैंडम स्केलिंग करते हुए , कई अलग-अलग प्रसंस्करण के संयोजन की कोशिश कर सकते हैं । इसके अलावा,
    आप
    सभी पिक्सेल के संतृप्ति और मान ( HSV रंग स्थान के S और V घटक ) को 0.25 और 4 (
    पैच के भीतर सभी पिक्सेल के लिए समान) बढ़ाने की कोशिश कर सकते हैं , इन मानों को
    0.7 के बीच एक कारक से गुणा करें। और 1.4, और उन्हें -0.1 और 0.1 के बीच मान जोड़ें।
    इसके अलावा, आप
    छवि या पैच में सभी पिक्सल के hue (एच घटक) के लिए [-0.1, 0.1] के बीच एक मूल्य जोड़ सकते हैं ।

  • क्रिज़ेव्स्की एट अल। 2012 में प्रसिद्ध एलेक्स-नेट का प्रशिक्षण देते समय 1 प्रस्तावित पीसीए। फैंसी पीसीए
    प्रशिक्षण छवियों में आरजीबी चैनलों की तीव्रता को बदल देता है । व्यवहार में, आप अपने प्रशिक्षण चित्रों में आरजीबी पिक्सेल मूल्यों के सेट पर सबसे पहले पीसीए का प्रदर्शन कर सकते हैं। और
    फिर, प्रत्येक प्रशिक्षण छवि के लिए, बस
    प्रत्येक RGB छवि पिक्सेल में निम्न मात्रा जोड़ें (जैसे, I_ {xy} = [I_ {xy} ^ R, I_ {xy} ^ G, I_ {xy} ^ B]: T) ):
    [bf {p} _1, bf {p} _2, bf {p} _3] [Alpha_1 lambda_1, alp_2 lambda_2, alp_3
    lambda_3] ^ T कहाँ, b {{p} _i और lambda_i i-th eigenvector और
    eigenvalue हैं
    क्रमशः आरजीबी पिक्सेल मानों के 3times 3 सहसंयोजक मैट्रिक्स , और अल्फा_ आई एक यादृच्छिक चर है जो गॉसियन से लिया गया है
    औसत शून्य और मानक विचलन 0.1 के साथ। कृपया ध्यान दें कि, प्रत्येक
    अल्फ़ाज़ी_ एक विशेष
    प्रशिक्षण छवि के सभी पिक्सल के लिए केवल एक बार तैयार किया जाता है, जब तक कि उस छवि को फिर से प्रशिक्षण के लिए उपयोग नहीं किया जाता है। यह
    कहना है, जब मॉडल फिर से एक ही प्रशिक्षण छवि को पूरा करता है, तो यह
    डेटा वृद्धि के लिए बेतरतीब ढंग से एक और Alpha_i का उत्पादन करेगा । में 1 , वे
    दावा किया कि "कल्पना पीसीए लगभग एक महत्वपूर्ण ले सकता है
    प्राकृतिक छवियों की संपत्ति, अर्थात्, उस वस्तु पहचान तीव्रता और रोशनी के रंग में बदलाव के लिए अपरिवर्तनीय है।" करने के लिए
    वर्गीकरण प्रदर्शन, इस योजना के ऊपर से 1 त्रुटि दर कम
    ImageNet 2012 की प्रतियोगिता में 1% से अधिक द्वारा।

(स्रोत: डीप न्यूरल नेटवर्क्स में टिप्स / ट्रिक्स अवश्य जानिए (शी-शेन वी द्वारा)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.