एसवीएम या न्यूरल नेटवर्क का उपयोग करते समय संख्यात्मक चर में श्रेणीबद्ध चर को कैसे पुन: व्यवस्थित करें


19

एसवीएम या न्यूरल नेटवर्क का उपयोग करने के लिए इसे श्रेणीबद्ध चर को सांख्यिक चर में बदलना (एनकोड करना) है, इस मामले में सामान्य विधि k- वें श्रेणीगत मान के रूप में परिवर्तित होने वाले (0,0, ।।) 0-1 बाइनरी मान का उपयोग करना है। ।, 1,0, ... 0) (1 k- वीं स्थिति पर है)। क्या ऐसा करने के लिए अन्य तरीके हैं, खासकर जब बड़ी संख्या में श्रेणीबद्ध मूल्य हैं (जैसे कि 10000) जैसे कि 0-1 का प्रतिनिधित्व न्यूरल नेटवर्क में बड़ी संख्या में अतिरिक्त आयामों (इनपुट इकाइयों) को पेश करेगा, जो काफी वांछित या अपेक्षित नहीं लगता है ?

मैं सामान्य रणनीतियों के बारे में पूछ रहा हूं।


आप सामान्य रणनीतियों के बारे में पूछ रहे हैं या कुछ विशिष्ट समस्या के बारे में?
डेनिस तारसोव

जवाबों:


11

एनएलपी में, जहां शब्दों को आमतौर पर 1-के के रूप में एन्कोड किया जाता है, हाल ही में शब्द एम्बेडिंग का उपयोग सामने आया है। विकिपीडिया पृष्ठ अपने संदर्भ के साथ एक अच्छी शुरुआत है।

xiRnin

शायद आप उस विचार को अपनी सेटिंग में स्थानांतरित कर सकते हैं।


10

'मानक' विधियाँ हैं: एक-हॉट एन्कोडिंग (जिसका आपने प्रश्न में उल्लेख किया है)। यदि बहुत अधिक संभावित श्रेणियां हैं, लेकिन आपको 0-1 एन्कोडिंग की आवश्यकता है, तो आप हैशिंग ट्रिक का उपयोग कर सकते हैं ।

अन्य अक्सर उपयोग की जाने वाली विधि श्रेणी पर जवाब देने के लिए औसत है: कग्गल पर टिप्पणी से चित्र देखें ।


1

आप पैकेज dummyVarsसे आर में उपयोग कर सकते हैं caret। यह स्वचालित रूप से विभिन्न स्तरों के आधार पर विभिन्न कॉलम बनाएगा। बाद में, आप cbindइसे मूल डेटा का उपयोग और संलग्न कर सकते हैं । अन्य विकल्पों में शामिल हैं model.matrixऔर sparse.model.matrix


0

आप द्विआधारी एन्कोडिंग की कोशिश कर सकते हैं जो अधिक कॉम्पैक्ट है और कभी-कभी एक-गर्म आउटपरफॉर्म करता है। आप उदाहरण के लिए, केरस में श्रेणीबद्ध एम्बेडिंग को लागू कर सकते हैं।


0

आप इकाई एन्कोडिंग का उपयोग कर सकते हैं , जो एक अधिक परिष्कृत नेटवर्क संरचना है। यह 1 और बीच जोड़ता है-1 श्रेणीबद्ध इनपुट और पहली पूरी तरह से जुड़े परत के छिपा हुआ, रैखिक न्यूरॉन्स के बीच जोड़ता है। इसके पीछे कुछ अच्छे अनुभवजन्य परिणाम हैं।

चेंग गुओ, फेलिक्स बेरखान द्वारा "श्रेणीबद्ध चर की इकाई एम्बेडिंग"

हम यूक्लिडियन रिक्त स्थान में एक फ़ंक्शन सन्निकटन समस्या में श्रेणीबद्ध चर मैप करते हैं, जो श्रेणीबद्ध चर की इकाई एम्बेडिंग हैं। मानचित्रण एक तंत्रिका नेटवर्क द्वारा मानक पर्यवेक्षित प्रशिक्षण प्रक्रिया के दौरान सीखा जाता है। एंटिटी एम्बेडिंग न केवल मेमोरी उपयोग को कम करता है और एक-हॉट एन्कोडिंग के साथ तुलना में तंत्रिका नेटवर्क को गति देता है, बल्कि इससे भी महत्वपूर्ण है कि एम्बेडिंग स्पेस में एक दूसरे के करीब समान मानों को मैप करते हुए यह श्रेणीबद्ध चर के आंतरिक गुणों को प्रकट करता है। हमने इसे हाल ही में हुए कागेल प्रतियोगिता में सफलतापूर्वक लागू किया और सापेक्ष सरल विशेषताओं के साथ तीसरे स्थान पर पहुंचने में सक्षम थे। हम आगे इस पत्र में प्रदर्शित करते हैं कि इकाई एम्बेडिंग तंत्रिका नेटवर्क को बेहतर बनाने में मदद करता है जब डेटा विरल होता है और आँकड़े अज्ञात होते हैं। इस प्रकार यह बहुत अधिक कार्डिनैलिटी विशेषताओं के साथ डेटासेट के लिए विशेष रूप से उपयोगी है, जहां अन्य विधियां ओवरफिट होती हैं। हम यह भी प्रदर्शित करते हैं कि प्रशिक्षित तंत्रिका नेटवर्क से प्राप्त एम्बेडिंग सभी परीक्षण किए गए मशीन शिक्षण विधियों के प्रदर्शन को काफी बढ़ाते हैं जब इसके बजाय इनपुट के रूप में उपयोग किया जाता है। जैसा कि इकाई एम्बेडिंग श्रेणीगत चर के लिए एक दूरी माप को परिभाषित करता है इसका उपयोग श्रेणीबद्ध डेटा को विज़ुअलाइज़ करने और डेटा क्लस्टरिंग के लिए किया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.