क्या एल्गोरिदम को एक-गर्म एन्कोडिंग की आवश्यकता होती है?


12

मुझे यकीन नहीं है कि गैर-क्रमबद्ध श्रेणीगत चर के लिए एक-हॉट एन्कोडिंग का उपयोग कब करना है और कब नहीं। जब भी एल्गोरिथ्म समानता की गणना करने के लिए दूरी मीट्रिक का उपयोग करता है, तो मैं इसका उपयोग करता हूं। क्या कोई भी अंगूठे का एक सामान्य नियम दे सकता है कि किस प्रकार के एल्गोरिदम के लिए गैर-क्रमबद्ध श्रेणीबद्ध विशेषताओं की आवश्यकता होगी जो एक-हॉट-एन्कोडेड हो और जो नहीं होगा?


2
क्या आप कुछ प्रकार के "कंट्रास्ट वैरिएबल" या विशेष रूप से डमी (एक-हॉट) प्रकार में श्रेणीबद्ध डेटा को कोड करने की आवश्यकता के बारे में पूछ रहे हैं ?
ttnphns

1
यह प्रश्न कुछ व्यापक है, लेकिन एक सरल उत्तर जो ओएचई की प्रकृति को संबोधित करता है, ओपी के भ्रम को साफ कर सकता है। इस तरह के उत्तरों का अस्तित्व इस सवाल का जवाब देने योग्य है। मैं खुले में छोड़ने के लिए मतदान कर रहा हूं।
गंग -

@ttnphns ईमानदारी से मुझे पता नहीं है कि आपको कंट्रास्ट वेरिएबल से क्या मतलब है। मैं केवल डमी से परिचित हूं।
कॉस्मो

कॉस्मोस, डमी (= संकेतक = एक-गर्म) विश्लेषण में स्पष्ट कैरिबल्स को एन्कोड करने के कई तरीकों में से एक है। Theses तरीके को "कंट्रास्ट वैरिएबल" कहा जाता है। आँकड़े देखें ।meta.stackexchange.com / q
4669/

1
मुझे लगता है कि आपके द्वारा मांगी गई पूरी सूची का उत्पादन करना कठिन है।
mdewey

जवाबों:


6

अधिकांश एल्गोरिदम (रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन, तंत्रिका नेटवर्क, समर्थन वेक्टर मशीन, आदि) को श्रेणीबद्ध चर पर किसी प्रकार के एन्कोडिंग की आवश्यकता होती है। ऐसा इसलिए है क्योंकि अधिकांश एल्गोरिदम केवल संख्यात्मक मानों को इनपुट के रूप में लेते हैं।

एल्गोरिदम जिन्हें एन्कोडिंग की आवश्यकता नहीं होती है, वे एल्गोरिदम हैं जो सीधे संयुक्त असतत वितरण से निपट सकते हैं जैसे कि मार्कोव श्रृंखला / नाव बेयस / बायेसियन नेटवर्क, ट्री बेस्ड, इत्यादि।

अतिरिक्त टिप्पणियां:


यह अभी भी स्पष्ट नहीं है कि MOST ALGORITHMS के लिए एक गर्म एन्कोडिंग की आवश्यकता है। आप सिर्फ कहते हैं कि एन्कोडिंग की आवश्यकता है। लेकिन क्या यह एक गर्म एन्कोडिंग है?
प्रोमेथियस

4

क्या कोई भी सूची दे सकता है कि एल्गोरिदम को एक-हॉट-एन्कोडेड होने के लिए स्पष्ट विशेषताओं की आवश्यकता क्या होगी और कौन से नहीं होंगे?

AFAIU, यह विशेष डेटा के साथ और अधिक करना है , विशेष एल्गोरिथ्म के साथ कम है । विशेष रूप से, यह इस बात पर निर्भर करता है कि श्रेणियों में कुछ सार्थक क्रम है या नहीं।

दो मामलों पर विचार करें। पहले में आपके पास श्रेणियां खराब, मेह, अच्छी हैं , और दूसरे में आपके पास सेब, नारंगी, नाशपाती हैं । पहले मामले में एक प्राकृतिक आदेश है, क्योंकि मेह शायद बुरे और अच्छे के बीच है , लेकिन शायद सेब, नारंगी, नाशपाती में ऐसा कुछ नहीं होता है ।

यदि आप पहले मामले के लिए एक-हॉट एन्कोडिंग से बचते हैं, तो आप ऑर्डर के बारे में जानकारी "खो" रहे हैं। यदि आप दूसरे मामले के लिए एक-हॉट एन्कोडिंग का उपयोग करते हैं, तो आप श्रेणियों के लिए कुछ आदेश दे रहे हैं जो स्वाभाविक रूप से सच नहीं है।

मैं ऐसा तब करता हूं जब एल्गोरिथ्म समानता की गणना करने के लिए एक दूरी मीट्रिक का उपयोग करता है।

क्यों? मान लीजिए कि सुविधाओं में से एक श्रेणीगत बुरा, meh, अच्छा है , और आपके पास तीन उदाहरण हैं, 1, 2, और 3, जहां वे समान हैं, सिवाय इसके कि 1 बुरा है , 2 meh है , और 3 अच्छा है। आप शायद एल्गोरिथ्म को व्यक्त करना चाहते हैं कि 1 2 से अधिक समान है जो कि 3 है।


2
यह एक अच्छा जवाब है। मुझे प्रश्न को स्पष्ट करना चाहिए, हालांकि गैर-क्रमबद्ध श्रेणीगत चर भी शामिल करना चाहिए। उस मामले में, यह हमेशा एक गर्म एन्कोडेड होना चाहिए?
कॉस्मो

@ cosmos1990 IMHO, अंगूठे के नियम के रूप में, गैर-क्रमबद्ध श्रेणीबद्ध डेटा के लिए, एक-हॉट एन्कोडिंग जाने का तरीका है (संख्यात्मक मान के असाइनमेंट के विपरीत)।
अमी तेवरी

2

किसी भी मशीन लर्निंग एल्गोरिदम को एक गर्म एन्कोडिंग की आवश्यकता नहीं होती है । यह श्रेणीबद्ध चर से निपटने के लिए एक विधि है। डमी चर एक और है। परंपरागत रूप से, डमी वैरिएबल पसंदीदा समाधान था। उदाहरण के लिए, आर फ़ंक्शन एलएम () स्वचालित रूप से श्रेणीबद्ध डेटा के लिए डमी चर बनाता है। यदि आप अजगर और स्किक सीख रहे हैं, तो मेरा मानना ​​है कि इसके कई लोगों को श्रेणीबद्ध चर के एक-गर्म एन्कोडिंग की आवश्यकता होती है। मेरा मानना ​​है कि टेंसोरफ्लो को भी एक-गर्म एन्कोडिंग की आवश्यकता होती है। ये विकल्प हैं कि चर कैसे एन्कोड किया गया है। इसके बजाय कोड में डमी चर का उपयोग नहीं किया जा सकता है कोई कारण नहीं है। यह सब एल्गोरिथ्म के वास्तविक कोड कार्यान्वयन से निपटना है।

जैसा कि hxd1011 इंगित करता है कि श्रेणीबद्ध चर के बीच 'दूरी' का वर्णन करने का मुद्दा एक नाजुक मुद्दा है। बताई गई दूरियों के अलावा जैकार्ड दूरी भी है। कुछ एमएल विधियां, विशेष रूप से एसवीएम श्रेणीबद्ध डेटा के लिए अनुपयुक्त हैं और श्रेणीबद्ध चर जोड़ सकते हैं / (या तो, दोनों, आप तय करते हैं) बहुत खराब भविष्य कहनेवाला शक्ति के साथ मॉडल का नेतृत्व करते हैं। अधिकांश पहनावा मॉडल 'के रूप में' श्रेणीबद्ध डेटा को संभालते हैं और किसी पूर्व-प्रसंस्करण की आवश्यकता नहीं होती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.