हमें कोड वेरिएबल डमी कोड की आवश्यकता क्यों है

मुझे यकीन नहीं है कि हमें कोड वेरिएबल डमी कोड की आवश्यकता क्यों है। उदाहरण के लिए, यदि मेरे पास चार संभव मानों के साथ एक श्रेणीगत चर है, तो 0,1,2,3 मैं इसे दो आयामों से बदल सकता हूं। यदि चर का मान 0 था, तो इसके दो आयाम में 0,0 होगा, यदि यह 3 होता, तो दो आयामों में 1,1 और इसी तरह होगा।

मुझे यकीन नहीं है कि हमें ऐसा करने की आवश्यकता क्यों है?

categorical-data categorical-encoding

— user12331
स्रोत

मान लीजिए कि आपकी चार श्रेणियां हैं आंखों के रंग (कोड): भूरा (1), नीला (2), हरा (3), हेज़ेल (4) -हाइट्रोक्रोमिया, वायलेट, रेड, ग्रे, आदि।

किसी भी तरह से (कि मैं वर्तमान में कल्पना कर सकता हूं) क्या हमारा मतलब होगा कि हमारे कोड के रूप में हरे भूरे, या उस हेज़ेल नीले, भले ही और । $= 3\times$ $=2\times$ $3=3\times1$ $4 = 2 \times 2$

इसलिए (जब तक हम किसी कारण से इस तरह के अर्थ को अपने विश्लेषणों में पर्ची नहीं करना चाहते हैं), हमें कुछ प्रकार के कोडिंग का उपयोग करने की आवश्यकता है। डमी कोडिंग एक उदाहरण है, जो हम आंखों की रंग के बारे में बताना चाहते हैं सांख्यिकीय कहानियों से ऐसे संबंधों को समाप्त करता है। प्रभाव कोडिंग और हेकमैन कोडिंग अन्य उदाहरण हैं।

अपडेट: चार श्रेणियों के लिए दो चरों के अपने उदाहरण "डमी कोड" जो आम तौर पर जगह जरूरत पर जोर देता अवधि की मेरी समझ उपयोग से मेल नहीं खाता के साथ श्रेणियों (कहते हैं कि 4) डमी चर (श्रेणी के द्वारा टिप्पणियों छँटाई): $k$ $k-1$

id  category  dummy1 dummy2 dummy3
 1         1       1      0      0
 2         1       1      0      0
 3         2       0      1      0
 4         2       0      1      0
 5         3       0      0      1
 6         3       0      0      1
 7         4       0      0      0
 8         4       0      0      0

यहां श्रेणी 4 संदर्भ श्रेणी है, यह मानते हुए कि आपके मॉडल में कोई स्थिरांक है, जैसे:

y = β_{0} + β_{1} घ 1 + β_{2} घ 2 + β_{3} घ 3 + ε

$y = \beta_{0} + \beta_{1}d1 + \beta_{2}d2 + \beta_{3}d3 + \varepsilon$

जहां के औसत मान है जब श्रेणी = 4, और प्रत्येक डमी से संबद्ध शर्तों से संकेत मिलता है क्या राशि से से परिवर्तन उस वर्ग के लिए। $\beta_{0}$ $y$ $\beta$ $y$ $\beta_{0}$

यदि आप नहीं करते हैं एक निरंतर (है ) मॉडल में अवधि, तो आप एक और "डमी" भविष्यवक्ता (शायद कम अक्सर कहा जाता है "सूचक चर"), प्रभाव में dummies तो प्रत्येक श्रेणी के लिए मॉडल के रूप में प्रत्येक लगातार व्यवहार की जरूरत है : $\beta_{0}$

y = β_{1} घ 1 + β_{2} घ 2 + β_{3} घ 3 + β_{4} घ 4 + ε

$y = \beta_{1}d1 + \beta_{2}d2 + \beta_{3}d3 + \beta_{4}d4 + \varepsilon$

तो यह पहले से उल्लेख किए गए श्रेणी कोड के बीच निरर्थक मात्रात्मक संबंध बनाने के मुद्दे के आसपास एक हो जाएगा , लेकिन जैसा कि आप सुझाव देते हैं user12331-coding का उपयोग क्यों नहीं करते हैं? user12331-कोडिंग उम्मीदवार A:

id  category   code1  code2
 1         1       0      ?
 2         1       0      ?
 3         2       1      ?
 4         2       1      ?
 5         3       ?      0
 6         3       ?      0
 7         4       ?      1
 8         4       ?      1

आपको यह बताना सही है कि 2 बाइनरी वैरिएबल्स (यानी दो-बिट) का उपयोग करके 4 मानों का प्रतिनिधित्व कर सकता है । दुर्भाग्य से, इस के लिए एक दृष्टिकोण (श्रेणियों 1 और 2 के लिए कोड 1, और श्रेणियों 3 और 4 के लिए कोड 2) प्रश्न चिह्नों द्वारा इंगित अस्पष्टता को छोड़ देता है: वहां क्या मूल्य होंगे ?!

खैर, दूसरे दृष्टिकोण के बारे में क्या, इसे उपयोगकर्ता 12331-कोडिंग उम्मीदवार बी कहें:

id  category   code1  code2
 1         1       0      0
 2         1       0      0
 3         2       0      1
 4         2       0      1
 5         3       1      0
 6         3       1      0
 7         4       1      1
 8         4       1      1

वहाँ! कोई अस्पष्टता, सही? सही! दुर्भाग्य से, यह सब कोडिंग द्विआधारी संकेतन में संख्यात्मक मात्रा 1-4 (या 0–3) का प्रतिनिधित्व करता है , जो उन अवांछित मात्रात्मक संबंधों को श्रेणियों में देने की समस्या को बरकरार रखता है ।

इसलिए, एक और कोडिंग योजना की आवश्यकता है।

$\beta$

— एलेक्सिस
स्रोत

हालांकि यह उत्तर इस कारण को प्रदर्शित करता है कि हम एक चर का उपयोग क्यों नहीं कर सकते (यानी कि हमें वास्तव में 'किसी प्रकार की कोडिंग' की आवश्यकता है), यह नहीं बताता है (अभी तक) कि हम इसे दो चर कहकर क्यों नहीं कर सकते , ओपी सवाल में सुझाव देता है।

— Glen_b -Reinstate Monica

@Glen_b धन्यवाद। मुझे उम्मीद है कि मेरे अपडेट ने पते में मदद की है।

— एलेक्सिस

ध्यान दें कि 2 बाइनरी चर 4 श्रेणियों [(0,0), (0,1), (1,0), (1,1)] का प्रतिनिधित्व करने के लिए पर्याप्त है, लेकिन विश्लेषण के लिए डमी कोड का उपयुक्त तरीका नहीं है। ओपी गलत तरीके से कोडिंग करता है।

— एलिस वैलेंटाइनर

@ user12202013 हाँ। जैसा कि मेरे अंतिम उदाहरण में है।

— एलेक्सिस

क्या होगा अगर मुझे ओपी द्वारा सुझाए गए दो चर का उपयोग करके एक बाइनरी कोडिंग करना था, लेकिन फिर यदि लक्ष्य भविष्यवाणी है, तो एक गैर पैरामीट्रिक, गैर-रैखिक क्लासिफायर / रेजिस्टर समान रूप से अच्छी तरह से काम नहीं करेगा?

— tool.ish

इस सवाल पर मेरा कहना है, कि चार संभव राज्यों को केवल दो चर के साथ कोड करना कुछ मशीन लर्निंग एल्गोरिदम के साथ कम अभिव्यंजक है, जो 4 चर का उपयोग करता है।

उदाहरण के लिए, कल्पना करें कि आप रैखिक प्रतिगमन करना चाहते हैं और आपकी सही मैपिंग 0,1 और 2 से 0 मानों को मैप करती है और मान 3 से 1. आप जल्दी से जाँच सकते हैं कि कोडिंग करते समय रैखिक प्रतिगमन के साथ इस मानचित्रण को सीखने का कोई तरीका नहीं है। सिर्फ दो द्विआधारी वाले के साथ आपके श्रेणीबद्ध चर (बस अपने सिर में संबंधित विमान को फिट करने की कोशिश करें)। दूसरी ओर, जब आप 1-के-के-कोडिंग का उपयोग करते हैं, तो यह कोई समस्या नहीं होगी।

— टोबियास
स्रोत

आपका विकल्प एक डमी कोड भी है। आप डमी कोड चुनते हैं जो आपके आश्रित चर के लिए सबसे अच्छा संबंध व्यक्त करता है। जैसे रंग को n के 1 के रूप में व्यक्त किया जा सकता है, या आप संख्यात्मक आरजीबी घटकों में बदल सकते हैं, या आप श्रेणीबद्ध कर सकते हैं: girly / मैला / ... n में से 1 मूल रूप से प्रत्येक उदाहरण को अलग से सीखा जाता है जो कोई संबंध नहीं होने पर अच्छा है। .. लेकिन जहां एक रिश्ता है जो आप अपने डेटा को बर्बाद कर रहे हैं..आपको अलग-अलग श्रेणी के प्रत्येक उदाहरण के लिए गुणांक का अनुमान लगाना होगा ... नौकरी को एक श्रेणीगत चर के रूप में मानें। आप बाजार क्षेत्र और वरिष्ठता के रूप में वर्गीकृत कर सकते हैं।

— seanv507
स्रोत