हमें कोड वेरिएबल डमी कोड की आवश्यकता क्यों है


22

मुझे यकीन नहीं है कि हमें कोड वेरिएबल डमी कोड की आवश्यकता क्यों है। उदाहरण के लिए, यदि मेरे पास चार संभव मानों के साथ एक श्रेणीगत चर है, तो 0,1,2,3 मैं इसे दो आयामों से बदल सकता हूं। यदि चर का मान 0 था, तो इसके दो आयाम में 0,0 होगा, यदि यह 3 होता, तो दो आयामों में 1,1 और इसी तरह होगा।

मुझे यकीन नहीं है कि हमें ऐसा करने की आवश्यकता क्यों है?

जवाबों:


21

मान लीजिए कि आपकी चार श्रेणियां हैं आंखों के रंग (कोड): भूरा (1), नीला (2), हरा (3), हेज़ेल (4) -हाइट्रोक्रोमिया, वायलेट, रेड, ग्रे, आदि।

किसी भी तरह से (कि मैं वर्तमान में कल्पना कर सकता हूं) क्या हमारा मतलब होगा कि हमारे कोड के रूप में हरे भूरे, या उस हेज़ेल = 2 × नीले, भले ही 3 = 3 × 1 और 4 = 2 × 2 हो=3×=2×3=3×14=2×2

इसलिए (जब तक हम किसी कारण से इस तरह के अर्थ को अपने विश्लेषणों में पर्ची नहीं करना चाहते हैं), हमें कुछ प्रकार के कोडिंग का उपयोग करने की आवश्यकता है। डमी कोडिंग एक उदाहरण है, जो हम आंखों की रंग के बारे में बताना चाहते हैं सांख्यिकीय कहानियों से ऐसे संबंधों को समाप्त करता है। प्रभाव कोडिंग और हेकमैन कोडिंग अन्य उदाहरण हैं।

अपडेट: चार श्रेणियों के लिए दो चरों के अपने उदाहरण "डमी कोड" जो आम तौर पर जगह जरूरत पर जोर देता अवधि की मेरी समझ उपयोग से मेल नहीं खाता के साथ श्रेणियों (कहते हैं कि 4) कश्मीर - 1 डमी चर (श्रेणी के द्वारा टिप्पणियों छँटाई):-1

id  category  dummy1 dummy2 dummy3
 1         1       1      0      0
 2         1       1      0      0
 3         2       0      1      0
 4         2       0      1      0
 5         3       0      0      1
 6         3       0      0      1
 7         4       0      0      0
 8         4       0      0      0

यहां श्रेणी 4 संदर्भ श्रेणी है, यह मानते हुए कि आपके मॉडल में कोई स्थिरांक है, जैसे:

y=β0+β11+β22+β33+ε

जहां के औसत मान है y जब श्रेणी = 4, और β प्रत्येक डमी से संबद्ध शर्तों से संकेत मिलता है क्या राशि से y से परिवर्तन β 0 उस वर्ग के लिए।β0yβyβ0

यदि आप नहीं करते हैं एक निरंतर (है ) मॉडल में अवधि, तो आप एक और "डमी" भविष्यवक्ता (शायद कम अक्सर कहा जाता है "सूचक चर"), प्रभाव में dummies तो प्रत्येक श्रेणी के लिए मॉडल के रूप में प्रत्येक लगातार व्यवहार की जरूरत है :β0

y=β11+β22+β33+β44+ε

तो यह पहले से उल्लेख किए गए श्रेणी कोड के बीच निरर्थक मात्रात्मक संबंध बनाने के मुद्दे के आसपास एक हो जाएगा , लेकिन जैसा कि आप सुझाव देते हैं user12331-coding का उपयोग क्यों नहीं करते हैं? user12331-कोडिंग उम्मीदवार A:

id  category   code1  code2
 1         1       0      ?
 2         1       0      ?
 3         2       1      ?
 4         2       1      ?
 5         3       ?      0
 6         3       ?      0
 7         4       ?      1
 8         4       ?      1

आपको यह बताना सही है कि 2 बाइनरी वैरिएबल्स (यानी दो-बिट) का उपयोग करके 4 मानों का प्रतिनिधित्व कर सकता है । दुर्भाग्य से, इस के लिए एक दृष्टिकोण (श्रेणियों 1 और 2 के लिए कोड 1, और श्रेणियों 3 और 4 के लिए कोड 2) प्रश्न चिह्नों द्वारा इंगित अस्पष्टता को छोड़ देता है: वहां क्या मूल्य होंगे ?!

खैर, दूसरे दृष्टिकोण के बारे में क्या, इसे उपयोगकर्ता 12331-कोडिंग उम्मीदवार बी कहें:

id  category   code1  code2
 1         1       0      0
 2         1       0      0
 3         2       0      1
 4         2       0      1
 5         3       1      0
 6         3       1      0
 7         4       1      1
 8         4       1      1

वहाँ! कोई अस्पष्टता, सही? सही! दुर्भाग्य से, यह सब कोडिंग द्विआधारी संकेतन में संख्यात्मक मात्रा 1-4 (या 0–3) का प्रतिनिधित्व करता है , जो उन अवांछित मात्रात्मक संबंधों को श्रेणियों में देने की समस्या को बरकरार रखता है ।

इसलिए, एक और कोडिंग योजना की आवश्यकता है।

β


5
हालांकि यह उत्तर इस कारण को प्रदर्शित करता है कि हम एक चर का उपयोग क्यों नहीं कर सकते (यानी कि हमें वास्तव में 'किसी प्रकार की कोडिंग' की आवश्यकता है), यह नहीं बताता है (अभी तक) कि हम इसे दो चर कहकर क्यों नहीं कर सकते , ओपी सवाल में सुझाव देता है।
Glen_b -Reinstate Monica

@Glen_b धन्यवाद। मुझे उम्मीद है कि मेरे अपडेट ने पते में मदद की है।
एलेक्सिस

2
ध्यान दें कि 2 बाइनरी चर 4 श्रेणियों [(0,0), (0,1), (1,0), (1,1)] का प्रतिनिधित्व करने के लिए पर्याप्त है, लेकिन विश्लेषण के लिए डमी कोड का उपयुक्त तरीका नहीं है। ओपी गलत तरीके से कोडिंग करता है।
एलिस वैलेंटाइनर

@ user12202013 हाँ। जैसा कि मेरे अंतिम उदाहरण में है।
एलेक्सिस

क्या होगा अगर मुझे ओपी द्वारा सुझाए गए दो चर का उपयोग करके एक बाइनरी कोडिंग करना था, लेकिन फिर यदि लक्ष्य भविष्यवाणी है, तो एक गैर पैरामीट्रिक, गैर-रैखिक क्लासिफायर / रेजिस्टर समान रूप से अच्छी तरह से काम नहीं करेगा?
tool.ish

1

इस सवाल पर मेरा कहना है, कि चार संभव राज्यों को केवल दो चर के साथ कोड करना कुछ मशीन लर्निंग एल्गोरिदम के साथ कम अभिव्यंजक है, जो 4 चर का उपयोग करता है।

उदाहरण के लिए, कल्पना करें कि आप रैखिक प्रतिगमन करना चाहते हैं और आपकी सही मैपिंग 0,1 और 2 से 0 मानों को मैप करती है और मान 3 से 1. आप जल्दी से जाँच सकते हैं कि कोडिंग करते समय रैखिक प्रतिगमन के साथ इस मानचित्रण को सीखने का कोई तरीका नहीं है। सिर्फ दो द्विआधारी वाले के साथ आपके श्रेणीबद्ध चर (बस अपने सिर में संबंधित विमान को फिट करने की कोशिश करें)। दूसरी ओर, जब आप 1-के-के-कोडिंग का उपयोग करते हैं, तो यह कोई समस्या नहीं होगी।


0

आपका विकल्प एक डमी कोड भी है। आप डमी कोड चुनते हैं जो आपके आश्रित चर के लिए सबसे अच्छा संबंध व्यक्त करता है। जैसे रंग को n के 1 के रूप में व्यक्त किया जा सकता है, या आप संख्यात्मक आरजीबी घटकों में बदल सकते हैं, या आप श्रेणीबद्ध कर सकते हैं: girly / मैला / ... n में से 1 मूल रूप से प्रत्येक उदाहरण को अलग से सीखा जाता है जो कोई संबंध नहीं होने पर अच्छा है। .. लेकिन जहां एक रिश्ता है जो आप अपने डेटा को बर्बाद कर रहे हैं..आपको अलग-अलग श्रेणी के प्रत्येक उदाहरण के लिए गुणांक का अनुमान लगाना होगा ... नौकरी को एक श्रेणीगत चर के रूप में मानें। आप बाजार क्षेत्र और वरिष्ठता के रूप में वर्गीकृत कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.