मान लीजिए कि आपकी चार श्रेणियां हैं आंखों के रंग (कोड): भूरा (1), नीला (2), हरा (3), हेज़ेल (4) -हाइट्रोक्रोमिया, वायलेट, रेड, ग्रे, आदि।
किसी भी तरह से (कि मैं वर्तमान में कल्पना कर सकता हूं) क्या हमारा मतलब होगा कि हमारे कोड के रूप में हरे भूरे, या उस हेज़ेल = 2 × नीले, भले ही 3 = 3 × 1 और 4 = 2 × 2 हो ।=3×=2×3=3×14 = 2 × 2
इसलिए (जब तक हम किसी कारण से इस तरह के अर्थ को अपने विश्लेषणों में पर्ची नहीं करना चाहते हैं), हमें कुछ प्रकार के कोडिंग का उपयोग करने की आवश्यकता है। डमी कोडिंग एक उदाहरण है, जो हम आंखों की रंग के बारे में बताना चाहते हैं सांख्यिकीय कहानियों से ऐसे संबंधों को समाप्त करता है। प्रभाव कोडिंग और हेकमैन कोडिंग अन्य उदाहरण हैं।
अपडेट: चार श्रेणियों के लिए दो चरों के अपने उदाहरण "डमी कोड" जो आम तौर पर जगह जरूरत पर जोर देता अवधि की मेरी समझ उपयोग से मेल नहीं खाता के साथ श्रेणियों (कहते हैं कि 4) कश्मीर - 1 डमी चर (श्रेणी के द्वारा टिप्पणियों छँटाई):कके - १
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
यहां श्रेणी 4 संदर्भ श्रेणी है, यह मानते हुए कि आपके मॉडल में कोई स्थिरांक है, जैसे:
y= β0+ β1घ1 + β2घ2 + β3घ3 + ε
जहां के औसत मान है y जब श्रेणी = 4, और β प्रत्येक डमी से संबद्ध शर्तों से संकेत मिलता है क्या राशि से y से परिवर्तन β 0 उस वर्ग के लिए।β0yβyβ0
यदि आप नहीं करते हैं एक निरंतर (है ) मॉडल में अवधि, तो आप एक और "डमी" भविष्यवक्ता (शायद कम अक्सर कहा जाता है "सूचक चर"), प्रभाव में dummies तो प्रत्येक श्रेणी के लिए मॉडल के रूप में प्रत्येक लगातार व्यवहार की जरूरत है :β0
y= β1घ1 + β2घ2 + β3घ3 + β4घ4 + ε
तो यह पहले से उल्लेख किए गए श्रेणी कोड के बीच निरर्थक मात्रात्मक संबंध बनाने के मुद्दे के आसपास एक हो जाएगा , लेकिन जैसा कि आप सुझाव देते हैं user12331-coding का उपयोग क्यों नहीं करते हैं? user12331-कोडिंग उम्मीदवार A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
आपको यह बताना सही है कि 2 बाइनरी वैरिएबल्स (यानी दो-बिट) का उपयोग करके 4 मानों का प्रतिनिधित्व कर सकता है । दुर्भाग्य से, इस के लिए एक दृष्टिकोण (श्रेणियों 1 और 2 के लिए कोड 1, और श्रेणियों 3 और 4 के लिए कोड 2) प्रश्न चिह्नों द्वारा इंगित अस्पष्टता को छोड़ देता है: वहां क्या मूल्य होंगे ?!
खैर, दूसरे दृष्टिकोण के बारे में क्या, इसे उपयोगकर्ता 12331-कोडिंग उम्मीदवार बी कहें:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
वहाँ! कोई अस्पष्टता, सही? सही! दुर्भाग्य से, यह सब कोडिंग द्विआधारी संकेतन में संख्यात्मक मात्रा 1-4 (या 0–3) का प्रतिनिधित्व करता है , जो उन अवांछित मात्रात्मक संबंधों को श्रेणियों में देने की समस्या को बरकरार रखता है ।
इसलिए, एक और कोडिंग योजना की आवश्यकता है।
β