उदाहरण के लिए, लिंग को आमतौर पर 1/2 के बजाय 0/1 कोडित क्यों किया जाता है?


25

मैं डेटा विश्लेषण के लिए कोडिंग के तर्क को समझता हूं। नीचे मेरा प्रश्न एक विशिष्ट कोड के उपयोग पर है।

  • क्या एक कारण है कि लिंग को अक्सर महिला के लिए 0 और पुरुष के लिए 1 के रूप में कोडित किया जाता है?
  • इस कोडिंग को 'मानक' क्यों माना जाता है?
  • महिला = 1 और पुरुष = 2 के साथ इसकी तुलना करें। क्या इस कोडिंग में कोई समस्या है?

15
दूसरों के बीच प्रतिगमन मॉडल लागू करते समय एक 0/1 कोडिंग योजना का उपयोग करना आवश्यक है, हालांकि कई कोडिंग योजनाएं संभव हैं, जैसे -1/1 (लेकिन यह प्रतिगमन गुणांक की व्याख्या को बदल देगा)। यद्यपि यह डेटा प्रविष्टि (जो आप वास्तव में अपने डेटाबेस में डालते हैं) के साथ भ्रमित नहीं होना चाहिए। इस मामले में, पूर्ण लेबल को संग्रहीत करना बेहतर है। जब आप अपने प्रतिगमन मॉडल का निर्माण करते हैं तो उन्हें संख्यात्मक मानों में बदलें या एक समर्पित डिज़ाइन मैट्रिक्स का निर्माण करें। अन्यथा, मैं आपको शुभकामनाएं बताता हूं कि 5 वर्षों में 0 और 1 का क्या स्टैंड है।
CHL

मैंने डेटाबेस में पुरुष, महिला और अज्ञात के रूप में कोडित लिंग को देखा है।
अक्कल १ks

2
मुझे लगता है कि इस सवाल को सबसे अच्छा माना जाता है क्योंकि दो सवालों को उलझा दिया गया है। बड़ा सवाल यह है कि किसी इंडिकेटर या डमी वैरिएबल के लिए किसी अन्य के बजाय 0-1 कोडिंग का उपयोग क्यों किया जाए। छोटा सवाल यह है कि पुरुष के लिए 1 और महिला के लिए 0 का उपयोग क्यों किया जाता है, जिसमें से एक संक्षिप्त उत्तर यह है कि कई अन्य कोडिंग उपयोग में हैं, जिनमें महिला के लिए 1 का विपरीत शामिल है, आदि, और अज्ञात लिंग के लिए अनुमति देने वाले विभिन्न जटिल कोडिंग भी हैं और अन्य लिंग श्रेणियां।
निक कॉक्स

जवाबों:


38

बाइनरी चर की शून्य-एक कोडिंग पसंद करने के कारण:

  • शून्य-एक चर का मतलब मूल्य एक (उदाहरण के लिए, पुरुषों का प्रतिशत) द्वारा प्रतिनिधित्व श्रेणी में अनुपात का प्रतिनिधित्व करता है।
  • एक सरल प्रतिगमन में जहां एक्स शून्य एक चर, लगातार एक सीधी व्याख्या (जैसे, है एक का मतलब है y महिलाओं के लिए)।y=a+bxxay
  • बाइनरी चर की कोई भी कोडिंग जहां दो मूल्यों के बीच का अंतर एक है (यानी, शून्य-एक, लेकिन एक-दो भी) प्रतिगमन गुणांक के लिए एक सीधी व्याख्या देता है (जैसे, महिला से पुरुष पर जाने का प्रभाव है वाई)।b

द्विआधारी चर कोडिंग के बारे में मिश्रित अंक:

  • बाइनरी चर का कोई कोडिंग जो श्रेणियों के क्रम को संरक्षित करता है (जैसे, महिला = 0, पुरुष = 1; महिला = 1, पुरुष = 2; महिला = 1007, पुरुष = 2000;)) सहसंबंध को प्रभावित नहीं करेगा; अन्य चर के साथ द्विआधारी चर।
  • इस तरह से बाइनरी चर की रिपोर्ट करने वाली किसी भी तालिका को यह स्पष्ट करना चाहिए कि चर को कैसे कोडित किया गया था। यह उस श्रेणी के द्वारा चर को लेबल करने के लिए भी उपयोगी हो सकता है जो एक के मूल्य का प्रतिनिधित्व करता है: जैसे, y = a + b * Maleइसके बजाय y = a + b * Gender
  • कुछ बाइनरी वैरिएबल्स के लिए, स्वाभाविक रूप से एक श्रेणी को एक के रूप में कोडित किया जाना चाहिए। उदाहरण के लिए, जब उपचार और नियंत्रण के बीच अंतर को देखते हुए, नियंत्रण शून्य होना चाहिए, और उपचार एक होना चाहिए, क्योंकि उपचार के प्रभाव के रूप में प्रतिगमन गुणांक सबसे अच्छा माना जाता है।
  • श्रेणियों को फ़्लिप करना (जैसे, महिला = 0 और पुरुष = 0 बनाना, महिला = 0 और पुरुष = 1 के बजाय) सहसंबंधों और प्रतिगमन गुणांक के चिह्न को फ्लिप करेगा।
  • लिंग के मामले में, आमतौर पर चर महिला = 0, पुरुष = 1, बनाम पुरुष = 0, महिला = 1. को कोड करने का कोई प्राकृतिक कारण नहीं है। हालांकि, सम्मेलन का सुझाव हो सकता है कि एक कोडिंग एक पाठक के लिए अधिक परिचित है; या ऐसा कोडिंग चुनना जो प्रतिगमन गुणांक को सकारात्मक बनाता है, व्याख्या को आसान बना सकता है। इसके अलावा, कुछ संदर्भों में, एक लिंग को संदर्भ श्रेणी के रूप में सोचा जा सकता है; उदाहरण के लिए, यदि आप आय पर पुरुष वर्चस्व वाले पेशे में महिला होने के प्रभाव का अध्ययन कर रहे थे, तो यह महिला होने के प्रभाव की बात करने के लिए पुरुष = 0, और महिला = 1 को कोड करने के लिए समझ में आ सकता है।
  • विचारशील तरीके से प्रतिगमन गुणांक को स्केल करने से प्रतिगमन गुणांक की व्याख्या पर एक शक्तिशाली प्रभाव पड़ सकता है। एंड्रयू जेलमैन इस पर काफी चर्चा करते हैं; उदाहरण के लिए चिकित्सा , 27, 2865-2873 में सांख्यिकी में दो मानक विचलन (पीडीएफ) द्वारा विभाजित करके अपने 2008 के पेपर स्केलिंग रिग्रेशन इनपुट को देखें।
  • पुरुष और महिला को -1 और +1 के रूप में कोड करना एक और विकल्प है जो सार्थक गुणांक प्रदान कर सकता है (देखें "प्रभाव कोडिंग क्या है" )।

18
उह, मैंने हमेशा महिला = 0 और पुरुष = 1 को कोड करने का प्राकृतिक कारण "शारीरिक रचना" माना है ...
मैट पार्कर

2
@ मत्त मजाकिया। मैंने ऐसा कभी नहीं सोचा था। मैं हमेशा अपनी कला की डिग्री के लेंस से प्रभावित होता हूँ, जहाँ आपको सिखाया जाता है कि कैसे कुछ नारीवादी आलोचनात्मक विचारधाराएँ देखते हैं जो महिलाओं को पुरुषों के पास किसी चीज़ की कमी से परिभाषित करती हैं। इस तरह के लेंस के माध्यम से, कुछ हद तक, हास्य के साथ, लिंग का कोडिंग एक राजनीतिक मुद्दा बन जाता है :-)
जेरोमी एंग्लीम

13
एक आदत के रूप में, मैं हमेशा "फीमेल" की तरह एक लिंग परिवर्तनशील नाम को बदल देता हूं, यह स्पष्ट करने के लिए कि 0/1 कोडिंग योजना का क्या मतलब है।
फोमाइट

जेरेमी, क्या आप चर्चा आँकड़े देखना चाहते हैं ।meta.stackexchange.com /a/ 4881/3277 कि क्या हमें एक अलग टैग [डमी-चर] की आवश्यकता है और एक टिप्पणी में अपने समर्थक / चोर का कहना है?
ttnphns

सेक्स क्रोमोसोम एक्स और वाई की जोड़ी को ध्यान में रखते हुए, महिलाओं में एक्सएक्सएक्स और पुरुषों में एक्सवाई क्रोमोसोम होते हैं। X = 0 और Y = 1 को लेते हुए, हम उस महिला = XX = 00 = 0 और पुरुष = XY = 01 = 1 को पा सकते हैं।
ग्यूरोल कैनबक

14

इससे परिणामों की व्याख्या करना आसान हो जाता है। मान लीजिए कि आपके पास कुछ ऊंचाई डेटा था:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

और आपने फॉर्म का एक प्रतिगमन लिया Height = a + b * Gender + Residual

0,1 डमी वैरिएबल के साथ आपको a170 का अनुमान लगाया जाएगा कि महिलाओं की औसत ऊंचाई और b10 पुरुषों और महिलाओं की औसत ऊंचाइयों के बीच का अंतर है।

1,2 डमी वैरिएबल के साथ आपको a160 का अनुमान मिलेगा, जिसकी व्याख्या करना कठिन है।


धन्यवाद। मैं 'प्रकाश की गति' के आँकड़े सीख रहा हूँ क्योंकि यह मेरी नई नौकरी की आवश्यकता है। क्या यह कोडिंग अभी भी सहसंबंध विश्लेषण पर लागू होगी।
अधिशेष जोश

1
@ Adhesh यदि आप दो मात्रात्मक चर के बीच संबंध का मतलब है, तो कोई कोडिंग मुद्दा नहीं है: बस कच्चे उपायों का उपयोग करें। यदि आपका प्रश्न दो गुणात्मक चर के बीच संबंध के बारे में है, तो आप एक नया सवाल पूछने पर विचार कर सकते हैं, लेकिन स्पष्ट रूप से इस मामले में बहुत कठिनाई नहीं है (जब तक कि आप चर श्रेणियों के लिए असमान स्थानिक स्कोर का उपयोग नहीं करना चाहते हैं, लेकिन इसका जवाब इस पर कहीं और दिया गया है। साइट)।
chl

4
@ Adesh एक बाइनरी 1/2 या 0/1 कोडिंग आपको अपने सहसंबंध गुणांक को प्रभावित नहीं करेगा। 0/1 का यह भी लाभ है कि चर का अर्थ प्रतिशत पुरुष या महिला होगा, जो कि इस पर निर्भर करता है। अन्य कोडिंग योजनाएं विभिन्न प्रकार के विश्लेषण की व्याख्या करने के लिए उपयोगी हो सकती हैं।
माइकल बिशप

2

मैंने यह मान लिया था कि ऐसा इसलिए था क्योंकि लिंग को स्टोर करने के लिए अक्सर उपयोग किया जाने वाला फ़ील्ड प्रकार एक बिट फ़ील्ड है, और SQL में बिट फ़ील्ड केवल 0 या 1 मान हो सकते हैं। जब आप डेटा को डंप करते हैं, तो यह 0 या 1 के रूप में बाहर आता है, और तो इसीलिए आपको वे विशेष मूल्य मिलते हैं।

यदि आप 1 और 2 का उपयोग करना चाहते हैं, तो आपको एक बड़े फ़ील्ड प्रकार का उपयोग करना होगा, जो अधिक स्थान लेगा, और इस तरह पूरे क्षेत्र को थोड़ा बड़ा बना देगा।


SQL प्रोग्रामर के रूप में यह मेरी पहली प्रतिक्रिया थी। मैं लिंग के लिए 0 और 1 का उपयोग करने के लिए किसी भी शुद्ध गणितीय कारणों के बारे में निश्चित नहीं हूं, लेकिन मैं इस तथ्य के लिए जानता हूं कि कुछ आवेग सबसे छोटे डेटा प्रकारों का उपयोग करने की आवश्यकता से आए थे। उद्योग-व्यापी मानक कस्टम से विकसित किए गए और हर कोई लाइन में गिर गया। इसके लिए ANSI मानकों के इतिहास की जाँच करना सार्थक हो सकता है। इन दिनों लिंग के लिए बाइट या छोटे पूर्णांक कॉलम का उपयोग करने के लिए डीबीए प्राप्त करने के लिए एक धक्का है, "कॉर्पोरेट इकाई" या "अनिश्चित" जैसे असामान्य अपवादों को इंगित करने के लिए लेकिन कई पुराने डेटाबेस अभी भी पुराने मानक को दर्शाते हैं।
SQLServerSteve

2

मेरे पास एक प्रोफेसर का सुझाव था कि हम "जैविक रूप से" कोड महिलाओं के साथ 0 और पुरुषों के 1 - शारीरिक रचना को प्रतिबिंबित करने के लिए। मुझे नहीं लगता कि यह एक कक्षा में कहने के लिए सबसे संवेदनशील या पीसी बात थी, लेकिन 5 साल बाद एक डेटासेट को देखते समय याद रखना आसान है।


यह स्पष्ट रूप से प्रश्न का "वास्तविक" उत्तर नहीं है (शायद यह एक उत्तर की तुलना में अधिक टिप्पणी है), लेकिन महामारी स्पष्ट रूप से एक है जो बहुत सारे लोग उपयोगी पाते हैं।
सिल्वरफ़िश

"शारीरिक" की तुलना में अधिक "जैविक", मुझे सिखाया गया था (हालांकि मुझे संदेह है कि "कारण" का रेट्रोस्पेक्ट में आविष्कार किया गया था, बल्कि मूल होने के बजाय) कि 0 का उपयोग महिला के लिए किया जाता है क्योंकि यह "डिफ़ॉल्ट" सेक्स है - विश्वास यह है कि भ्रूण का विकास, महिला मार्ग तब तक लिया जाता है जब तक कि हस्तक्षेप करने वाली प्रक्रियाएं पुरुष मार्ग को अलग करने के लिए भ्रूण को धक्का नहीं देती हैं। यह एक बार व्यापक विश्वास था, लेकिन अब इसे पुराना माना जाता है : महिला मार्ग को भी सक्रिय रूप से चालू करने की आवश्यकता है।
सिल्वरफिश

1
इस मामले में, पुरुषों को "00" के रूप में कोडित नहीं किया जाना चाहिए।
हार्वे मोटुलस्की

1

कई अच्छे कारणों को अब तक पोस्ट किया गया है, लेकिन यह भी प्रतिवर्त होना चाहिए। आप 1 पर क्यों गिनना शुरू करेंगे? यह बहुत सारे संख्यात्मक एल्गोरिदम को अधिक जटिल बनाता है। लेबलिंग 0 से शुरू होती है, 1. नहीं। यदि आप अभी तक इसके बारे में आश्वस्त नहीं हैं, तो मेरे पास इसका एक अच्छा उदाहरण है कि यह http://madhadron.com/?p=69 पर क्यों महत्वपूर्ण है

जैसे कि महिलाएं 0 क्यों हैं और पुरुष 1 हैं, आइए याद रखें कि इसके इतिहास के लिए, एक सांख्यिकीविद के सीधे पुरुष होने की संभावना थी। जब एक सेक्स का नाम पूछा गया, तो दिमाग में आने वाली पहली महिला 'महिला' थी। उसके बाद सब कुछ शायद ऐतिहासिक दुर्घटना और युक्तिकरण था।


-1

आईएसओ / आईईसी 5218 मानक अपडेट निम्नलिखित नक्शे के साथ इस धारणा:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

यह उन भाषाओं में विशेष रूप से उपयोगी है, जहां 0 झूठे मूल्य के साथ मेल खाता है, जैसे कि जावास्क्रिप्ट में:

if ( !user.gender ) {
    promptForGender();
}

10
यह ध्यान रखना महत्वपूर्ण है कि इस तरह का मानक वास्तव में डेटा ट्रांसमिशन और / या भंडारण के लिए है। यह डेटा विश्लेषण के लिए एक मानक के रूप में पर्याप्त नहीं है , जो कि विशेष रूप से सवाल है।
whuber

-2

जिस तरह से मैं इसे व्यक्तिगत रूप से देखता हूं वह आमतौर पर स्त्री का प्रतिनिधित्व करता है, क्योंकि यह गर्भ का आकार है, और इसे स्त्री माना जाता है ... लगभग सभी विज्ञानों में (यानी जीव विज्ञान / आनुवांशिकी वंशावली चार्ट में) मंडलियां, या शून्य महिलाओं का प्रतिनिधित्व करती हैं। जहां अधिक सीधी धार वाली आकृतियाँ (त्रिकोण, वर्ग या 1s) पुरुष लिंग का प्रतिनिधित्व करती हैं। इस सरल समझ ने हमेशा याद रखना आसान बना दिया है जो मेरे लिए है।

यद्यपि दिन के अंत में यदि आप एक कोडिंग कर रहे हैं और डेटा का विश्लेषण स्वयं कर रहे हैं तो आप जो भी संख्याएँ चाहें डाल सकते हैं, आम तौर पर जब तक कोई कुंजी होती है कि आपने किस डमी चर का उपयोग किया है, तो यह अप्रासंगिक हो जाता है।


2
एक मूर्खतापूर्ण सवाल का अजीब जवाब।
माइकल आर। चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.