क्या आपको कभी भी बाइनरी वैरिएबल को मानकीकृत करना चाहिए?


25

मेरे पास सुविधाओं के एक सेट के साथ एक डेटा सेट है। उनमें से कुछ द्विआधारी (1= सक्रिय या निकाल दिए गए, 0= निष्क्रिय या निष्क्रिय) हैं, और बाकी वास्तविक मूल्यवान हैं, जैसे 4564.342

मैं इस डेटा को एक मशीन लर्निंग एल्गोरिदम को खिलाना चाहता हूं, इसलिए मैं सभी वास्तविक-मूल्यवान विशेषताओं को z -core करता हूं । मैं उन्हें लगभग 3 और बीच मिलता है 2। अब द्विआधारी मूल्य भी z -scored हैं, इसलिए शून्य हो जाते हैं 0.222 और वे बन जाते हैं 0.5555

क्या बाइनरी वैरिएबल को इस तरह से मानकीकृत करना समझ में आता है?

जवाबों:


14

बाइनरी चर का मानकीकरण करने का कोई मतलब नहीं है। मान मनमानी हैं; वे अपने आप में कुछ भी मतलब नहीं है। संख्यात्मक स्थिरता के मुद्दों के संबंध में 0 और 1 जैसे कुछ मूल्यों को चुनने के लिए एक तर्क हो सकता है, लेकिन यह है।


क्या होगा अगर वे 0-100 के बीच थे। जैसा कि मैंने कहा, उनका मतलब है "पहचाना चेहरा" और "नहीं पहचाना गया चेहरा" जैसे सामान, और 0-100 का मतलब आत्मविश्वास स्तर है। क्या यह z- स्कोर करने के लिए समझ में आता है?
सियामई

आपका 0-100 उदाहरण एक क्रमिक रेटिंग की तरह लगता है। वहाँ सबसे अच्छा सौदा w / उस स्थिति के बारे में विस्तार से थोड़ा सा है और यह सीवी पर काफी चर्चा की गई है। अधिक जानने के लिए क्रमिक टैग पर खोजें ।
गूँग - मोनिका

ठीक है, समस्या यह है कि केवल कुछ चर 0-100 हैं। अन्य उदाहरण के लिए हैं -400
+400

क्या समस्या w / है? क्या यह एक संख्यात्मक स्थिरता मुद्दा है?
गुंग - को पुनः स्थापित मोनिका

शायद, क्या आप सुझाव देते हैं कि मैं z- स्कोर नहीं करता?
स्यामई

14

0, 1 (आमतौर पर) मानों के साथ एक बाइनरी वैरिएबल (मान - माध्य) / एसडी को बढ़ाया जा सकता है, जो संभवतः आपका जेड-स्कोर है।

उस पर सबसे स्पष्ट बाधा यह है कि यदि आप सभी शून्य या सभी को प्राप्त करने के लिए होते हैं, तो एसडी में प्लगिंग का मतलब यह होगा कि जेड-स्कोर अनिश्चित है। मूल्य के रूप में अब तक शून्य असाइन करने के लिए एक मामला है - मतलब पहचान शून्य है। अगर एक चर वास्तव में एक स्थिर है लेकिन कई सांख्यिकीय चीजें बहुत मायने नहीं रखेंगी। आमतौर पर, हालांकि, यदि एसडी छोटा है, तो अधिक जोखिम है कि स्कोर अस्थिर हैं और / या अच्छी तरह से निर्धारित नहीं हैं।

आपके प्रश्न का बेहतर उत्तर देने में एक समस्या ठीक है कि आप "मशीन लर्निंग अल्गोरिथम" पर विचार कर रहे हैं। ऐसा लगता है जैसे यह एक एल्गोरिथ्म है जो कई चर के लिए डेटा को जोड़ता है, और इसलिए यह आमतौर पर समान तराजू पर उन्हें आपूर्ति करने के लिए समझ में आएगा।

(LATER) जैसा कि मूल पोस्टर में एक के बाद एक टिप्पणियां मिलती हैं, उनका सवाल मॉर्फ कर रहा है। मैं अभी भी विचार करता हूं कि (मान - माध्य) / SD द्विआधारी चर के लिए समझ में आता है (यानी निरर्थक नहीं है) जब तक कि एसडी सकारात्मक है। हालांकि, लॉजिस्टिक रिग्रेशन को बाद में एप्लिकेशन के रूप में नामित किया गया था और इसके लिए बाइनरी वैरिएबल में खिलाने के अलावा कुछ भी करने के लिए कोई सैद्धांतिक या व्यावहारिक लाभ नहीं है (और वास्तव में सरलता का कुछ नुकसान), 1. आपका सॉफ्टवेयर अच्छी तरह से सामना करने में सक्षम होना चाहिए उस; यदि नहीं, तो उस प्रोग्राम के पक्ष में उस सॉफ़्टवेयर को छोड़ दें। शीर्षक प्रश्न के संदर्भ में: हां, हां; चाहिए, नहीं।


3
संक्षिप्त उत्तर यह है कि इसका मतलब कुछ भी अलग नहीं है और मुझे कोई कारण नहीं दिखता कि 0, 1 से जेड-स्कोर को बदलने से इस स्थिति में कुछ भी मदद मिलेगी। अपने आप को समझाने के लिए, इसे दोनों तरीकों से आज़माएँ और देखें कि कुछ भी महत्वपूर्ण परिवर्तन नहीं है।
निक कॉक्स

3
इसके विपरीत, मुझे लगता है कि अधिकांश लोग यहां 0, 1 का उपयोग करेंगे।
निक कॉक्स

1
जब आप लॉजिस्टिक रिग्रेशन कर रहे होते हैं, तो सॉफ़्टवेयर लगभग निश्चित रूप से हूड के तहत मानकीकरण का प्रदर्शन करेगा (बेहतर संख्यात्मक गुणों को प्राप्त करने के लिए)। इस प्रकार बाइनरी इंडिकेटर को सार्थक तरीके से व्यक्त करना एक अच्छा विचार है। इसे मानकीकृत करना अच्छा या उपयोगी नहीं लगता।
whuber

1
बाइनरी भविष्यवाणियों को "मानकीकृत" करने की आवश्यकता वाली कोई भी मशीन सीखने की विधि संदिग्ध है।
फ्रैंक हरेल

2
चूँकि यह आपका अपना कार्यान्वयन है, तो किसी और के पास आपको कोई वस्तुनिष्ठ उत्तर देने का कोई आधार नहीं है! आपको यह जांचने की आवश्यकता है कि आपका सॉफ़्टवेयर डेटा का इलाज कैसे करता है यह तय करने के लिए कि क्या पहले मानकीकरण की समझ है।
whuber

3

एक अच्छा उदाहरण जहां यह थोड़ा अलग तरीके से मानकीकरण करने के लिए उपयोगी हो सकता है, गेलमैन और हिल की धारा 4.2 ( http://www.stat.columbia.edu/~gelman/arm/ ) में दिया गया है। यह ज्यादातर तब होता है जब गुणांक की व्याख्या रुचि की होती है, और शायद तब जब कई भविष्यवक्ता नहीं होते हैं।

वहां, वे x - μ x द्वारा एक बाइनरी वेरिएबल (0 और 1 के बराबर अनुपात के साथ) को मानकीकृत करते हैं

xμx2σx,
σ±0.5x=0x=1σx

कृपया "मुझे 0 और 1 के समान अनुपात के साथ" समझाएं क्योंकि मेरे द्वारा देखे जाने वाले द्विआधारी चर शायद ही कभी ऐसे होते हैं।
निक कॉक्स

मुझे नहीं लगता कि अनुपात में वास्तव में अंतर होगा, वे इसका उपयोग केवल उदाहरण क्लीनर बनाने के लिए करते हैं।
गॉसेट्स स्टूडेंट

1

आप क्या मानक बनाना चाहते हैं, एक द्विआधारी यादृच्छिक चर, या एक अनुपात?

Y:SRY{0,1}

X[0,1]xR+


0

लॉजिस्टिक रिग्रेशन में बाइनरी वैरिएबल्स को कंटीन्यू वर्जन के साथ संयोजित करने के लिए मानकीकृत किया जा सकता है, जब आप उन सभी को गैर सूचनात्मक जैसे कि एन ~ (0,5) या कॉची ~ (0,5) से पहले देना चाहते हैं। मानकीकरण को निम्नानुसार होने की सलाह दी जाती है: कुल गणना करें और दें

1 = 1 का अनुपात

0 = 1 - 1 के अनुपात।

-----

संपादित करें: वास्तव में मैं बिल्कुल भी सही नहीं था, यह एक मानकीकरण नहीं है, लेकिन 0 पर केंद्रित होने के लिए एक स्थानांतरण है और निम्न और ऊपरी स्थिति में 1 से भिन्न होता है, जो कहता है कि जनसंख्या कंपनी ए और 70% अन्य के साथ 30% है, हम -0.3 और 0.7 के मानों को लेने के लिए केंद्रित "कंपनी ए" चर को परिभाषित कर सकते हैं।


यह एक मानकीकरण के रूप में समझ नहीं सकता है।
माइकल आर। चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.