द्विआधारी डेटा के लिए संकेतक चर: {-1,1} बनाम {0,1}


10

मैं एक द्विआधारी उपचार असाइनमेंट संकेतक साथ प्रयोगों / यादृच्छिक नियंत्रित परीक्षणों के संदर्भ में उपचार-सहसंयोजक बातचीत में रुचि रखता हूं ।T

विशिष्ट विधि / स्रोत के आधार पर, मैंने उपचारित और अनुपचारित विषयों के लिए क्रमशः और दोनों को देखा है।T = { 1 , - 1 }T={1,0}T={1,1}

क्या या का उपयोग करने के लिए अंगूठे का कोई नियम है ?{ , - }{1,0}{1,1}

किस तरह से व्याख्या अलग है?


एफडब्ल्यूआईडब्ल्यू ... यह पहली कड़ी विभिन्न कोडिंग योजनाओं का काफी व्यापक अवलोकन प्रदान करती है ... ats.ucla.edu/stat/r/library/contrast_coding.htm यह दूसरा लिंक संकेतक (डमी), प्रभाव और ऑर्गोगोनल (विपरीत) कोडिंग पर चर्चा करता है ... संकाय.का.स.फ़.फ़ेडु
माइक हंटर

जवाबों:


10

सूचक चर और अवरोधक के अनुमानक दोनों की व्याख्या अलग-अलग है। चलो शुरू करते हैं :{1,0}

कहें कि आपके पास निम्न मॉडल है

yi=β0+treatmentβ1

कहाँ पे

treatment={0if placebo1if drug

उस स्थिति में आप लिए निम्न सूत्रों के साथ समाप्त :yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

तो की व्याख्या का प्रभाव है और की व्याख्या प्लेसबो के प्रभाव और दवा के प्रभाव के बीच अंतर है। वास्तव में, आप व्याख्या कर सकते हैं कि दवा प्रदान करता है सुधार के रूप में।β 1 β 1β0β1β1


अब हम :{1,1}

फिर आपके पास निम्न मॉडल (फिर से) है:

yi=β0+treatmentβ1

पर कहा

treatment={1if placebo1if drug

उस स्थिति में आप लिए निम्न सूत्रों के साथ समाप्त :yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

व्याख्या है कि यहाँ है प्लेसबो के प्रभाव और नशीली दवाओं के प्रभाव का मतलब है, और कि मतलब करने के लिए दो उपचार का अंतर है।β 1β0β1


तो आप किसका उपयोग करते हैं?

की की व्याख्या मूल रूप से एक आधार रेखा है। आप कुछ मानक उपचार निर्धारित करते हैं और अन्य सभी उपचार (वहाँ कई हो सकते हैं) की तुलना उस मानक / आधार रेखा से की जाती है। विशेष रूप से जब आप अन्य covariates में जोड़ना शुरू करते हैं तो यह मानक चिकित्सा प्रश्न के संबंध में व्याख्या करना आसान रहता है: ये दवाएं प्लेसबो या स्थापित दवा के साथ कैसे तुलना करती हैं? { 0 , 1 }β0{0,1}

लेकिन अंत में यह सब व्याख्या का विषय है, जिसे मैंने ऊपर समझाया है। इसलिए आपको अपनी परिकल्पनाओं का मूल्यांकन करना चाहिए और जांचना चाहिए कि कौन सी व्याख्या निष्कर्षों की रेखाचित्र को सबसे सरल बनाती है।


6
-1, 1 कोडिंग का उपयोग करते समय निरंतर अगर इलाज समूह में उत्तरदाताओं की संख्या समान है, तो नियंत्रण समूह में उत्तरदाताओं की संख्या समान है।
Maarten Buis

@MaartenBuis यह का मतलब है कि अगर डिजाइन संतुलित है, लेकिन अन्यथा यह अभी भी दो समूह साधनों का मतलब है, जो कि मेरा मतलब है। मैंने इसे दर्शाने के लिए शब्दों को बदल दिया। y
JAD

9
सहायक। मैं हमेशा कम से कम दो कारणों से डमी (मूल प्रश्न के रूप में) के बजाय सूचक शब्द के उपयोग को प्रोत्साहित करने का प्रयास करता हूं । सबसे पहले, मैंने बहुत सी कहानियाँ सुनी हैं जिनमें प्रस्तुतियाँ बहुत बुरी तरह से कम हो गईं क्योंकि "लिंग डमी" जैसे शब्दों को कम तकनीकी लोगों द्वारा अपमानजनक या अपमानजनक रूप से गलत तरीके से समझा गया था। दूसरा, डमी शब्द पूरे डिवाइस को एक ठगना या चकमा जैसा लगता है, जबकि यह पूरी तरह से साफ और सुरुचिपूर्ण विधि है। मेरे पास कुछ क्षेत्रों में उलझी हुई प्रथाओं को बदलने का बहुत मौका नहीं है, लेकिन यहाँ कोशिश कर रहा है।
निक कॉक्स

सहमत, यह और भी अधिक पेशेवर लगता है। साथ ही यह एक बेहतर विवरण है कि यह वास्तव में क्या कर रहा है।
JAD

2
खुशी है कि आप सहमत हैं। यहाँ समझाने का एक सरल तरीका है: इसे एक संकेतक कहा जाता है क्योंकि यह इंगित करता है!
निक कॉक्स

6

रैखिक प्रतिगमन के संदर्भ में, _ बाइनरी चर कोडिंग के लिए अधिक प्राकृतिक (और मानक) विधि है (चाहे वे प्रतिगमन के दाईं ओर बाईं ओर स्थित हों)। जैसा कि @ जारको डुबेल्डम बताते हैं, आप निश्चित रूप से अन्य व्याख्या का उपयोग कर सकते हैं और गुणांक के अर्थ अलग-अलग होंगे।xi{0,1}

एक उदाहरण दूसरे तरीके से देने के लिए, कोडिंग आउटपुट चर मानक है, जब प्रोग्रामिंग या अंतर्निहित अंतर्निहित वेक्टर मशीनों को व्युत्पन्न किया जाता है । (पुस्तकालयों को कॉल करते समय, आप उस डेटा को पास करना चाहते हैं जिस प्रारूप में पुस्तकालय की अपेक्षा है, जो संभवतः 0, 1 सूत्रीकरण है।)yi{1,1}

जो भी आप कर रहे हैं / उपयोग कर रहे हैं उसके लिए मानक है कि संकेतन का उपयोग करने का प्रयास करें।


इंटरसेप्ट टर्म के साथ किसी भी तरह के रैखिक मॉडल के लिए, दो विधियाँ इस अर्थ में समतुल्य होंगी कि वे एक साधारण रेखीय परिवर्तन से संबंधित हैं। गणितीय रूप से, इससे कोई फर्क नहीं पड़ता कि आप डेटा मैट्रिक्स या डेटा मैट्रिक्स जहां पूर्ण रैंक है। सामान्यीकृत रैखिक मॉडल में, आपके अनुमानित गुणांक या तो रैखिक परिवर्तन से संबंधित होंगे और फिट किए गए मान समान होंगे।XX~=XAAAy^


+1, मैं ऐसी सेटिंग के बारे में नहीं सोच सकता जहां का उपयोग किया गया था। {1,1}
JAD

एक और उदाहरण है जो का उपयोग करता हैyi{1,1}
Francis

5
सामान्य तौर पर, आप कह सकते हैं कि वर्गीकरण में मुख्य रूप से का उपयोग किया जाता है, क्योंकि यह साइन फ़ंक्शन को वर्गीकृत करने के लिए एक व्यवहार्य तरीका लागू करता है। {1,1}
JAD

@matthewgunn लेखक covariates से बात कर रहा है, यानी, इनपुट आउटपुट नहीं है। {-1, 1} आउटपुट के लिए समर्थन वैक्टर के लिए समझ में आता है, लेकिन यह इनपुट के लिए कोई मायने नहीं रखता है। यहां देखें: en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
फ्रांसिस्को Arceo

@FranciscoArceo प्वाइंट लिया गया; मैंने अधिक सटीक होने के लिए संपादन किया है।
मैथ्यू गन

2

यह अधिक सार है (और शायद बेकार है), लेकिन मैं ध्यान दूंगा कि ये दो प्रतिनिधित्व एक गणितीय अर्थ में, वास्तव में समूह प्रतिनिधित्व हैं, और उनके बीच एक समरूपता है।

दिल की बूलियन पर संकेतक चर का अर्थ , "कारक सत्य है" या "कारक गलत है"। दो घटनाओं और को देखते हुए , आप पूछ सकते हैं "क्या इन दोनों घटनाओं के कारक समान हैं, उदाहरण के लिए वे दोनों सच हैं या झूठ?" बूलियन तर्क में यह । यह एक समूह संरचना को परिभाषित करता है । अब, और दोनों इस समूह का प्रतिनिधित्व करते हैं, समूह संचालन के साथ और । पहले प्रतिनिधित्व से दूसरे में समरूपता is द्वारा दिया जाता हैTT1T2T1T2Z21,01,1ab=1(a+b)ab=abϕ(a)=2a1

यह प्रतिनिधित्व निरंतर सूचक चर, यानी संभावनाओं को भी बढ़ाता है। अगर संभावना के लिए है सच होना है, तो के लिए संभावना सच होना है । तहत , यह । मात्रा -1 और 1 के बीच एक हस्ताक्षरित संकेतक है। इसलिए, बूलियन संचालन की संभावनाओं के बारे में गणना अक्सर इस आधार पर बहुत सरल होती है।टी टी टी ' पी 'पी = पी पी ' + ( 1 - पी ) ( 1 - पी ' ) टी ( पी ) = 2 पी - 1 टी टी ' = टी टी ' टीpTTTpp=pp+(1p)(1p)t(p)=2p1tt=ttt


यह प्रभावशाली है, लेकिन मुझे यह टिप्पणी करना पर्याप्त लगता है कि {-1, 1} और {0, 1} के बीच कोई भी वैध पत्राचार एक से एक होना चाहिए: हाई स्कूल गणित से परे किसी भी चीज को आमंत्रित करने की कोई आवश्यकता नहीं है। हम जरूरी एक ही जानकारी के बारे में बात कर रहे हैं, बस अलग तरीके से कोडित।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.