एक गतिविधि में एक स्वतंत्र चर के रूप में बिताया गया समय


14

मैं एक लीनियर मॉडल में एक स्वतंत्र चर के रूप में कुछ करने में लगने वाले समय (सप्ताह में स्तनपान, उदाहरण के लिए) को शामिल करना चाहता हूं। हालाँकि, कुछ अवलोकन व्यवहार में संलग्न नहीं होते हैं। 0 के रूप में उन्हें कोडिंग करना वास्तव में सही नहीं है, क्योंकि 0 किसी भी मूल्य से गुणात्मक रूप से भिन्न होता है> 0 (यानी जो महिलाएं स्तनपान नहीं कराती हैं, वे उन महिलाओं से बहुत भिन्न हो सकती हैं जो ऐसा करती हैं, यहां तक ​​कि जो लोग इसे बहुत लंबे समय तक नहीं करते हैं)। सबसे अच्छा मैं साथ आ सकता हूं डमी का एक सेट जो खर्च किए गए समय को वर्गीकृत करता है, लेकिन यह कीमती जानकारी की बर्बादी है। शून्य-फुलाया हुआ पॉइसन जैसा कुछ भी एक संभावना की तरह लगता है, लेकिन मैं वास्तव में इस संदर्भ में ऐसा नहीं देख सकता। क्या किसी के पास कोई सुझाव है?

जवाबों:


16

@ केन-बटलर के उत्तर पर थोड़ा विस्तार करने के लिए। एक विशेष मान (घंटे = 0, या गैर-स्तनपान) के लिए निरंतर चर (घंटे) और एक संकेतक चर दोनों को जोड़कर, आपको लगता है कि "गैर-विशेष" मूल्य और असतत कूद के लिए एक रैखिक प्रभाव है। विशेष मूल्य पर अनुमानित परिणाम। यह एक ग्राफ को देखने के लिए (कम से कम मेरे लिए) मदद करता है। नीचे दिए गए उदाहरण में हम प्रति सप्ताह घंटों के कार्य के रूप में प्रति घंटा मजदूरी करते हैं कि उत्तरदाता (सभी महिलाएं) काम करते हैं, और हम सोचते हैं कि "मानक" प्रति सप्ताह 40 घंटे के बारे में कुछ विशेष है:

enter image description here

इस ग्राफ को बनाने वाला कोड (स्टाटा में) यहां पाया जा सकता है: http://www.stata.com/statalist/archive/2013-03/msg00088.html

इसलिए इस मामले में हमने निरंतर चर को 40 मान दिया है, जबकि हम चाहते थे कि इसे अन्य मूल्यों से अलग माना जाए। इसी तरह, आप अपने सप्ताहों को मान 0 का स्तनपान कराते हैं, जबकि आपको लगता है कि यह अन्य मूल्यों से गुणात्मक रूप से भिन्न है। मैं आपकी टिप्पणी नीचे व्याख्या करता हूं कि आपको लगता है कि यह एक समस्या है। यह मामला नहीं है और आपको सहभागिता शब्द जोड़ने की आवश्यकता नहीं है। वास्तव में, यदि आप कोशिश करते हैं, तो पूर्ण संपार्श्विकता के कारण बातचीत का समय समाप्त हो जाएगा। यह एक सीमा नहीं है, यह सिर्फ आपको बताता है कि बातचीत की शर्तों में कोई नई जानकारी नहीं है।

कहते हैं कि आपका प्रतिगमन समीकरण इस तरह दिखता है:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

जहाँ सप्ताह की संख्या में स्तनपान है (उन लोगों के लिए मान 0 सहित जो स्तनपान नहीं करते हैं) और n o n _ bweeks_breastfeeding एक संकेतक चर है जो 1 है जब कोई स्तनपान नहीं करता है और 0 अन्यथा।non_breastfeeding

गौर कीजिए कि जब कोई स्तनपान करता है तो क्या होता है। प्रतिगमन समीकरण सरल करता है:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

तो सिर्फ उन है कि स्तनपान करते के लिए स्तनपान सप्ताह की संख्या की एक रेखीय प्रभाव है।β1

विचार करें कि जब कोई स्तनपान नहीं कर रहा है तो क्या है:

y^=β10+β21+=β2+

तो आप स्तनपान नहीं के प्रभाव और समीकरण से बूँदें स्तनपान सप्ताह की संख्या देता है।β2

आप देख सकते हैं कि इंटरैक्शन शब्द जोड़ने का कोई फायदा नहीं है, क्योंकि इंटरेक्शन टर्म पहले से ही (निहित रूप से) है।

वहाँ हालांकि कुछ के बारे में अजीब है , हालांकि के रूप में यह जो लोग उन है कि स्तनपान के साथ स्तनपान नहीं है की उम्मीद परिणाम की तुलना द्वारा स्तनपान के प्रभाव का आकलन करता है, लेकिन अभी केवल 0 सप्ताह ... यह बनाता है की तरह कर एक में भावना "की तुलना तरह तरह के साथ ", लेकिन व्यावहारिक उपयोगिता तुरंत स्पष्ट नहीं है। यह उन महिलाओं के साथ "नॉन-ब्रेस्टफीडर्स" की तुलना करने के लिए अधिक समझदार हो सकता है जो 12 सप्ताह (लगभग 3 महीने) स्तनपान कर रहे थे। उस मामले में आप सिर्फ "गैर breastfeeders" के लिए मूल्य 12 दे डब्ल्यू कश्मीर रों _ आर एक रों टी । तो जिस मूल्य को आप निर्दिष्ट करना चाहते हैंβ2weeks_breastfeeding "गैर breastfeeders" के लिए प्रतिगमन गुणांक को प्रभावित करता है β 2weeks_breastfeedingβ2 इस अर्थ में कि यह जिसे "गैर के साथ निर्धारित करता है -breastfeeders ”की तुलना की जाती है। एक समस्या के बजाय, यह वास्तव में कुछ ऐसा है जो काफी उपयोगी हो सकता है।


1
मैं उत्तर (और अन्य) की सराहना करता हूं, लेकिन मुझे इसे स्वीकार करने में कठिन समय हो रहा है। यदि मुझे 1: 0, और निरंतर समय चर शामिल है, तो मुझे अभी भी गैर-ब्रेस्ट-फीडर को समय के लिए एक मान असाइन करना होगा (या वे एक लापता सह-चर के लिए छोड़ देते हैं)। यहां तक ​​कि 1: 0 चर पर सशर्त, मैं यह नहीं देखता कि गैर-ब्रेस्ट-फीडर को समय के साथ कैसे शामिल किया जाए = 0 प्रतिगमन गुणांक को प्रभावित नहीं करता है। शायद दोनों के बीच प्रोडक्ट इंटरेक्शन शब्द जोड़ने से भी कोई मतलब होगा?
DL Dahly

@DLDahly मैंने इन शंकाओं से निपटने के लिए अपना जवाब संपादित किया है
Maarten Buis

ठीक है, यह बहुत मददगार है। मुझे एक और त्वरित फॉलो-अप करने के लिए कहें ... अगर मैं आपको सही तरीके से समझ रहा हूं, तो बी 1 के लिए अनुमानित मूल्य समान होना चाहिए, चाहे मैं बी 2 = 1 लोगों को क्या मूल्य दूं। क्या वह सही है?
DL Dahly

1
बहुत अच्छी प्रतिक्रिया Maarten। यहां साइट पर एक समान प्रश्न / उत्तर दिया गया है जो एक समान स्थिति दिखाता है एक स्वतंत्र चर सहित जो केवल एक विशेष उपसमूह से संबंधित है
एंडी डब्ल्यू

1
@ GavinM.Jones मैंने कभी भी इसका नाम या इसका हवाला देने की आवश्यकता के बारे में नहीं सोचा था: यह निरंतर और संकेतक चर का सिर्फ एक सीधा आवेदन है। नतीजतन मेरे पास आपके लिए एक अच्छा संदर्भ नहीं है। क्लोज़िंग चीज़ जो मैं जल्दी से खोद सकता था वह है ट्रेमैन, डीजे (2009): क्वांटिटेटिव डेटा एनालिसिस। टेस्ट आइडियाज के लिए सोशल रिसर्च करना। सैन फ्रांसिस्को: जोसी-बास। , अध्याय 7 ने कुछ इसी तरह की चर्चा की। मॉडल में एक स्थिरांक होता है।
मार्टन Buis

6

कुछ सरल: अपने चर का प्रतिनिधित्व किसी भी / कोई नहीं, और वास्तविक मूल्य के लिए 1/0 सूचक द्वारा करें। दोनों को रिग्रेशन में डाल दें।


4

यदि आप किसी भी समय-बिताए (= 1) के लिए बाइनरी इंडिकेटर को बिना समय-बिताए (= 0) डालते हैं और तब निरंतर चर के रूप में बिताए समय की मात्रा होती है, तो "0" समय का अलग प्रभाव होगा " 0-1 संकेतक द्वारा उठाया गया


2

आप एक समूहन के साथ मिश्रित-प्रभाव वाले मॉडल का उपयोग कर सकते हैं जो 0 समय बनाम नॉनज़रो समय में आधारित है, और अपने स्वतंत्र चर को बनाए रखें


क्या आप इस पर थोड़ा विस्तार कर सकते हैं? बहुत धन्यवाद।
DL Dahly

एक मिश्रित प्रभाव मॉडल मानता है कि एक ऐसा कारक है जो डेटा को अलग-अलग (विषम) बाल्टियों में विभाजित करता है, जिनमें से प्रत्येक में हम व्याख्यात्मक और आश्रित चर के बीच एक अलग संबंध हो सकते हैं (या तो यदि अवरोधन या अवरोधन और ढलान या गुणांक)। en.wikipedia.org/wiki/Mixed_model
rezakhorshidi

तो व्यक्तियों का उपयोग करें, स्तनपान की स्थिति में नेस्टेड, और फिर सप्ताह-स्तनपान पर एक यादृच्छिक ढलान? मैं इसे एक एसईएम के रूप में आसानी से पर्याप्त कर सकता हूं और कुछ बाधाओं का परीक्षण कर सकता हूं। धन्यवाद +1
DL Dahly

1

यदि आप रैंडम फ़ॉरेस्ट या न्यूरल नेटवर्क का उपयोग कर रहे हैं तो इस नंबर को 0 के रूप में डालना ठीक है, क्योंकि वे यह पता लगाने में सक्षम होंगे कि 0 अन्य मूल्यों से अलग है (यदि यह वास्तव में अलग है)। अन्य तरह के आसपास समय चर के अलावा एक स्पष्ट चर हां / नहीं में जोड़ रहा है।

लेकिन सभी के सभी, इस विशेष मामले में मुझे एक वास्तविक मुद्दा दिखाई नहीं देता है - 0.1 सप्ताह का स्तनपान 0 के करीब है और प्रभाव बहुत समान होगा, इसलिए यह मेरे लिए एक बहुत निरंतर चर की तरह दिखता है 0 के साथ बाहर खड़े कुछ के रूप में नहीं अलग।


3
पहले पैराग्राफ के लिए +1 लेकिन सामाजिक विज्ञान या चिकित्सा डेटा के साथ काम करते हुए, कुछ के 0 बनाम 0.1 सप्ताह का प्रभाव मुख्य चिंता का विषय नहीं है। मुद्दा यह है कि जो महिलाएं स्तनपान कराने का प्रयास नहीं करती हैं या रिपोर्ट नहीं करती हैं, वे कई अन्य मामलों में व्यवस्थित रूप से भिन्न हो सकती हैं (स्वास्थ्य समस्याएं, आय, पारिवारिक स्थिति, काम से बाहर रहने की क्षमता, स्वास्थ्य सेवाओं तक पहुंच, जहां उन्होंने इसके बारे में जानकारी प्राप्त की है) पेरेंटिंग, आदि) वास्तव में यह मानने का कोई कारण नहीं है कि ये महिलाएं उन माताओं के समान हैं जो स्तनपान की कोशिश करते हैं और इसे जल्दी से रोकते हैं।
गाला

1
एक सांख्यिकीय दृष्टिकोण से, इन अन्य चर को अपने मॉडल में स्पष्ट रूप से रखना बेहतर होगा, लेकिन यह मानने के साथ सावधान रहना होगा कि 0 पर कुछ खास नहीं चल रहा है, मुझे लगता है।
गाला

0

टोबिट मॉडल जो आप चाहते हैं, मुझे लगता है।


5
परिणाम का उपयोग तब किया जाता है जब परिणाम कुछ सीमा के ऊपर या नीचे सेंसर किया जाता है। उदाहरण के लिए, हम न्यूनतम मजदूरी या कुछ शीर्ष कोडित मूल्य से अधिक आय से नीचे किसी भी मजदूरी का निरीक्षण नहीं करते हैं। यह एप्लिकेशन एक स्वतंत्र चर के लिए है।
दिमित्री वी। मास्टरोव
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.