उपचार से प्रभावित कोवरिएट के साथ अच्छे डेटा उदाहरण की आवश्यकता होती है


19

मैंने बहुत सारे आर डेटासेट, डीएएसएल में पोस्टिंग और अन्य जगहों पर देखा है, और प्रयोगात्मक डेटा के लिए सहसंयोजक के विश्लेषण के दिलचस्प डेटासेट के बहुत अच्छे उदाहरण नहीं मिल रहे हैं। स्टेटबुक पाठ्यपुस्तकों में कंट्रोल्ड डेटा के साथ कई "टॉय" डेटासेट हैं।

मैं एक उदाहरण रखना चाहता हूँ जहाँ:

  • डेटा वास्तविक हैं, एक दिलचस्प कहानी के साथ
  • कम से कम एक उपचार कारक और दो सहसंयोजक हैं
  • कम से कम एक कोवरिएट एक या अधिक उपचार कारकों से प्रभावित होता है, और एक उपचार से प्रभावित नहीं होता है।
  • अवलोकन के बजाय प्रायोगिक, अधिमानतः

पृष्ठभूमि

मेरा असली लक्ष्य मेरे आर पैकेज के लिए विगनेट में डालने के लिए एक अच्छा उदाहरण है। लेकिन एक बड़ा लक्ष्य यह है कि लोगों को सहसंयोजक विश्लेषण में कुछ महत्वपूर्ण चिंताओं को स्पष्ट करने के लिए अच्छे उदाहरण देखने की जरूरत है। निम्नलिखित निर्मित परिदृश्य पर विचार करें (और कृपया समझें कि कृषि का मेरा ज्ञान सबसे अच्छा है)।

  • हम एक प्रयोग करते हैं जहां उर्वरकों को भूखंडों में यादृच्छिक रूप से तैयार किया जाता है, और एक फसल लगाई जाती है। एक उपयुक्त बढ़ती अवधि के बाद, हम फसल काटते हैं और कुछ गुणवत्ता विशेषता को मापते हैं - यह प्रतिक्रिया चर है। लेकिन हम फसल की बढ़ती अवधि के दौरान और मिट्टी की अम्लता के दौरान कुल वर्षा रिकॉर्ड करते हैं - और निश्चित रूप से, किस उर्वरक का उपयोग किया गया था। इस प्रकार हमारे पास दो कोवरिएट्स और एक उपचार है।

परिणामी डेटा का विश्लेषण करने का सामान्य तरीका यह होगा कि एक कारक के रूप में उपचार के साथ एक रैखिक मॉडल फिट किया जाए, और कोवरिएट्स के लिए योज्य प्रभाव। फिर परिणामों को संक्षेप में बताने के लिए, एक गणना "समायोजित साधनों" (AKA कम से कम वर्गों का मतलब है), जो औसत वर्षा और -3 औसत मिट्टी की अम्लता पर प्रत्येक उर्वरक के लिए मॉडल से पूर्वानुमान हैं। यह सब कुछ एक समान पायदान पर रखता है, क्योंकि तब जब हम इन परिणामों की तुलना करते हैं, हम वर्षा और अम्लता को स्थिर रखते हैं।

लेकिन यह शायद गलत काम है - क्योंकि उर्वरक संभवतः मिट्टी की अम्लता को प्रभावित करता है और साथ ही प्रतिक्रिया भी करता है। यह समायोजित साधन को भ्रामक बनाता है, क्योंकि उपचार प्रभाव में अम्लता पर इसका प्रभाव शामिल है। इसे संभालने का एक तरीका यह होगा कि मॉडल से अम्लता को बाहर निकाल दिया जाए, फिर वर्षा-समायोजित साधन उचित तुलना प्रदान करेंगे। लेकिन अगर अम्लता महत्वपूर्ण है, तो यह निष्पक्षता बहुत अधिक लागत पर आती है, अवशिष्ट भिन्नता में वृद्धि में।

इसके मूल मूल्यों के बजाय मॉडल में अम्लता के एक समायोजित संस्करण का उपयोग करके इसके चारों ओर काम करने के तरीके हैं। मेरे आर पैकेज के लिए अद्यतन आगामी lsmeans इस सरल आसान कर देगा। लेकिन मैं इसका उदाहरण प्रस्तुत करना चाहता हूं। मैं इसके लिए बहुत आभारी रहूंगा, और किसी को भी, जो किसी अच्छे चित्रकार डेटासेट के लिए मुझे इंगित कर सकता है, को स्वीकार करना होगा।


1
हालांकि यह कोई महत्वपूर्ण और दिलचस्प सवाल नहीं है, लेकिन ऐसा लगता है जैसे यह विषय पर नियमों के बारे में गलत हो सकता है : " विशेष डेटासेट प्राप्त करने के बारे में प्रश्न ऑफ़-टॉपिक (वे बहुत विशिष्ट हैं) "
Glen_b -Rewinstate मोनिका


1
अब तक की प्रतिक्रियाओं के बारे में मेरी धारणा यह है कि हम इस तरह के अन्य प्रश्नों को देने के लिए सतर्क हैं, क्योंकि इसके पक्ष में सत्तारूढ़ होकर एक खाली जाँच की जा रही है, लेकिन हम ज्यादातर इस विशेष प्रश्न के पक्ष में हैं और यहां तक ​​कि क्या देखने के लिए थोड़ा उत्सुक हैं उत्तर के प्रकार आप प्राप्त कर सकते हैं (हो सकता है कि बिट मुझे बस है)। हम जो नहीं चाहते हैं वह इस प्रश्न के खराब लिखे गए हैं जो डेटासेट के लिए पूछते हैं जिसके साथ आंकड़ों के साथ अंक साबित करने के लिए है, लेकिन आंकड़ों के बारे में नहीं । यानी, यह एक सांख्यिकीय सिद्धांत को प्रदर्शित करने में मदद के लिए पूछने के लिए एक बात है, लेकिन यह डोमेन-विशिष्ट डेटासेट के लिए पूछने के लिए एक और होगा ...
निक स्टनर

3
ठीक है, एक अच्छा विचार लगता है। मैंने अपनी प्रतिष्ठा को कम करने के लिए अतीत में बहुत बुरे काम किए हैं ...
rvl

2
@SteveS मैं मानता हूं कि यह इनाम के लिए एक अच्छा उम्मीदवार है; वास्तव में मैं यहां केवल एक को खुद पर डालने के लिए आया था , केवल यह पता लगाने के लिए कि रस ने पहले ही ऐसा किया था। यदि एक सप्ताह में कुछ अच्छे उत्तर नहीं हैं, तो मैं इस पर एक दूसरा इनाम रखने पर विचार कर सकता हूं। रस: दिलचस्प सवालों पर इनाम पर्याप्त ध्यान आकर्षित करते हैं कि आगामी उठाव अक्सर उनके लिए वैसे भी लगभग भुगतान करते हैं, इसलिए पहली नज़र में लगता है कि प्रतिष्ठा की हानि अक्सर बहुत कम होती है।
Glen_b -Reinstate Monica

जवाबों:


6

आप mediationआर पैकेज को देखना चाहते हैं । इसमें प्रायोगिक डेटा जैसे jobsऔर framingजहाँ उपचार चर दोनों प्रतिक्रिया चर और कोवरिएट्स (अर्थात, उपचार प्रभाव के मध्यस्थ) को प्रभावित करते हैं, के साथ-साथ सहसंयोजक उपचार से प्रभावित नहीं होते हैं।

मैंने मध्यस्थता साहित्य पर ध्यान दिया क्योंकि मैंने हालांकि आपने एक मध्यस्थता अध्ययन का सटीक वर्णन किया था: मिट्टी की अम्लता पर इसके प्रभाव से फसल की गुणवत्ता पर उर्वरक की मध्यस्थता होती है। यहां तक ​​कि अगर mediationपैकेज में डेटासेट आपको संतुष्ट नहीं करते हैं, तो आप मध्यस्थता साहित्य में देख सकते हैं।


धन्यवाद। मैंने पैकेज स्थापित किया और इसे देखूंगा। और कुछ नया सीखने का अवसर।
rvl

दिलचस्प है कि जॉब्स डेटा का उल्लेख एक JSM सत्र में तीन में से दो में मैंने किया था ...
rvl

1
खैर, मेरी इच्छा है कि मैं किसी तरह इनाम को विभाजित कर सकूं। लेकिन इस पैकेज में तैयार डेटासेट हैं जो मेरे द्वारा पूछे गए बहुत उपयुक्त हैं, इसलिए @MasatoNakazawa को इनाम मिलता है। बहुत बहुत धन्यवाद। framingडेटा का उपयोग करते हुए , एलएसमाइंस (एक लॉजिस्टिक मॉडल के आधार पर) के इंटरैक्शन प्लॉट्स को जब मध्यस्थ चर को निर्धारित किया जाता है, नाटकीय रूप से उन लोगों से अलग होता है जहां यह उपचार और अन्य सहसंयोजकों द्वारा अनुमानित मूल्यों पर सेट होता है, इस प्रकार यह दिखाना कि मध्यस्थ को लेना कितना महत्वपूर्ण है। खाते में परिवर्तनशील।
rvl

1
धन्यवाद डॉ। वास्तव में मैंने आपके लेख को मेरे शोध प्रबंध में उद्धृत किया है। मैं सम्मानित हूं कि मैं किसी भी तरह से आप जैसे स्थापित सांख्यिकीविद् की मदद करने में सक्षम था।
मसाटो नकाज़ावा

4

मैंने सोचा कि मैं दिखाऊंगा कि मध्यस्थता पैकेज में एक डेटासेट के साथ एक विश्लेषण कैसे निकलता है । में framing, एक प्रयोग किया जाता है जहां विषयों को आव्रजन के बारे में कांग्रेस को संदेश भेजने का अवसर मिलता है। हालांकि, कुछ विषयों ( treat=1) में पहले एक समाचार दिखाया गया था जो लैटिनो को नकारात्मक तरीके से चित्रित करता है। बाइनरी रिस्पॉन्स (चाहे उन्होंने संदेश भेजा हो या नहीं) के अलावा, हमने empउपचार के बाद विषयों की भावनात्मक स्थिति को भी मापा । विभिन्न जनसांख्यिकीय चर भी हैं।

सबसे पहले, आर में आवश्यक पैकेज लोड करें, और educछोटे तारों के लिए लेबल बदलें ।

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

अब एक लॉजिस्टिक रिग्रेशन मॉडल फिट करें

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

यहाँ पारंपरिक समायोजित मतलब है, जहां भविष्यवाणियों covariates साथ किया जाता है की एक प्रदर्शन है age, incomeऔर emoसेट उनके माध्य मूल्यों पर:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(प्रतिक्रिया के पैमाने पर तब्दील पारंपरिक "समायोजित साधनों" की सहभागिता साजिश)

यह एक जिज्ञासु परिणाम है क्योंकि प्रदर्शित उपचार प्रभाव महिलाओं के लिए पुरुषों के विपरीत हैं, और शिक्षा का प्रभाव एकरस नहीं है क्योंकि कोई भी उम्मीद कर सकता है।

ध्यान दें, hHowever, emoउपचार के बाद का माप है। इसका मतलब है कि उपचार इसे प्रभावित कर सकता था, यानी emoएक मध्यस्थता कोवरिएट; और इसलिए यह emoस्थिर रहते हुए प्रतिक्रिया चर की भविष्यवाणियों की तुलना करने के लिए सार्थक नहीं हो सकता है। इसके बजाय, आइए उन पूर्वानुमानों को देखें, जहां emoदिए गए पूर्वानुमानित मान treatऔर जनसांख्यिकीय चर पर आधारित है।

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(खाते में मध्यस्थता प्रभाव लेने वाली भविष्यवाणियों की सहभागिता प्लॉट)

यह परिणाम काफी अलग है, यह सुझाव देता है कि emoएक मजबूत मध्यस्थ भूमिका निभाता है। ( मध्यस्थता पैकेज में इन प्रभावों की ताकत का अनुमान लगाने के लिए कार्य हैं।) उपरोक्त भविष्यवाणियों का सुझाव है कि, भावनात्मक प्रतिक्रिया को ध्यान में रखते हुए, नकारात्मक समाचारों के संपर्क में आने वाले पुरुष विषयों की तुलना में संदेश भेजने की अधिक संभावना है कि वे महिलाएं हैं या जो नहीं देख रहे हैं। नकारात्मक समाचार। इसके अलावा, प्रभाव educ(लगभग) एकरस है।

इस दिलचस्प उदाहरण की ओर इशारा करने के लिए @MasatoNakagawa के लिए फिर से धन्यवाद और कार्य-कारण पर हाल के कुछ शोधों की ओर मेरा ध्यान आकर्षित करना।


3

जीन-पर्यावरण इंटरैक्शन GWAS अध्ययन देखें। सांख्यिकीय विश्लेषण वे संक्षेप में करते हैं जो आपने वर्णित किया है। सवाल यह है कि आपका पर्यावरण एक फेनोटाइप (अवलोकनीय विशेषता) के लिए क्या मायने रखता है? विचार का एक स्कूल आम तौर पर सभी पर्यावरणीय जानकारी को अनदेखा करता है और कहता है कि आपका आनुवंशिक मेकअप आपके फेनोटाइप का वर्णन करता है। यह पूरी तरह से पारिस्थितिक अध्ययनों के विपरीत है जहां कहानी पर्यावरण है सब कुछ है और वे जीन की उपेक्षा करते हैं। चूंकि दोनों पार्टियां एक ही समस्या को समझने की कोशिश कर रही हैं, इसलिए हाल ही में दोनों को मिलाने की कोशिश की गई है।

बोले हम बीएमआई की पढ़ाई कर रहे हैं। हम जेनेटिक मैट्रिक्स के पहले कुछ प्रमुख घटकों को जीन के कारण निर्धारित प्रभावों के रूप में लेते हैं। हम अच्छी तरह से शिक्षित के लिए एक इंडेक्स 1 के साथ शिक्षा और एक निश्चित प्रभाव के रूप में खराब शिक्षित के लिए 0 फिट करते हैं। व्यक्ति जिस समुदाय से है, उसके शिक्षा सूचकांक और धन के बीच एक मजबूत संबंध है। तो एक का तर्क होगा कि कम आय वाले समुदायों में अधिक फास्ट फूड रेस्तरां होने की संभावना है। फास्ट फूड एक ओबेसोजेनिक ट्रिगर के रूप में कार्य करता है .. "आपके आनुवंशिक सेटअप में कुछ ट्रिगर करता है जो वसा संचय को प्रोत्साहित करता है" इसलिए यह किसी न किसी रूप में आनुवंशिक मेकअप में दिखाई देगा।

इस तरह के डेटा का अनुकरण करना कोई समस्या नहीं है। देखो

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

यह आपको एक लक्षण के लिए जिम्मेदार GWAS (आनुवंशिक इकाइयों के रूप में सोचें) डेटा का अनुकरण करने देता है। यदि निर्देश नहीं दिया गया है तो यह लक्षण के साथ 1000 और 1000 नियंत्रण उत्पन्न करेगा। इन सिमुलेशनों में जो मानदंड मैं उपयोग करता हूं वह 9990 एसएनपी लक्षण का कारण नहीं है और 10 एसएनपी करते हैं। ये कैसे सिम्युलेटेड हैं इस पर निर्देश पढ़ें।

यदि व्यक्ति मोटा है और यदि वह नहीं है तो आउटपुट 1 होगा। मोटापे के स्तर के साथ कुछ उचित सहसंबंध के आधार पर शिक्षा के कारकों (समाप्त कॉलेज शिक्षा / समाप्त कॉलेज शिक्षा नहीं) का अनुकरण करें।

उम्मीद है की यह मदद करेगा!!!


धन्यवाद। हालांकि कुछ वास्तविक डेटा के लिए अभी भी पकड़े हुए ... प्लस मुझे यकीन नहीं है कि एक GWAS अध्ययन क्या है। DUH, बस लिंक का पालन करके पता चला।
rvl

भले ही मैंने एक और प्रतिवादी को इनाम दिया, मैं इस सुझाव की सराहना करता हूं और इसके साथ पालन करने का इरादा रखता हूं। धन्यवाद।
rvl

1

मैं फ़्रीकोनॉमिक्स पढ़ने की सलाह दूंगा, और उनके काम पर आधारित कागजात ढूंढना और यह देखना कि क्या आप उस डेटा को हड़प सकते हैं। उनके पास वास्तव में दिलचस्प डेटासेट पर कुछ बहुत दिलचस्प काम है, और कुछ मामलों में वे डेटा में सीमाओं के बावजूद परिकल्पनाओं का परीक्षण करने के लिए बहुत ही चतुर तरीके का पता लगाते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.