मैंने बहुत सारे आर डेटासेट, डीएएसएल में पोस्टिंग और अन्य जगहों पर देखा है, और प्रयोगात्मक डेटा के लिए सहसंयोजक के विश्लेषण के दिलचस्प डेटासेट के बहुत अच्छे उदाहरण नहीं मिल रहे हैं। स्टेटबुक पाठ्यपुस्तकों में कंट्रोल्ड डेटा के साथ कई "टॉय" डेटासेट हैं।
मैं एक उदाहरण रखना चाहता हूँ जहाँ:
- डेटा वास्तविक हैं, एक दिलचस्प कहानी के साथ
- कम से कम एक उपचार कारक और दो सहसंयोजक हैं
- कम से कम एक कोवरिएट एक या अधिक उपचार कारकों से प्रभावित होता है, और एक उपचार से प्रभावित नहीं होता है।
- अवलोकन के बजाय प्रायोगिक, अधिमानतः
पृष्ठभूमि
मेरा असली लक्ष्य मेरे आर पैकेज के लिए विगनेट में डालने के लिए एक अच्छा उदाहरण है। लेकिन एक बड़ा लक्ष्य यह है कि लोगों को सहसंयोजक विश्लेषण में कुछ महत्वपूर्ण चिंताओं को स्पष्ट करने के लिए अच्छे उदाहरण देखने की जरूरत है। निम्नलिखित निर्मित परिदृश्य पर विचार करें (और कृपया समझें कि कृषि का मेरा ज्ञान सबसे अच्छा है)।
- हम एक प्रयोग करते हैं जहां उर्वरकों को भूखंडों में यादृच्छिक रूप से तैयार किया जाता है, और एक फसल लगाई जाती है। एक उपयुक्त बढ़ती अवधि के बाद, हम फसल काटते हैं और कुछ गुणवत्ता विशेषता को मापते हैं - यह प्रतिक्रिया चर है। लेकिन हम फसल की बढ़ती अवधि के दौरान और मिट्टी की अम्लता के दौरान कुल वर्षा रिकॉर्ड करते हैं - और निश्चित रूप से, किस उर्वरक का उपयोग किया गया था। इस प्रकार हमारे पास दो कोवरिएट्स और एक उपचार है।
परिणामी डेटा का विश्लेषण करने का सामान्य तरीका यह होगा कि एक कारक के रूप में उपचार के साथ एक रैखिक मॉडल फिट किया जाए, और कोवरिएट्स के लिए योज्य प्रभाव। फिर परिणामों को संक्षेप में बताने के लिए, एक गणना "समायोजित साधनों" (AKA कम से कम वर्गों का मतलब है), जो औसत वर्षा और -3 औसत मिट्टी की अम्लता पर प्रत्येक उर्वरक के लिए मॉडल से पूर्वानुमान हैं। यह सब कुछ एक समान पायदान पर रखता है, क्योंकि तब जब हम इन परिणामों की तुलना करते हैं, हम वर्षा और अम्लता को स्थिर रखते हैं।
लेकिन यह शायद गलत काम है - क्योंकि उर्वरक संभवतः मिट्टी की अम्लता को प्रभावित करता है और साथ ही प्रतिक्रिया भी करता है। यह समायोजित साधन को भ्रामक बनाता है, क्योंकि उपचार प्रभाव में अम्लता पर इसका प्रभाव शामिल है। इसे संभालने का एक तरीका यह होगा कि मॉडल से अम्लता को बाहर निकाल दिया जाए, फिर वर्षा-समायोजित साधन उचित तुलना प्रदान करेंगे। लेकिन अगर अम्लता महत्वपूर्ण है, तो यह निष्पक्षता बहुत अधिक लागत पर आती है, अवशिष्ट भिन्नता में वृद्धि में।
इसके मूल मूल्यों के बजाय मॉडल में अम्लता के एक समायोजित संस्करण का उपयोग करके इसके चारों ओर काम करने के तरीके हैं। मेरे आर पैकेज के लिए अद्यतन आगामी lsmeans इस सरल आसान कर देगा। लेकिन मैं इसका उदाहरण प्रस्तुत करना चाहता हूं। मैं इसके लिए बहुत आभारी रहूंगा, और किसी को भी, जो किसी अच्छे चित्रकार डेटासेट के लिए मुझे इंगित कर सकता है, को स्वीकार करना होगा।