कम जन्म के वजन का अध्ययन
यह एप्लाइड लॉजिस्टिक रिग्रेशन (2000, विले, 2 डी एड।) पर होसमेर और लेमेशो की पाठ्यपुस्तक में एक डेटासेट में से एक है । इस संभावित अध्ययन का लक्ष्य कम जन्म के वजन वाले बच्चे को जन्म देने से जुड़े जोखिम कारकों की पहचान करना था (2,500 ग्राम से कम वजन)। 189 महिलाओं पर डेटा एकत्र किया गया था, जिनमें से 59 का वजन कम शिशुओं में था और जिनमें से 130 का वजन सामान्य शिशुओं में था। चार चर जो महत्व के माने जाते थे, वे थे, उसकी अंतिम माहवारी, दौड़, और गर्भावस्था की पहली तिमाही के दौरान चिकित्सकों की संख्या में विषय का वजन।
यह R के रूप में data(birthwt, package="MASS")
या Stata के साथ उपलब्ध है webuse lbw
। एक पाठ संस्करण यहां दिखाई देता है: lowbwt.dat ( विवरण )। ध्यान से, इस डेटासेट के कई संस्करण हैं क्योंकि इसे ALR अध्याय 7 में होस्मेर और लेमेशो द्वारा सचित्र केस-कंट्रोल स्टडी (1-1 या 1-3, आयु पर मिलान किया गया) तक बढ़ाया गया था।
मैं निम्नलिखित कारणों से इस डेटासेट पर आधारित परिचयात्मक पाठ्यक्रम पढ़ाता था:
- यह एक ऐतिहासिक और महामारी विज्ञान के दृष्टिकोण से दिलचस्प है (1986 में डेटा एकत्र किया गया था); मुख्य विचारों को समझने के लिए चिकित्सा या सांख्यिकी में कोई पूर्व पृष्ठभूमि की आवश्यकता नहीं है और उस अध्ययन से क्या प्रश्न पूछे जा सकते हैं।
- χ2
- यह विभिन्न मॉडलिंग दृष्टिकोण (व्याख्यात्मक या भविष्य कहनेवाला दृष्टिकोण), और विकासशील मॉडल (स्तरीकरण / मिलान मामलों) के दौरान नमूना योजना के निहितार्थ पर चर्चा करने की अनुमति देता है।
अन्य बिंदुओं पर बल दिया जा सकता है, जो सांख्यिकीय सॉफ्टवेयर या सामान्य रूप से सांख्यिकी के साथ दर्शकों और विशेषज्ञता के स्तर पर निर्भर करता है।
आर में उपलब्ध डेटासेट के लिए, श्रेणीबद्ध भविष्यवक्ताओं को पूर्णांक के रूप में स्कोर किया जाता है (उदाहरण के लिए, माँ की जातीयता के लिए हमारे पास '1' = सफेद, '2' = काला, '3' = अन्य), इस तथ्य के बावजूद कि कुछ भविष्यवक्ताओं के लिए प्राकृतिक आदेश। (जैसे, पिछले समय से पहले के मजदूरों की संख्या या चिकित्सक के दौरे की संख्या) या स्पष्ट लेबल का उपयोग (बाइनरी चर के लिए 1/0 के बजाय 'हां' / 'नहीं' का उपयोग करना हमेशा एक अच्छा विचार है, भले ही वह न हो) टी डिजाइन मैट्रिक्स में कुछ भी परिवर्तन!) बस अनुपस्थित हैं। इस प्रकार, यह चर्चा करना आसान है कि डेटा विश्लेषण में स्तरों या माप की इकाइयों की अनदेखी करके क्या मुद्दे उठाए जा सकते हैं।
मिश्रित प्रकार के चर तब दिलचस्प होते हैं जब यह कुछ खोजपूर्ण विश्लेषण करने के लिए आता है और चर्चा करता है कि अविभाजित, द्विभाजित या रिश्वत संबंधों को संक्षेप में प्रस्तुत करने के लिए किस प्रकार के चित्रमय प्रदर्शन उपयुक्त हैं। इसी तरह, अच्छा सारांश तालिकाओं का निर्माण, और अधिक सामान्यतः रिपोर्टिंग, इस डेटासेट का एक और दिलचस्प पहलू है (लेकिन Hmisc::summary.formula
कमांड आर के तहत इसे इतना आसान बनाता है)।
होसमेर और लेमेशो ने बताया कि वास्तविक डेटा को विषय गोपनीयता (पृष्ठ 25) की रक्षा के लिए संशोधित किया गया था। डेटा गोपनीयता मुद्दों पर चर्चा करना दिलचस्प हो सकता है, जैसा कि हमारे पहले के जर्नल क्लब में किया गया था , लेकिन इसकी प्रतिलेख देखें । (मुझे स्वीकार करना चाहिए कि मैं कभी भी इसके बारे में ज्यादा जानकारी नहीं ले सकता हूं।)
कुछ लापता मूल्यों या गलत मूल्यों (जो एक सांख्यिकीविद् के वास्तविक जीवन में आम मुद्दे हैं) को पेश करना आसान है, जिससे कोडबुक ( Hmisc::describe
या स्टाटा codebook
) या खोजपरक ग्राफिक्स (हमेशा अपना डेटा पहले साजिश!) के माध्यम से उनकी पहचान पर चर्चा होती है । , और (बी) संभव उपचारात्मक (डेटा प्रतिरूपण, सूचीबद्ध विलोपन या एसोसिएशन के जोड़ीदार उपाय, आदि)।