प्रतिशत पर ANOVA का उपयोग?


13

मेरे पास स्वतंत्र चर (कारक) के रूप में चार समूहों (4 बीएमआई समूहों) के साथ एक तालिका है। मेरे पास एक आश्रित चर है जो "गर्भावस्था में प्रतिशत माँ धूम्रपान" है।

क्या इसके लिए एनोवा का उपयोग करने की अनुमति है या क्या मुझे ची-स्क्वायर या किसी अन्य परीक्षण का उपयोग करना है?

जवाबों:


21

एक द्विआधारी चर आपके आश्रित चर के रूप में और आपके आश्रित चर के रूप में अनुपात होने के बीच एक अंतर है।

  • बाइनरी निर्भर चर :

    • यह आपको लगता है कि आपके पास क्या है। (यानी, प्रत्येक माँ या तो धूम्रपान करती थी या उसने धूम्रपान नहीं किया था)
    • इस मामले में मैं एनोवा का उपयोग नहीं करूंगा। श्रेणीबद्ध भविष्यवक्ता चर के लिए कोडिंग (शायद डमी कोडिंग) के कुछ प्रकार के साथ लॉजिस्टिक प्रतिगमन स्पष्ट विकल्प है यदि आप बाइनरी चर को आश्रित चर के रूप में अवधारणा कर रहे हैं (अन्यथा आप ची-स्क्वायर कर सकते थे)।
  • आश्रित चर के रूप में अनुपात :

    • आपके पास जो है, उसकी तरह यह आवाज नहीं करता है। (यानी, आपके पास कुल जागने के समय के अनुपात में डेटा नहीं है जो एक गर्भवती महिला के धूम्रपान के नमूने में गर्भावस्था के दौरान धूम्रपान कर रही थी)।
    • इस मामले में, सामान्य रूप से एनोवा और मानक रैखिक मॉडल दृष्टिकोण आपके उद्देश्यों के लिए उचित हो सकता है या नहीं भी हो सकता है। मुद्दों की चर्चा के लिए @Ben Bolker का उत्तर देखें।

एक द्विआधारी निर्भर चर के लिए, इस मामले में कि मेरे पास केवल बाइनरी अनुपात (यानी ए, बी और सी समूह में # और सारांश ए, बी और सी समूह में सफलताओं के लिए सारांश डेटा है), और नहीं वास्तविक कच्चे डेटा, हम लॉजिस्टिक रिग्रेशन का उपयोग कैसे कर सकते हैं? मैं केवल कच्चे डेटा के साथ इसका उपयोग करने से परिचित हूं।
ब्रायन

15

यह इस बात पर निर्भर करता है कि विभिन्न समूहों के भीतर प्रतिक्रियाएं 0 या 100% के कितने करीब हैं। यदि बहुत अधिक मूल्य हैं (यानी कई मान 0 या 100% पर ढेर हो जाते हैं) तो यह मुश्किल होगा। (यदि आप "भाजक" नहीं जानते हैं, अर्थात उन विषयों की संख्या जिनसे प्रतिशत की गणना की जाती है, तो आप आकस्मिक तालिका दृष्टिकोण का उपयोग नहीं कर सकते हैं।) यदि समूहों के भीतर के मूल्य अधिक उचित हैं, तो आप रूपांतरण कर सकते हैं। प्रतिक्रिया चर (जैसे शास्त्रीय आर्सेन-स्क्वायर-रूट या शायद लॉगिट ट्रांसफ़ॉर्म)। यह निर्धारित करने के लिए कि आपके परिवर्तित डेटा ANOVA की मान्यताओं को पर्याप्त रूप से मिलते हैं (विचरण और सामान्यता की समरूपता, पूर्ववर्ती की तुलना में पहले की तुलना में) अधिक ग्राफिकल (पसंदीदा) और शून्य-परिकल्पना परीक्षण (कम पसंदीदा) दृष्टिकोण हैं। आलेखीय परीक्षण: boxplots (प्रसरण की समरूपता) और QQ प्लॉट (सामान्यता) [बाद वाले को समूहों के भीतर, या अवशिष्ट पर किया जाना चाहिए]। नल-परिकल्पना परीक्षण: जैसे बारलेट या फ्लिग्नेर परीक्षण (विचरण की समरूपता), शापिरो-विल्क, जर्क-बेरा, आदि।


11

आपके पास कच्चा डेटा होना चाहिए, ताकि प्रतिक्रिया चर 0/1 (धुआं, धुआं नहीं) हो। तब आप बाइनरी लॉजिस्टिक रिग्रेशन का उपयोग कर सकते हैं। बीएमआई को अंतराल में समूह में रखना सही नहीं है। कटपॉइंट सही नहीं हैं, शायद मौजूद नहीं हैं, और आप आधिकारिक तौर पर परीक्षण नहीं कर रहे हैं कि बीएमआई धूम्रपान से जुड़ा है या नहीं। आप वर्तमान में परीक्षण कर रहे हैं कि बीएमआई अपनी अधिकांश जानकारी के साथ धूम्रपान से जुड़ी है या नहीं। आप पाएंगे कि विशेष रूप से बाहरी बीएमआई अंतराल काफी विषम हैं।


2
@ फ्रेंक - बीएमआई समूह के लिए "सही नहीं" क्यों है? यह पूरी तरह से उचित लगता है, इसलिए जब तक परिणामों की उचित व्याख्या की जाती है। आप अच्छी तरह से परीक्षण कर सकते हैं, उदाहरण के लिए, "अंडरवेट" "स्वस्थ वजन" "अधिक वजन" और "मोटे" होने के कारण धूम्रपान से जुड़ा हुआ है, जहां इन शर्तों को बीएमआई की सीमाओं द्वारा परिभाषित किया गया है। मैं यहाँ कोई "गलत" नहीं देखता।
probabilityislogic

मेरा मानना ​​है कि ओपी एक सामान्य निर्देशात्मक डेटा सेट के साथ काम कर रहा है और इसमें कच्चा बीएमआई नहीं हो सकता है। हालांकि यह आम तौर पर निरंतर रजिस्टरों को विवेकहीन करने के लिए आदर्श नहीं है, यह "गलत" नहीं है। यहां तक ​​कि इसका सहारा लेना तब भी मददगार हो सकता है जब हमें संदेह हो कि माप शोर कर रहे हैं और कोई अन्य सहारा नहीं है। दरअसल, हम जिस असली परिकल्पना को परखना चाहते हैं कि क्या मोटापा धूम्रपान से संबंधित है; बीएमआई मोटापा मापने का सिर्फ एक तरीका है (और जो मुझे समझ में आता है उससे इसकी समस्याएं हैं)।
जेएमएस

4
जब माप शोर होते हैं, तब भी चर का विश्लेषण करना बेहतर होता है। बीएमआई को वर्गीकृत करने से विश्लेषण के विभिन्न विकल्पों की तुलना में अधिक समस्याएं पैदा हो सकती हैं। वास्तव में वर्गीकरण पर अनुमानों की अब वैज्ञानिक व्याख्या नहीं है। एक वैज्ञानिक मात्रा वर्तमान प्रयोग के बाहर अर्थ है। आपको लगता है कि समूह का अनुमान है (उदाहरण के लिए, लॉग ऑड्स कि Y = 1 उच्च बनाम एक्स के कम अंतराल के लिए) मनाया बीएमआई के पूरे सेट के कार्य हैं। उदाहरण के लिए, यदि आप नमूने में अधिक उच्च या बेहद कम बीएमआई जोड़ते हैं, तो "प्रभाव" मजबूत होगा।
फ्रैंक हरेल

जो लोग आर और RStudio स्थापित किया है के लिए, एक इंटरैक्टिव प्रदर्शन में पाया जा सकता biostat.mc.vanderbilt.edu/BioMod - देखना हरी नई अंकन। आपको स्क्रिप्ट को RStudio में लोड करना होगा और Hmisc पैकेज को भी इंस्टॉल करना होगा।
फ्रैंक हरेल

"यहां तक ​​कि जब माप शोर होते हैं, तो चर का निरंतर रूप से विश्लेषण करना बेहतर होता है" यह सिर्फ गलत है (इसकी व्यापकता, अर्थात - आमतौर पर यह सच है)। कल्पना कीजिए कि आपके पास एक निरंतर सहसंयोजक है जहां इसकी माप में त्रुटि इसकी परिमाण के साथ बढ़ जाती है, उदाहरण के लिए। बेशक सबसे अच्छी बात यह है कि त्रुटि का मॉडल है, या बेहतर माप प्राप्त करें, आदि लेकिन यह कहना कि यह गलत है बस बनाने के लिए एक बयान बहुत मजबूत है।
JMS

3

यदि आप आनुपातिक डेटा पर एक सामान्य एनोवा का चयन करना चाहते हैं, तो सजातीय त्रुटि भिन्नताओं की धारणा को सत्यापित करना महत्वपूर्ण है। यदि (जैसा कि प्रतिशत डेटा के साथ आम है), त्रुटि संस्करण स्थिर नहीं हैं, तो एक अधिक यथार्थवादी विकल्प बीटा प्रतिगमन की कोशिश करना है, जो मॉडल में इस विषमता के लिए जिम्मेदार हो सकता है। यहां एक प्रतिक्रिया चर से निपटने के विभिन्न वैकल्पिक तरीकों पर चर्चा करने वाला एक पेपर है जो प्रतिशत या अनुपात है: http://www.ime.usp.br/~sferrari/beta.pdf

यदि आप R का उपयोग करते हैं, तो पैकेज betareg उपयोगी हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.