न तो सामान्यता और न ही R में विचरण की समानता वाले डेटा पर टू-वे एनोवा को कैसे चलाया जाए?


16

मैं इस समय अपने मास्टर थीसिस पर काम कर रहा हूं और सिग्माप्लॉट के साथ आंकड़े चलाने की योजना बना रहा हूं। हालांकि, अपने डेटा के साथ कुछ समय बिताने के बाद मैं इस नतीजे पर पहुंचा कि सिग्माप्लॉट मेरी समस्या के लिए फिट नहीं हो सकता है (मुझसे गलती हो सकती है) इसलिए मैंने आर में अपना पहला प्रयास शुरू किया, जो वास्तव में आसान नहीं हुआ।

योजना मेरे डेटा पर एक सरल TWO-WAY-ANOVA चलाने की थी, जिसके परिणामस्वरूप 3 अलग-अलग प्रोटीन और उन पर 8 अलग-अलग उपचार होते हैं, इसलिए मेरे दो कारक प्रोटीन और उपचार हैं। मैंने दोनों का उपयोग करके सामान्यता के लिए परीक्षण किया

> shapiro.test(time)

तथा

> ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time)))

दोनों मामलों में (शायद आश्चर्य की बात नहीं) मैं एक गैर-सामान्य वितरण के साथ समाप्त हुआ।

जिसने मुझे पहले प्रश्नों के साथ छोड़ दिया, जो कि भिन्नताओं की समानता के लिए उपयोग करने के लिए परीक्षण करते हैं। मेरे द्वारा लाया गया

> chisq.test(time)

और परिणाम यह था, कि मेरे डेटा में विचरण की समानता भी नहीं है।

मैंने विभिन्न डेटा ट्रांसफ़ॉर्मेशन (लॉग, सेंटर, मानकीकरण) की कोशिश की, जिनमें से सभी ने मेरी समस्याओं का समाधान नहीं किया।

अब मैं एक नुकसान में हूं, परीक्षण के लिए एनोवा का संचालन कैसे करें कि कौन से प्रोटीन और कौन से उपचार एक दूसरे से काफी भिन्न हैं। मुझे क्रुस्ल-वालिस-टेस्ट के बारे में कुछ मिला, लेकिन केवल एक कारक (?) के लिए। मुझे रैंकिंग या रैंडमाइजेशन के बारे में भी बातें मिलीं, लेकिन अभी तक उन तकनीकों को आर में कैसे लागू किया जाए।

क्या किसी के पास एक सुझाव है कि मुझे क्या करना चाहिए?

संपादित करें: आपके उत्तर के लिए धन्यवाद, मैं पढ़ने से थोड़ा अभिभूत हूं (यह सिर्फ कम होने के बजाय और अधिक हो रहा है), लेकिन मैं निश्चित रूप से चलता रहूंगा।

यहां मेरे डेटा का एक उदाहरण दिया गया है, जैसा कि सुझाव दिया गया है (मैं प्रारूप के लिए बहुत माफी चाहता हूं, मैं एक और समाधान या किसी फ़ाइल को डालने के लिए जगह का पता नहीं लगा सका। मैं अभी भी इस सब के लिए नया हूं।):

protein treatment   time  
A   con 2329.0  
A   HY  1072.0  
A   CL1 4435.0  
A   CL2 2971.0  
A   CL1-HY sim  823.5  
A   CL2-HY sim  491.5  
A   CL1+HY mix  2510.5  
A   CL2+HY mix  2484.5  
A   con 2454.0  
A   HY  1180.5  
A   CL1 3249.7  
A   CL2 2106.7  
A   CL1-HY sim  993.0  
A   CL2-HY sim  817.5  
A   CL1+HY mix  1981.0  
A   CL2+HY mix  2687.5  
B   con 1482.0  
B   HY  2084.7  
B   CL1 1498.0  
B   CL2 1258.5  
B   CL1-HY sim  1795.7  
B   CL2-HY sim  1804.5  
B   CL1+HY mix  1633.0  
B   CL2+HY mix  1416.3  
B   con 1339.0  
B   HY  2119.0  
B   CL1 1093.3  
B   CL2 1026.5  
B   CL1-HY sim  2315.5  
B   CL2-HY sim  2048.5  
B   CL1+HY mix  1465.0  
B   CL2+HY mix  2334.5  
C   con 1614.8  
C   HY  1525.5  
C   CL1 426.3  
C   CL2 1192.0  
C   CL1-HY sim  1546.0  
C   CL2-HY sim  874.5  
C   CL1+HY mix  1386.0  
C   CL2+HY mix  364.5  
C   con 1907.5  
C   HY  1152.5  
C   CL1 639.7  
C   CL2 1306.5  
C   CL1-HY sim  1515.0  
C   CL2-HY sim  1251.0  
C   CL1+HY mix  1350.5  
C   CL2+HY mix  1230.5

2
ऐसा लगता है कि आप आर के साथ अपने रास्ते पर अच्छी तरह से हैं, लेकिन मुझे लगता है कि आपकी कठिनाइयां आर से संबंधित नहीं हो सकती हैं। शायद आपको समस्या की चपेट में आने के लिए पहले किसी सांख्यिकीविद् से सलाह लेनी होगी, तभी आप इस व्यावहारिक रूप से निपटेंगे। आपका वर्तमान प्रश्न काफी विस्तृत है और लोगों को इस पर जोर देने से रोक सकता है। तकनीकी भाग के लिए, यहाँ कुछ साइटें हैं: ats.ucla.edu/stat/R/seminars/Repeated_Measures/… और personality-project.org/R/r.anova.html
रोमन लुसट्रेट

4
रैंक परीक्षणों का एक बहुत अच्छा विकल्प क्रमचय एनोवा ( uvm.edu/~dhowell/StatPages/More_Stuff/Permutation%20Anova/… ) का उपयोग करना है। उस दृष्टिकोण के साथ विषमलैंगिकता मायने नहीं रखती है। मुख्य कारण लोग रैंक परीक्षणों का उपयोग करते हैं, क्योंकि वे कम्प्यूटेशनल रूप से बहुत आसान हैं। इससे कोई फर्क नहीं पड़ता। हमारे पास आर और कुशल कंप्यूटर हैं ...
मिकको

1
उत्तर क्या है? ध्यान दें कि हम वास्तव में परवाह नहीं करते हैं यदि प्रतिक्रिया सामान्य रूप से वितरण है - हम यह जांचना चाहते हैं कि विश्लेषण से अवशिष्ट समान संस्करण के साथ लगभग सामान्य हैं या नहीं। लेकिन अगर वास्तव में एक उपचार प्रभाव है तो हम उम्मीद नहीं करेंगे कि प्रतिक्रिया आम तौर पर मामूली रूप से वितरित की जाएगी।
दासोन

1
मैं ध्यान देता हूं कि मैंने आपके द्वारा पोस्ट किए गए डेटा को पकड़ लिया है और दो तरह से रन बनाए हैं और अवशिष्टों पर एक शाइप्रो विल्क्स परीक्षण किया है और इससे 0.5022 का पी-मूल्य प्राप्त हुआ है जो बहुत अधिक चिंता का विषय नहीं है।
दासोन

1
@ साबिन सामान्यता अक्सर एक बड़ी चिंता का विषय नहीं है कि यह एनोवा को क्या आता है, लेकिन आपके नमूनों को एक ही आबादी से आना चाहिए जिसका अर्थ है कि विचरण की समानता सबसे महत्वपूर्ण है, यादृच्छिकरण के बाद धारणा, निश्चित रूप से। आपको कुछ करना चाहिए, यदि आपके संस्करण लगभग बराबर नहीं हैं (कोशिश करें ?bartlett.test)
मिको

जवाबों:


12

यह उत्तर की तुलना में टिप्पणी का अधिक हो सकता है, लेकिन यह टिप्पणी के रूप में फिट नहीं होगा। हम यहां आपकी मदद करने में सक्षम हो सकते हैं, लेकिन इसमें कुछ पुनरावृत्तियों हो सकते हैं; हमें और जानकारी चाहिए।

सबसे पहले, आपकी प्रतिक्रिया चर क्या है?

दूसरा, ध्यान दें कि आपकी प्रतिक्रिया का सीमांत वितरण सामान्य नहीं होना चाहिए, बल्कि मॉडल पर वितरण सशर्त (यानी, अवशिष्ट) होना चाहिए - यह स्पष्ट नहीं है कि आपने अपने अवशिष्टों की जांच की है। इसके अलावा, सामान्यता एक रैखिक मॉडल (जैसे, एक एनोवा) की सबसे कम महत्वपूर्ण धारणा है; अवशिष्टों को पूरी तरह से सामान्य होने की आवश्यकता नहीं हो सकती है। सामान्यता के परीक्षण आम तौर पर सार्थक नहीं होते हैं ( सीवी पर चर्चा के लिए यहां देखें ), भूखंड बहुत बेहतर हैं। मैं आपके अवशिष्टों के एक qq- साजिश की कोशिश करूँगा । में Rइस के साथ किया जाता है qqnorm(), या कोशिश qqPlot()मेंcarपैकेज। यह उस तरीके पर भी ध्यान देने योग्य है, जिसमें अवशिष्ट गैर-सामान्य होते हैं: तिरछापन अतिरिक्त कर्टोसिस की तुलना में अधिक हानिकारक होता है, विशेष रूप से यदि समूहों के बीच स्केज़ वैकल्पिक दिशाओं में होता है।

अगर वास्तव में चिंता करने लायक कोई समस्या है, तो एक परिवर्तन एक अच्छी रणनीति है। अपने कच्चे डेटा का लॉग लेना एक विकल्प है, लेकिन केवल एक ही नहीं है। ध्यान दें कि केंद्र और मानकीकरण वास्तव में इस अर्थ में परिवर्तन नहीं हैं। आप सत्ता परिवर्तन के बॉक्स और कॉक्स परिवार में देखना चाहते हैं । और याद रखें, परिणाम पूरी तरह से सामान्य होने की जरूरत नहीं है, बस काफी अच्छा है।

अगला, मैं विचरण की समरूपता के लिए ची-स्क्वेर्ड परीक्षण के आपके उपयोग का पालन नहीं करता, हालांकि यह पूरी तरह से ठीक हो सकता है। मेरा सुझाव है कि आप लेवेने के परीक्षण (उपयोग leveneTest()में ) का उपयोग करेंcar ) का । विषमता सामान्यता की तुलना में अधिक हानिकारक है, लेकिन यदि विषमता मामूली है तो एनोवा बहुत मजबूत है। अंगूठे का एक मानक नियम यह है कि सबसे बड़ा समूह विचरण मजबूत समस्याओं को प्रस्तुत किए बिना सबसे छोटे से चार गुना तक हो सकता है। एक अच्छा परिवर्तन भी विषमता को संबोधित करना चाहिए।

यदि ये रणनीति अपर्याप्त हैं, तो मैं गैर-पैरामीट्रिक दृष्टिकोण की कोशिश करने से पहले मजबूत प्रतिगमन का पता लगाऊंगा।

यदि आप अपने प्रश्न को संपादित कर सकते हैं और अपने डेटा के बारे में अधिक कह सकते हैं, तो मैं अधिक विशिष्ट जानकारी प्रदान करने के लिए इसे अपडेट करने में सक्षम हो सकता हूं।


मेरा दूसरा बिंदु फिर से, मैंने हाल ही में यहां एक उत्तर लिखा है जो इस मुद्दे को स्पष्ट करने में मदद कर सकता है। आप इसे पढ़ना चाह सकते हैं।
गंग -

8

( नोट: यह उत्तर एसओ से प्रश्न के माइग्रेट होने और विलय होने से पहले पोस्ट किया गया था, इसलिए विवरण को उस प्रश्न में जोड़ा गया है जिसे यहां संबोधित नहीं किया गया है। कई टिप्पणियों और @gung द्वारा उत्तर में संबोधित किया गया है)।

कई अलग-अलग दृष्टिकोण हैं, और यह प्रश्न इस साइट पर कहीं और कवर किया गया है। यहाँ कुछ दृष्टिकोणों की एक सूची है, साइट पर अन्य प्रश्नों के लिंक और कुछ संदर्भ:

  1. बॉक्स-कॉक्स बिजली परिवर्तन अवशिष्ट को सामान्य कर सकता है जो गैर-रैखिक पैमाने पर हैं
  2. ANOVA रैंक के आंकड़ों पर बहुत आसान है, लेकिन बिजली कम कर दी है और व्याख्या करना मुश्किल है। कॉनवर और ईमान देखें , (1981)
  3. आनुपातिक ऑड्स ऑर्डिनल लॉजिस्टिक मॉडल
  4. क्रमपरिवर्तन टेस्ट ( एंडरसन और टेर ब्राक 2003 ), एंडरसन द्वारा और आर वेगन पैकेजadonis में फ़ंक्शन के रूप में कार्यान्वित और वर्णित
  5. बूटस्ट्रैपिंग
  6. पदानुक्रमित बायेसियन मॉडलिंग ( जेलमैन 2005 )

+1, यह पता लगाने के लिए कुछ उपलब्ध विकल्पों की एक अच्छी सूची है।
गंग - मोनिका

नीचे कुछ टिप्पणियां हैं जो मूल रूप से स्टैक ओवरफ्लो पर एक्सचेंज की जाती हैं, किसी भी तरह माइग्रेशन के दौरान खो जाती हैं। Meta.stats.stackexchange.com/q/1157/930 देखें ।
chl

क्या आप जानते हैं कि क्या एंडरसन और ब्राक के विचारों का कार्यान्वयन है? - हेनरिक पर 15:15 मई 16
CHL

@ हेनरिक 2005 में फोरट्रान एंडरसन में एक कार्यान्वयन है जो आर पैकेज adonisमें आर फ़ंक्शन के माध्यम से उपलब्ध है Vegan/ डेविड 16 मई को 16:20 बजे
19'12

धन्यवाद। adonisUnivariate के साथ भी काम करने लगता है DVs. हालाँकि, मुझे लगता है कि यह कुछ प्रकार के 1 वर्ग का उपयोग करता है जैसा कि मुझे संदेश मिलता है Terms added sequentially (first to last)जब भी इसे चलाते हैं। क्या आपने इसका उपयोग किया है या इसके बारे में कुछ भी कह सकते हैं? - हेनरिक 16 मई को 17:03
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.