विशाल नमूनों के साथ टी-टेस्ट कैसे करें?


11

मेरे पास दो आबादी है, एक एन = 38,704 (टिप्पणियों की संख्या) और अन्य एन = 1,313,662 के साथ। इन डेटा सेट में ~ 25 चर हैं, सभी निरंतर। मैंने प्रत्येक डेटा सेट में प्रत्येक का मतलब निकाला और सूत्र का उपयोग करके परीक्षण आँकड़ा की गणना की

t = माध्य अंतर / एसटीडी त्रुटि

समस्या स्वतंत्रता की डिग्री की है। Df = N1 + N2-2 के फार्मूले से हमें अधिक स्वतंत्रता होगी जिससे मेज संभाल सकती है। इस पर कोई सुझाव? यहां टी स्टेटिस्टिक की जांच कैसे करें। मुझे पता है कि नमूनों को संभालने के लिए टी-टेस्ट का उपयोग किया जाता है लेकिन अगर हम इसे बड़े नमूनों पर लागू करते हैं।

जवाबों:


21

एक ही डेटा सेट के साथ एक साथ 25 परीक्षण करते समय chl ने पहले ही कई तुलनाओं के जाल का उल्लेख किया। इसे संभालने का एक आसान तरीका है कि परीक्षणों की संख्या (इस मामले में 25) से विभाजित करके पी मूल्य सीमा को समायोजित करें। अधिक सटीक सूत्र है: समायोजित p मान = 1 - (1 - p मान) ^ (1 / n)। हालाँकि, दो अलग-अलग सूत्र लगभग एक ही समायोजित p मान प्राप्त करते हैं।

आपकी परिकल्पना परीक्षण अभ्यास के साथ एक और प्रमुख मुद्दा है। आप निश्चित रूप से टाइप I त्रुटि (गलत सकारात्मक) में भाग लेंगे, जिससे आप कुछ वास्तव में तुच्छ अंतरों को उजागर करेंगे जो 99.9999% के स्तर पर बेहद महत्वपूर्ण हैं। ऐसा इसलिए है क्योंकि जब आप इतने बड़े आकार (n = 1,313,662) के नमूने के साथ सौदा करते हैं, तो आपको एक मानक त्रुटि मिलेगी जो 0. के बहुत करीब है। ऐसा इसलिए है क्योंकि 1,313,662 = 1,146 का वर्गमूल है। तो, आप मानक विचलन को 1,146 से विभाजित करेंगे। संक्षेप में, आप मिनट के अंतर को पकड़ लेंगे जो पूरी तरह से सारहीन हो सकता है।

मेरा सुझाव है कि आप इस परिकल्पना परीक्षण ढांचे से दूर चले जाएं और इसके बजाय एक प्रभाव आकार प्रकार विश्लेषण करें। इस ढांचे के भीतर सांख्यिकीय दूरी का माप मानक विचलन है। मानक त्रुटि के विपरीत, नमूना के आकार से मानक विचलन कृत्रिम रूप से सिकुड़ नहीं रहा है। और, यह दृष्टिकोण आपको आपके डेटा सेटों के बीच सामग्री अंतर की बेहतर समझ देगा। प्रभाव आकार भी औसत औसत अंतर के आसपास विश्वास अंतराल पर अधिक केंद्रित है जो सांख्यिकीय महत्व पर परिकल्पना परीक्षण फोकस की तुलना में बहुत अधिक जानकारीपूर्ण है जो अक्सर महत्वपूर्ण नहीं होता है। उम्मीद है की वो मदद करदे।


5
प्रमुख विचारों को बाहर लाने के लिए +1: (1) हम इस बात की गारंटी दे सकते हैं कि डेटासेट बड़े होने पर साधन अलग-अलग होंगे और (2) कुछ अन्य विश्लेषण अधिक उपयुक्त और उपयोगी होने की संभावना है। लेकिन क्योंकि हम विश्लेषण के उद्देश्य के बारे में नहीं जानते हैं, इसलिए हमें विशिष्ट सिफारिशें करने से सावधान रहना चाहिए।
whuber

धन्यवाद Gaetan.. आप भूल गए..मुझे लगता है कि जो मैं इससे दूर ले जाता हूं वह यह है कि मानक विचलन एक बेहतर उपाय है जब आपके पास मेरे जैसे बड़े नमूने हैं..प्लीज मुझे बताएं कि क्या मैंने कुछ भी याद किया।
आयुष बियानी

1
आयुष ... आप सही कह रहे हैं। वह मूल रूप से यह है। और, यह इसलिए है क्योंकि आपकी मानक त्रुटि इतनी छोटी हो जाएगी (बड़े नमूना आकार के कारण)। यह बदले में आपके परीक्षण और नियंत्रण समूहों के बीच सांख्यिकीय दूरी को समाप्त कर देता है। और, आपको अंततः टाइप I एरर में चलाने का कारण बनता है। बड़े नमूनों के साथ परिकल्पना परीक्षण में यह एक आम समस्या है।
सिम्पा

14

विद्यार्थी का t- distribution मानक सामान्य वितरण के करीब और करीब हो जाता है क्योंकि स्वतंत्रता की डिग्री बड़ी हो जाती है। स्वतंत्रता के 1313662 + 38704 - 2 = 1352364 डिग्री के साथ, टी- डिस्टिबिशन मानक सामान्य वितरण से अप्रभेद्य होगा, जैसा कि नीचे दी गई तस्वीर में देखा जा सकता है (जब तक कि शायद आप बहुत चरम पूंछ में हैं और आप में रुचि रखते हैं टीनएजर्स से बिल्कुल छोटे पी- वैल्यू को अलग करना )। तो आप के लिए मेज के बजाय मानक सामान्य वितरण के लिए तालिका का उपयोग कर सकते हैं टी -distribution।

वैकल्पिक शब्द


दोस्तों, जवाब के लिए धन्यवाद। मेरे पास विश्लेषण करने के लिए एक डेटा है। मैं इससे डेटा कैसे संलग्न करूं? बहुत से लोग आपसे पूछते हैं .. प्रत्याशा में धन्यवाद। शीघ्र उत्तर की अपेक्षा करना।
आयुष बियानी

4
है ना? आपने कहा था कि आप पहले से ही टी-स्टेटिस्टिक की गणना कर चुके हैं, और chl ने नमूना R कोड प्रदान किया है। आपको और क्या चाहिए? वैसे, मुझे यकीन नहीं है कि आपको शीघ्र उत्तर की उम्मीद करने या अनुरोध करने का कोई अधिकार नहीं है; हम आपको इसके लिए भुगतान नहीं करते हैं।
onestop

1
@ आयुष आपके पूर्ववर्ती प्रश्न के लिए, मैं आपके प्रश्न (IMHO) का पूर्ण उत्तर प्रदान करता हूं - तब मैंने रुकने से पहले आपकी टिप्पणियों के बारे में कुछ अनुवर्ती जानकारी दी, जब मुझे लगा कि आप एक और प्रश्न पूछ रहे हैं, जो यहाँ टिप्पणी विकल्प का उद्देश्य नहीं है । इसलिए, मेरा सुझाव है कि या तो आप स्पष्ट रूप से बताएं कि क्या आपका प्रश्न सैद्धांतिक विचार या अनुप्रयुक्त डेटा विश्लेषण से संबंधित है (बाद वाले मामले में, हमें एक प्रतिलिपि प्रस्तुत करने योग्य उदाहरण दें) या अपने प्रश्नों को अलग करें। BTW, आपके पास अभी भी उन उत्तरों को स्वीकार करने का विकल्प है जो आपको उपयोगी लगते हैं (फिर से, अपने मूल प्रश्न, न कि टिप्पणियों का अनुसरण करें)।
chl

2
@ आयुष आह, और मुझे सिर्फ यह एहसास है कि आप कभी भी आपके द्वारा प्रदान किए गए उत्तरों में से किसी को भी वोट नहीं देते हैं (हालांकि अब आपके पास पर्याप्त प्रतिनिधि हैं)।
chl

@ chl-- हाँ..यहां मुझे अपनी इस गलती का एहसास है और आने वाले पोस्टों में यह सुनिश्चित करने के लिए इसे ठीक किया जाएगा..इस बात को इंगित करने के लिए धन्यवाद..कुछ दिनों के लिए मुझ पर ध्यान दें एक भोली शौकिया ..
आयुष बयानी

10

टीznn>30nz

बस सुनिश्चित करें, क्योंकि आपके डेटा सेट में 25 चर शामिल हैं, आप 25 परीक्षण कर रहे हैं? यदि यह मामला है, तो आपको संभवतः कई तुलनाओं के लिए सही करने की आवश्यकता है ताकि प्रकार I त्रुटि दर को न बढ़ाया जाए (इस साइट पर संबंधित थ्रेड देखें)।

बीटीडब्ल्यू, आर सॉफ्टवेयर आपको वे पी-वैल्यू देगा जिनकी आपको तलाश है, टेबल्स पर भरोसा करने की कोई आवश्यकता नहीं है:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 

0

आप निम्नलिखित पायथन फ़ंक्शन का उपयोग कर सकते हैं जो मैंने लिखा था, जो आकार के प्रभाव की गणना कर सकता है। परीक्षण यहाँ सीधा है

import numpy as np 
from scipy.stats import t

def Independent_tTest(x1, x2, std1, std2, n1, n2): 
    '''Independent t-test between two sample groups

    Note: 
        The test assumptions:
            H0: The two samples are not significantly different (from same population)
            H1: The two samples are siginficantly different (from two populations)
            - Accept the H1 if t-value > t-critical or p-value value < p-value critical
    Args: 
        x1(float): mean of the first sample group.
        x2(float): mean of the second sample group.
        std1(float): standard deviation of first sample group.
        std2(float): standard devation of second sample group.

    Return: 
        degree_of_freedome, t-statistics, p-value

    '''
    degree_of_freedom = n1 + n2  -2
    corrected_degree_of_freedom = (((std1**2/n1) + (std2**2/n2))**2)/(((std1**4)/((n1**2)*(n1-1)))+((std2**4)/((n2**2)*(n2-1))))

    poolvar = ((n1-1)*(std1**2)+ (n2-1)*(std2**2))/corrected_degree_of_freedom
    t_value = (x1 -x2)/np.sqrt(poolvar*((1/n1)+ (1/n2)))
    sig = 2 * (1-(t.cdf(abs(t_value), corrected_degree_of_freedom)))
    effect_size = np.sqrt((t_value**2)/(t_value**2+corrected_degree_of_freedom))
    return f"corrected degree of freedom {corrected_degree_of_freedom:0.4f} give a t-value = {t_value:0.4f}, with significant = {sig:0.4f} with effectsize ={effect_size:0.4f}"

1
यद्यपि कार्यान्वयन को अक्सर प्रश्नों में मूल सामग्री के साथ मिलाया जाता है, हमें आँकड़े, मशीन सीखने आदि के बारे में जानकारी देने के लिए एक साइट माना जाता है, कोड नहीं। यह कोड प्रदान करने के लिए अच्छा हो सकता है, लेकिन कृपया उन लोगों के लिए पाठ में अपने उत्तर को विस्तृत करें, जो कोड से उत्तर को पहचानने और निकालने के लिए इस भाषा को अच्छी तरह से नहीं पढ़ते हैं।
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.