बिग डेटा के साथ परिकल्पना परीक्षण


12

आप बड़े आंकड़ों के साथ परिकल्पना परीक्षण कैसे करते हैं? मैंने अपनी उलझन पर ज़ोर देने के लिए निम्नलिखित MATLAB स्क्रिप्ट लिखी। यह सब करता है दो यादृच्छिक श्रृंखला उत्पन्न करता है, और दूसरे पर एक चर का एक सरल रैखिक प्रतिगमन चलाता है। यह विभिन्न यादृच्छिक मूल्यों और रिपोर्ट औसत का उपयोग करके कई बार इस प्रतिगमन को करता है। क्या होता है जैसा कि मैं नमूना आकार बढ़ाता हूं, पी-मान औसतन बहुत कम मिलता है।

मुझे पता है कि क्योंकि नमूना आकार के साथ एक परीक्षण की शक्ति बढ़ जाती है, एक बड़ा पर्याप्त नमूना दिया जाता है, पी-मान किसी भी परिकल्पना परीक्षण को अस्वीकार करने के लिए यादृच्छिक डेटा के साथ, पर्याप्त छोटा हो जाएगा। मैंने आस-पास पूछा और कुछ लोगों ने कहा कि 'बिग डेटा' के प्रभाव के आकार को देखने के लिए इसका अधिक महत्वपूर्ण है, अर्थात। क्या परीक्षण महत्वपूर्ण है और हमारी देखभाल के लिए पर्याप्त प्रभाव है। ऐसा इसलिए है क्योंकि बड़े नमूने के आकार में पी-वैल्यू बहुत छोटे अंतरों को उठाएगा, जैसे कि यहां बताया गया है

हालांकि, प्रभाव का आकार डेटा के स्केलिंग द्वारा निर्धारित किया जा सकता है। नीचे मैं एक छोटे से पर्याप्त परिमाण में व्याख्यात्मक चर को मापता हूं जिसने एक बड़ा पर्याप्त नमूना आकार दिया, यह आश्रित चर पर बड़ा महत्वपूर्ण प्रभाव डालता है।

इसलिए मैं सोच रहा हूं, अगर ये समस्याएं मौजूद हैं तो हम बिग डेटा से कोई जानकारी कैसे हासिल करेंगे?

%make average
%decide from how many values to make average
obs_inside_average = 100;

%make average counter
average_count = 1;

for average_i = 1:obs_inside_average,






%do regression loop
%number of observations
n = 1000;

%first independent variable (constant term)
x(1:10,1) = 1; 

%create dependent variable and the one regressor
for i = 1:10,

    y(i,1) = 100 + 100*rand();

    x(i,2) = 0.1*rand();

end





%calculate coefficients
beta = (x'*x)\x'*y;

%calculate residuals
u = y - x*beta;

%calcuatate sum of squares residuals
s_2 = (n-2)\u'*u;

%calculate t-statistics
design = s_2*inv(x'*x);

%calculate standard errors
stn_err = [sqrt(design(1,1));sqrt(design(2,2))];

%calculate t-statistics
t_stat(1,1) = sqrt(design(1,1))\(beta(1,1) - 0);
t_stat(2,1) = sqrt(design(2,2))\(beta(2,1) - 0);

%calculate p-statistics
p_val(1,1) = 2*(1 - tcdf(abs(t_stat(1,1)), n-2));
p_val(2,1) = 2*(1 - tcdf(abs(t_stat(2,1)), n-2));






%save first beta to data column 1
data(average_i,1) = beta(1,1);

%save second beta to data column 2
data(average_i,2) = beta(2,1);

%save first s.e. to data column 3
data(average_i,3) = stn_err(1,1);

%save second s.e. to data column 4
data(average_i,4) = stn_err(2,1);

%save first t-stat to data column 5
data(average_i,5) = t_stat(1,1);

%save second t-stat to data column 6
data(average_i,6) = t_stat(2,1);

%save first p-val to data column 7
data(average_i,7) = p_val(1,1);

%save second p-val to data column 8
data(average_i,8) = p_val(2,1);

end

%calculate first and second beta average
b1_average = mean(data(:,1));
b2_average = mean(data(:,2));

beta = [b1_average;b2_average];

%calculate first and second s.e. average
se1_average = mean(data(:,3));
se2_average = mean(data(:,4));

stn_err = [se1_average;se2_average];

%calculate first and second t-stat average
t1_average = mean(data(:,5));
t2_average = mean(data(:,6));

t_stat = [t1_average;t2_average];

%calculate first and second p-val average
p1_average = mean(data(:,7));
p2_average = mean(data(:,8));

p_val = [p1_average;p2_average];

beta
stn_err
t_stat
p_val

परिकल्पना परीक्षण अशक्त मॉडल को खारिज करने के बारे में है। अधिक डेटा के साथ आप "बड़े अशक्त मॉडल" को अस्वीकार कर सकते हैं, जैसे कि अधिक कोवरिएट्स होने या कई परिकल्पनाओं का परीक्षण करने से।
मोमेरा

इसके अलावा आंकड़े
nico

2
कमरे में हाथी "बड़े डेटा" का प्रतिनिधित्व करता है। इंटरनेट पर एकत्र किए गए कई विशाल डेटासेट सुविधा के (सबसे अच्छे) नमूने हैं; नमूना से बड़ी आबादी या चल रही प्रक्रिया के सामान्यीकरण के प्रयास में छिपे हुए लेकिन जाने-माने खतरे हैं।
व्हिबर

1
"कुछ लोगों ने कहा कि 'बिग डेटा' के साथ प्रभाव के आकार को देखना अधिक महत्वपूर्ण है।" 'स्मॉल डेटा' के साथ प्रभाव के आकार को भी देखना महत्वपूर्ण है।
अरी बी। फ्रीडमैन

जवाबों:


11

जैसा कि पीटर ने सुझाव दिया, मुझे लगता है कि "बिग डेटा" के युग में महत्वपूर्ण चीजों में से एक पी-मूल्यों पर और भी कम जोर देना है, और प्रभाव की भयावहता का एक अनुमान है।

मेरे अपने कुछ काम इस तरह से संघर्ष करते हैं, जो मुझे लगता है कि बिग डेटा के मुकाबले और भी अधिक कपटी हैं - स्टोकैस्टिक कम्प्यूटेशनल मॉडल के लिए, आपकी शक्ति पूरी तरह से धैर्य और कंप्यूटिंग संसाधनों का एक कार्य है। यह एक कृत्रिम निर्माण है।

इसलिए प्रभाव के अनुमान पर वापस जाएं। यहां तक ​​कि अगर इसकी महत्वपूर्ण, वास्तविक दुनिया में किसी मामले में 0.0001% की वृद्धि होती है?

मैं भी अध्ययन शक्ति की रिपोर्टिंग के पीछे कुछ विचारों को उलटने के साथ खेल रहा हूं। आपके अध्ययन की शक्ति को रिपोर्ट करने के बजाय देखे गए प्रभाव का पता लगाना था, अध्ययन करने के लिए संचालित किए गए न्यूनतम प्रभाव आकार की रिपोर्ट करना । इस तरह पाठक जान सकता है कि क्या महत्व की गारंटी दी गई थी।


7

आप जिस अंतर्दृष्टि की इच्छा रखते हैं, वह आत्मविश्वास के अंतराल से आने वाली है, न कि पी-वैल्यू से। एक बहुत बड़े नमूने के आकार के साथ आपको बहुत सटीक विश्वास अंतराल मिलने वाला है, बशर्ते आपकी सांख्यिकीय धारणा सही हो।


धन्यवाद माइक। क्या आप इन स्थितियों में कह रहे हैं, आत्मविश्वास अंतराल की परीक्षा से पता चलेगा कि वे इतने व्यापक हैं कि हमें वास्तव में अपने अनुमानों के सही मूल्य पर भरोसा नहीं करना चाहिए?
जोडांगर

क्या दिलचस्प है कि कैसे सहज ज्ञान युक्त है, इस सवाल को बड़े डेटा के लिए एक समस्या के रूप में चित्रित किया गया था (जहां परिकल्पना परीक्षणों ने हमें सूचित किया कि कुछ होने की संभावना नहीं है, बल्कि व्यर्थ हैं), और छोटे डेटा की समस्या के रूप में नहीं (जहां पैरामीटर अनुमान बहुत अस्पष्ट हैं। और अक्सर, सभी कह सकते हैं कि पैरामीटर ठीक 0 होने की संभावना नहीं है।
जोना

6

चाहे डेटा बड़ा हो या छोटा, प्रभाव आकार पर ध्यान देना ज़रूरी है।

विशुद्ध रूप से यादृच्छिक डेटा के साथ, आपको समय का 5% महत्वपूर्ण परिणाम प्राप्त करना चाहिए। यही पी-वैल्यू का मतलब है। यह भी नमूना आकार की परवाह किए बिना सच है। नमूना आकार के साथ क्या भिन्न होता है, इसका प्रभाव आकार कितना महत्वपूर्ण होता है; लेकिन, शुद्ध शोर के बड़े नमूनों के साथ, केवल छोटे अंतर होने की संभावना है; छोटे नमूनों के साथ, बड़े अंतर अधिक बार होते हैं। 10 बार सिक्का उछालने के बारे में सोचें: 8, 9 या यहां तक ​​कि 10 सिर का उठना बेतुका नहीं होगा। हालांकि, यदि आप 1000 बार सिक्का उछालते हैं, तो 800 हेड्स प्राप्त करना वास्तव में अजीब होगा, बहुत कम 900 या 1000 (सटीक संख्याओं की गणना की जा सकती है, लेकिन यह बात नहीं है। हालांकि, 1000 टॉन्स के साथ, एक छोटा विचलन भी। 500 से महत्वपूर्ण होगा।

जैसे यादृच्छिक डेटा के साथ एक टी-टेस्ट, लंबाई 10 के 2 वैक्टर

set.seed(102811)
samp.size <- 10
t10 <- vector("numeric", 100)
for (i in 1:100){
x <- rnorm(samp.size)
y <- rnorm(samp.size)
t <- t.test(x,y)
t10[i] <- t$p.value
sum(t10 < .05)/100

मुझे 0.07 मिले

1000 आकार के दो वैक्टर के साथ

set.seed(10291)
samp.size <- 1000
t1000 <- vector("numeric", 100)
for (i in 1:100){
  x <- rnorm(samp.size)
  y <- rnorm(samp.size)
  t <- t.test(x,y)
  t1000[i] <- t$p.value
}  
sum(t1000 < 0.05)/100

मुझे 0.05 मिली।


1
फ्लॉर्न, मुझे यह अच्छी तरह से प्रारूपित लगता है, क्या कोई अकादमिक पेपर / आँकड़े पाठ्यपुस्तकें हैं जो एक संदर्भ कर सकते हैं जो एक समान बिंदु बनाते हैं?
SAFEX

1
कौन सा विशिष्ट बिंदु? प्रभाव आकारों को देखने के बारे में? या यादृच्छिक क्या है?
पीटर Flom

"नमूना आकार के साथ क्या भिन्न होता है, इसका प्रभाव आकार कितना छोटा होता है, इसे महत्वपूर्ण पाया जा सकता है", यह पाठ से बहुत सहज है, लेकिन क्या अकादमिक कार्य इस बात को साबित करते हैं
SAFEX

1
मुझे ऐसी किसी पुस्तक के बारे में जानकारी नहीं है जो स्पष्ट रूप से यह साबित करती है - यदि आप किसी प्रकार की गणितीय सांख्यिकी पुस्तक चाहते हैं, तो मैं पूछने वाला व्यक्ति नहीं हूं। मुझे यकीन है कि यहाँ किसी को पता चल जाएगा, लेकिन वे इस टिप्पणी धागा नहीं देख सकते हैं। शायद की तरह एक अलग सवाल पूछते हैं "स्पष्ट सबूत क्या भिन्न होता है कि ...."
पीटर Flom

1
किया और फिर से सहज ज्ञान युक्त वर्णन के लिए धन्यवाद ( आँकड़ें ।stackexchange.com/questions/412643/… )
SAFEX

2

जैसा कि पहले ही उल्लेख किया गया था, परिकल्पना परीक्षण में आप वास्तव में अशक्त परिकल्पना की जांच कर रहे हैं, आमतौर पर इस उम्मीद में कि आप इसे अस्वीकार कर सकते हैं। अन्य उत्तरों के अलावा मैं कुछ भिन्न दृष्टिकोण का प्रस्ताव करना चाहूंगा।

सामान्यतया, यदि आपके पास अपने डेटा में क्या हो सकता है, इसके बारे में कुछ सिद्धांत हैं, तो आप एक पुष्टिकरण विश्लेषण कर सकते हैं (जैसे पुष्टि कारक विश्लेषण केवल एक उदाहरण के रूप में)। ऐसा करने के लिए आपको एक मॉडल की आवश्यकता होगी। फिर आप देख सकते हैं कि आपका मॉडल डेटा को कितनी अच्छी तरह फिट करता है। यह दृष्टिकोण एक-दूसरे के खिलाफ विभिन्न मॉडलों के परीक्षण के लिए भी अनुमति देगा। बिग डेटा के साथ अच्छी बात यह है कि यह आपको वास्तव में इन मॉडल परीक्षणों की अनुमति देता है। इसके विपरीत, मनोविज्ञान में उदाहरण के लिए ऐसा करना वास्तव में संभव नहीं है, क्योंकि इस प्रकार के तरीकों के लिए नमूना आकार बहुत छोटा होता है।

मुझे लगता है कि आम तौर पर बिग डेटा के साथ, एक खोजपूर्ण दृष्टिकोण का उपयोग किया जाता है, क्योंकि कोई सिद्धांत नहीं है, फिर भी। इसके अलावा, चूंकि मुझे नहीं पता कि आप वास्तव में किस चीज में रुचि रखते हैं, यह वास्तव में एक विकल्प नहीं हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.