बड़े डेटा सेट के लिए महत्व स्तर का चयन कैसे करें?


15

मैं एक डेटा सेट के साथ काम कर रहा हूं जिसमें 200,000 के आसपास एन है। प्रतिगमन में, मैं बहुत छोटे महत्व मान देख रहा हूं << 0.001 बहुत छोटे प्रभाव आकारों से जुड़ा हुआ है, उदाहरण के लिए r = 0.028। जो मैं जानना चाहता हूं, क्या नमूना आकार के संबंध में एक उचित महत्व सीमा तय करने का एक राजसी तरीका है? क्या इतने बड़े नमूने के साथ प्रभाव के आकार की व्याख्या करने के बारे में कोई अन्य महत्वपूर्ण विचार हैं?


10
यह व्यावहारिक बनाम सांख्यिकीय महत्व का मुद्दा है। यदि ढलान 0 से वास्तव में अलग है, यहां तक ​​कि एक छोटी राशि उदाहरण के लिए .00000000000001) भी है, तो एक बड़ा पर्याप्त नमूना परिणाम का कोई व्यावहारिक महत्व नहीं होने के बावजूद एक बहुत ही छोटे फल देगा। जब आप इतने बड़े नमूने का आकार लेते हैं, तो आप पी- अंतराल के बजाय बिंदु अनुमान की बेहतर व्याख्या करेंगे । pp
मैक्रो

@ मैक्रो माफ करना क्या आप स्पष्ट कर सकते हैं कि आपके यहाँ बिंदु अनुमान से क्या मतलब है?
ted.strauss

3
ऊपर मैक्रो की टिप्पणी को जोड़ते हुए, इस स्थिति में मैं निष्कर्षों में "व्यावहारिक" या "नैदानिक" महत्व की तलाश करता हूं। आप जो कर रहे हैं, उसके लिए आपकी देखभाल करने के लिए प्रभाव काफी बड़ा है?
मिशेल

1
बिंदु अनुमान मनाया गया प्रतिगमन ढलान अनुमान है।
मैक्रो

2
क्या @ मैक्रो और मैं दोनों कह रहे हैं कि आपको यह तय करने की आवश्यकता है कि नैदानिक ​​प्रभाव (बिंदु अनुमान, ढलान) महत्वपूर्ण है या नहीं। आपकी दहलीज़ "हाँ, यह एक महत्वपूर्ण नैदानिक ​​प्रभाव है" के बजाय "एक महत्वपूर्ण पी-मूल्य" तय करने के आधार पर है क्योंकि आपके पी-मानों में से अधिकांश (सभी) महत्वपूर्ण हैं।
मिशेल

जवाबों:


20

में महत्व परीक्षण के निरर्थकता , जॉनसन (1999) का उल्लेख किया है कि आप में गलत है छोटे के रूप में उन्हें कर सकते हैं के रूप में आप के लिए पर्याप्त डेटा एकत्र शून्य परिकल्पना संभालने से इच्छा है, जो यह लगभग हमेशा यह है कि पी-मूल्यों, मनमाने ढंग से कर रहे हैं। वास्तविक दुनिया में, अर्ध-आंशिक सहसंबंध होने की संभावना नहीं है जो बिल्कुल शून्य हैं, जो एक प्रतिगमन गुणांक के परीक्षण महत्व में शून्य परिकल्पना है। पी-मूल्य महत्व कटऑफ और भी अधिक मनमाना है। .05 के मूल्य को महत्व और निरर्थकता के बीच कटऑफ के रूप में उपयोग किया जाता है, यह सिद्धांत द्वारा नहीं किया जाता है। तो आपके पहले प्रश्न का उत्तर नहीं है, एक उचित महत्व सीमा पर निर्णय लेने का कोई राजसी तरीका नहीं है।

तो आप अपने बड़े डेटा सेट को देखते हुए क्या कर सकते हैं? यह आपके प्रतिगमन गुणांक के सांख्यिकीय महत्व की खोज के लिए आपके कारण पर निर्भर करता है। क्या आप एक जटिल मल्टी-फैक्टोरियल सिस्टम को मॉडल करने और एक उपयोगी सिद्धांत विकसित करने की कोशिश कर रहे हैं जो वास्तविकता में उचित रूप से फिट बैठता है या भविष्यवाणी करता है? तब शायद आप एक अधिक विस्तृत मॉडल विकसित करने और इस पर मॉडलिंग के नजरिए को अपनाने के बारे में सोच सकते हैं, जैसा कि रॉजर्स (2010), द एपिस्टेमोलॉजी ऑफ मैथमैटिकल एंड स्टैटिस्टिकल मॉडलिंग में वर्णित है । बहुत सारे डेटा होने का एक लाभ बहुत समृद्ध मॉडल का पता लगाने में सक्षम है, कई स्तरों वाले और दिलचस्प इंटरैक्शन वाले (यह मानते हुए कि आपके पास ऐसा करने के लिए चर हैं)।

यदि, दूसरी ओर, आप कुछ निर्णय लेना चाहते हैं कि क्या किसी विशेष गुणांक को सांख्यिकीय रूप से महत्वपूर्ण माना जाए या नहीं, तो आप वूलली (2003) में संक्षेप में गुड्स ( 1982) सुझाव लेना चाहते हैं : q-value की गणना करें के रूप में जो 100 के नमूने के आकार के लिए पी-मान को मानकीकृत करता है। बिल्कुल .001 का पी-मान .045 के पी-मान में बदल जाता है - सांख्यिकीय रूप से महत्वपूर्ण अभी भी।p(n/100)

तो अगर यह कुछ मनमानी दहलीज या किसी अन्य का उपयोग करके महत्वपूर्ण है, तो इसका क्या? यदि यह एक अवलोकन अध्ययन है, तो आपके पास यह बताने के लिए बहुत अधिक काम है कि यह वास्तव में आपके सोचने के तरीके में सार्थक है और न केवल एक सहज संबंध है जो दिखाता है कि आपने अपने मॉडल को गलत किया है। ध्यान दें कि यदि एक उपचार प्रभाव के बजाय उपचार के विभिन्न स्तरों में चयन करने वाले लोगों में पहले से मौजूद मतभेदों का प्रतिनिधित्व करता है, तो एक छोटा प्रभाव इतना दिलचस्प नहीं है।

आपको यह विचार करने की आवश्यकता है कि क्या आप जिस रिश्ते को देख रहे हैं वह व्यावहारिक रूप से महत्वपूर्ण है, जैसा कि टिप्पणीकारों ने नोट किया है। विचरण के लिए से r 2 से आपके द्वारा बताए गए आंकड़ों को परिवर्तित करते हुए समझाया गया है ( r सहसंबंध है, वर्जन को प्राप्त करने के लिए इसे वर्गाकार करें) क्रमशः 3 और 6% विचरण को समझाया गया है, जो बहुत अधिक नहीं लगता है।rr2r


@ rolando2 संपादन के लिए धन्यवाद, हमेशा बड़े / छोटे पी-मानों के बीच भ्रमित हो रहा है! मुझे लगता है कि अगर यह वितरण के अधिकार से दूर है तो यह बड़ा है, लेकिन पी-मूल्य छोटा है।
ऐनी जेड

2
(+1) यह एक महत्वपूर्ण तथ्य है कि कई चिकित्सक इस बारे में ध्यान से नहीं सोचते हैं: "पी-मान मनमानी हैं, इसमें आप उन्हें उतना ही छोटा बना सकते हैं, जितना आप पर्याप्त डेटा इकट्ठा करके चाहते हैं, यह मानना ​​कि परिकल्पना झूठी है, जो यह है लगभग हमेशा है। "
मैक्रो

धन्यवाद! आपके पारंगत पैराग्राफ में अंक अच्छी तरह से लिए गए हैं। मैं वूली लेख पढ़ रहा हूं और देखा कि आपका q- मूल्य सूत्र बंद है। यह p * नहीं होना चाहिए p / - मैंने इसे यहाँ बदलने की कोशिश की लेकिन संपादन> 6 वर्णों का होना चाहिए।
ted.strauss

@ ted.strauss मुझे खुशी है कि यह मददगार है। कभी-कभी मुझे पी-वैल्यू जैसे उपकरणों की सीमाओं से हतोत्साहित महसूस होता है जिन्हें हमें काम करना पड़ता है। सूत्र में गलती को नोट करने के लिए धन्यवाद, मैंने इसे ठीक कर दिया है।
ऐनी जेड।

अद्भुत उत्तर के लिए धन्यवाद। लेकिन मैं ऊपर दिए गए लिंक का उपयोग करके पेपर वूली 2003 तक पहुंचने में सक्षम नहीं हूं।
कार्तिकस

-3

मुझे लगता है कि जांचने का एक आसान तरीका बेतरतीब ढंग से एक बड़ी संख्या का नमूना होगा जो आपको पता है कि एक वितरण दो बार है और दो परिणामों की तुलना करता है। यदि आप ऐसा कई बार करते हैं और समान पी-मानों का पालन करते हैं, तो यह सुझाव देगा कि कोई वास्तविक प्रभाव नहीं है। यदि दूसरी ओर आप नहीं करते हैं, तो संभवतः है।


7
मुझे लगता है कि आप एक बड़े नमूने के आकार के साथ कोई वास्तविक अंतर के शून्य परिकल्पना के तहत सिमुलेशन करने का सुझाव दे रहे हैं और अंतराल को देख रहे हैं। मैं आपको सिमुलेशन किए बिना बता सकता हूं कि परिणामी p -values का < .001 अनुपात उतना ही छोटा होगा जितना कि एक मूल पोस्टिंग देखा गया है। यह किसी भी नमूना आकार के लिए सही है। यह एक की परिभाषा है पी -value। p<.001pp
मैक्रो

1
वास्तव में, आपके द्वारा बताई गई प्रक्रिया से निकलने वाले -values ​​का U n i f o r m m ( 0 , 1 ) वितरण होगा। pUniform(0,1)
मैक्रो

1
@ मैक्रो द्वारा अंतिम टिप्पणी के संबंध में, यहां इस बात का प्रमाण है कि अशक्त परिकल्पना तहत , p -value में U [ 0 , 1 ] वितरण है। एक परीक्षण आंकड़ा देखते हुए टी = टी ( एक्स ) , अगर हम निरीक्षण टी = टी ( एक्स ) , पी -value के रूप में परिभाषित किया गया है पी ( टी ) = पी ( टी टी | एच 0 ) । मान लीजिए कि एच 0 के तहतH0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0के वितरण समारोह है जी 0 , के साथ जी 0 , सतत और nondecreasing यह उलटा है ताकि जी - 1 0 । फिर, हमारे पास p ( t ) = 1 - G 0 ( t ) , और, u have [ 0 , 1 ] के लिएTG0G0G01p(t)=1G0(t)u[0,1]
Zen

1
P(p(T)u)=P(1G0(T)u)=P(G0(T)1u)=P(TG01(1u))=1G0(G01(1u))=u.
p(T)H0U[0,1]
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.