क्या हम एक युग में मॉडल धारणा और मूल्यांकन के महत्व को बढ़ा रहे हैं जब विश्लेषण अक्सर आम लोगों द्वारा किए जाते हैं


54

नीचे की रेखा , जितना अधिक मैं आंकड़ों के बारे में सीखता हूं, उतना ही कम मुझे अपने क्षेत्र में प्रकाशित पत्रों पर भरोसा होता है; मैं बस मानता हूं कि शोधकर्ता अपने आंकड़ों को अच्छी तरह से नहीं कर रहे हैं।


मैं आम आदमी हूं, इसलिए बोलने के लिए। मैं जीव विज्ञान में प्रशिक्षित हूं, लेकिन मेरे पास सांख्यिकी या गणित में कोई औपचारिक शिक्षा नहीं है। मैं आर का आनंद लेता हूं और अक्सर शोध करने के दौरान लागू होने वाली कुछ सैद्धांतिक नींवों को पढ़ने (और समझने ...) का प्रयास करता हूं। यह मुझे आश्चर्यचकित नहीं करेगा अगर आज विश्लेषण करने वाले अधिकांश लोग वास्तव में औपचारिक रूप से प्रशिक्षित नहीं हैं। मैंने लगभग 20 मूल पत्र प्रकाशित किए हैं, जिनमें से कुछ मान्यता प्राप्त पत्रिकाओं और सांख्यिकीविदों द्वारा स्वीकार किए गए हैं, अक्सर समीक्षा-प्रक्रिया में शामिल रहे हैं। मेरे विश्लेषण में आमतौर पर अस्तित्व विश्लेषण, रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन, मिश्रित मॉडल शामिल हैं। कभी भी एक समीक्षक ने मॉडल मान्यताओं, फिट या मूल्यांकन के बारे में नहीं पूछा।

इस प्रकार, मैंने कभी भी मॉडल मान्यताओं, फिट और मूल्यांकन के बारे में बहुत अधिक परेशान नहीं किया। मैं एक परिकल्पना के साथ शुरू करता हूं, प्रतिगमन को निष्पादित करता हूं और फिर परिणाम प्रस्तुत करता हूं। कुछ उदाहरणों में मैंने इन चीजों का मूल्यांकन करने का एक प्रयास किया, लेकिन मैं हमेशा " अच्छी तरह से समाप्त हो गया" यह सभी मान्यताओं को पूरा नहीं करता था, लेकिन मुझे परिणामों ("विषय ज्ञान") पर भरोसा है और वे प्रशंसनीय हैं, इसलिए यह ठीक है "और जब एक सांख्यिकीविद् से सलाह लेते हैं तो वे हमेशा सहमत होते हैं।

अब, मैंने अन्य सांख्यिकीविदों और गैर-सांख्यिकीविदों (रसायनज्ञ, चिकित्सक और जीवविज्ञानी) से बात की है जो स्वयं विश्लेषण करते हैं; ऐसा लगता है कि लोग वास्तव में इन सभी मान्यताओं और औपचारिक मूल्यांकन के बारे में बहुत परेशान नहीं करते हैं। लेकिन यहाँ CV पर, अवशिष्ट, मॉडल फिट, इसके मूल्यांकन के तरीके, eigenvalues, vectors और सूची के बारे में पूछने वाले लोगों की बहुतायत है। मुझे इसे इस तरह से रखने दें, जब lme4 बड़े eigenvalues ​​के बारे में चेतावनी देता है, मुझे वास्तव में संदेह है कि इसके कई उपयोगकर्ता पते को ध्यान रखते हैं ...

क्या यह अतिरिक्त प्रयास के लायक है? क्या यह संभावना नहीं है कि सभी प्रकाशित परिणामों के बहुमत इन मान्यताओं का सम्मान नहीं करते हैं और शायद उनका आकलन भी नहीं किया है? यह संभवतः एक बढ़ता हुआ मुद्दा है क्योंकि डेटाबेस हर दिन बड़ा होता है और एक धारणा है कि डेटा जितना बड़ा होता है, उतना ही कम महत्वपूर्ण मान्यताओं और मूल्यांकन होता है।

मैं बिल्कुल गलत हो सकता है, लेकिन यह है कि मैं यह कैसे माना जाता है।

अपडेट: StasK से नीचे दिए गए उद्धरण (नीचे): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509


34
मैं चेतावनी देना चाहूंगा कि इस सवाल को बंद करने से एक महत्वपूर्ण अवसर पर चर्चा होगी कि सांख्यिकी विभागों की दीवारों के बाहर "वास्तविक दुनिया" में आंकड़ों का उपयोग कैसे किया जा रहा है। सीवी कुछ स्थानों में से एक है जो वास्तविक दुनिया के लोग और सांख्यिकीविद हैं, और संचार की लाइनों को खुला रखना एक महत्वपूर्ण, यद्यपि निहित, सीवी का मिशन है। मैं उन लोगों से पूरी तरह सहमत हूं जिन्होंने "करीब" पर क्लिक किया क्योंकि यह बहुत व्यापक और राय-आधारित है, लेकिन मुझे अभी भी उम्मीद है कि हम इस चर्चा को रख सकते हैं।
StasK

5
क्या यह तथ्य नहीं होगा कि कई प्रकाशन, शोधकर्ता या यहां तक ​​कि पूरे क्षेत्र में मान्यताओं का इलाज लापरवाही से किया जाता है । यह भी संभव है कि सांख्यिकीविद् और पाठ्यपुस्तक उनके महत्व को बढ़ा-चढ़ाकर पेश करते हों, लेकिन निश्चित रूप से चिकित्सकों के साथ उनकी लोकप्रियता और लोगों को इसके लिए संकेत नहीं दे सकते। इसके अलावा सम्मेलनों और मानकों में काफी भिन्नता है। कुछ अनुशासन शायद इस बात की अधिक परवाह करते हैं कि आप उनसे परिचित हैं, जबकि अन्य शायद उन चीजों के बारे में ज्यादा परवाह नहीं करते हैं जो आपके क्षेत्र में प्रकाशित होने के लिए बहुत महत्वपूर्ण हैं।
गाला

6
पिछले अध्ययन की आलोचना करते हुए एक टिप्पणी पत्र लिखा, जहां मॉडल मान्यताओं का जानबूझकर उल्लंघन किया गया और गलत निष्कर्ष निकाले गए, मेरी सलाह है कि परिणामों पर भरोसा न करें और एक आत्म-आलोचनात्मक बनें जैसा कि आप कर सकते हैं।
डिक्रान मार्सुपियल

7
"बड़ा डेटा, कम महत्वपूर्ण धारणाएँ" डेटा की वास्तविक वृद्धि के साथ नहीं होती हैं: माप तकनीकों में प्रगति के कारण आश्रित टिप्पणियों / सुविधाओं की संख्या (मुख्य रूप से) बढ़ती है। इसके विपरीत, स्वतंत्र प्रेक्षणों की संख्या, अर्थात प्रायोगिक इकाइयाँ या जांच, बल्कि बँधी हुई रहती है (जैसा कि तकनीकी प्रगति से आबादी नहीं बढ़ती है ...)। दुर्भाग्य से, केवल बड़े डेटा wrt स्वतंत्रता केंद्रीय सीमा प्रमेय के कारण मान्यताओं (अक्सर, हमेशा नहीं) को कम महत्वपूर्ण बनाते हैं।
होर्स्ट ग्रुनबसच

3
@AdamRobinsson: मुझे आपके प्रश्न के शीर्ष पर आपके द्वारा पोस्ट किया गया निष्कर्ष पसंद है। मैं बड़े नामों द्वारा प्रकाशित किए गए पत्रों से भी अधिक सावधान रहूंगा या बड़े संस्थानों द्वारा समर्थित होगा। जब मैं शीर्ष-स्तरीय पत्रिकाओं में सम्मानित संस्थानों के 15 वरिष्ठ लेखकों के साथ पेपर देखता हूं, तो मेरी पहली वृत्ति वास्तव में कागज को और भी अधिक जांचने के लिए होती है, क्योंकि इस बात की संभावना है कि लेखक के संस्थानों / संस्थानों के क्लैट के कारण पेपर प्रकाशित हुआ था। इन पत्रों में भी दूरगामी नीति निहितार्थ होते हैं। मेरे क्षेत्र (सार्वजनिक स्वास्थ्य) से एक उदाहरण एचआईवी की रोकथाम के अध्ययन (प्रतियोगिता) के लिए पुरुष खतना थे
मार्किस डे काराबास

जवाबों:


26

मुझे एक सांख्यिकीविद् के रूप में प्रशिक्षित किया जाता है न कि एक जीवविज्ञानी या चिकित्सा चिकित्सक के रूप में। लेकिन मैं काफी चिकित्सा अनुसंधान (जीवविज्ञानी और चिकित्सा डॉक्टरों के साथ काम करना) करता हूं, मेरे शोध के हिस्से के रूप में मैंने कई अलग-अलग बीमारियों के इलाज के बारे में काफी कुछ सीखा है। क्या इसका मतलब यह है कि अगर कोई दोस्त मुझसे किसी बीमारी के बारे में पूछता है, जिस पर मैंने शोध किया है कि मैं उन्हें केवल एक दवा के लिए एक नुस्खा लिख ​​सकता हूं जो मुझे पता है कि आमतौर पर उस विशेष बीमारी के लिए उपयोग किया जाता है? यदि मैं ऐसा कर रहा था (मैं नहीं करता हूं), तो कई मामलों में यह शायद ठीक हो जाएगा (क्योंकि एक चिकित्सा चिकित्सक सिर्फ एक ही दवा निर्धारित करेगा), लेकिन हमेशा एक संभावना है कि उन्हें एलर्जी / दवा है बातचीत / अन्य जो एक डॉक्टर के बारे में पूछने के लिए पता होगा, कि मैं और अंत में अच्छे से ज्यादा नुकसान नहीं पहुंचाता।

यदि आप यह समझे बिना आंकड़े कर रहे हैं कि आप क्या मान रहे हैं और क्या गलत हो सकता है (या जिस तरह से एक सांख्यिकीविद् से परामर्श करना चाहिए जो इन चीजों की तलाश करेंगे) तो आप सांख्यिकीय कदाचार का अभ्यास कर रहे हैं। ज्यादातर समय यह शायद ठीक होगा, लेकिन उस अवसर के बारे में क्या है जहां एक महत्वपूर्ण धारणा नहीं है, लेकिन आप इसे अनदेखा करते हैं?

मैं कुछ डॉक्टरों के साथ काम करता हूं जो उचित रूप से सांख्यिकीय रूप से सक्षम हैं और अपने स्वयं के विश्लेषण का बहुत कुछ कर सकते हैं, लेकिन वे अभी भी इसे मेरे अतीत से चलाएंगे। अक्सर मैं पुष्टि करता हूं कि उन्होंने सही काम किया है और वे स्वयं विश्लेषण कर सकते हैं (और वे आमतौर पर पुष्टि के लिए आभारी हैं) लेकिन कभी-कभी वे कुछ अधिक जटिल कर रहे होंगे और जब मैं एक बेहतर दृष्टिकोण का उल्लेख करूंगा तो वे आमतौर पर विश्लेषण को बदल देंगे। मेरे या मेरी टीम के लिए, या कम से कम मुझे अधिक सक्रिय भूमिका के लिए लाएं।

तो आपके शीर्षक प्रश्न का मेरा उत्तर "नहीं" है, हम अतिशयोक्ति नहीं कर रहे हैं, बल्कि हमें कुछ चीजों पर अधिक जोर देना चाहिए, ताकि आम आदमी कम से कम एक सांख्यिकीविद् के साथ अपनी प्रक्रियाओं / परिणामों की दोहरी जांच कर सके।

संपादित करें

यह नीचे एडम की टिप्पणी पर आधारित एक अतिरिक्त है (किसी अन्य टिप्पणी के लिए थोड़ा लंबा होगा)।

एडम, आपकी टिप्पणी के लिए धन्यवाद। संक्षिप्त उत्तर है "मुझे नहीं पता"। मुझे लगता है कि लेखों की सांख्यिकीय गुणवत्ता में सुधार के लिए प्रगति की जा रही है, लेकिन कई अलग-अलग तरीकों से चीजें इतनी तेज़ी से आगे बढ़ी हैं कि गुणवत्ता को पकड़ने और छापने में थोड़ा समय लगेगा। समाधान का हिस्सा इंट्रो सांख्यिकी पाठ्यक्रमों में मान्यताओं और उल्लंघन के परिणामों पर ध्यान केंद्रित कर रहा है। ऐसा तब होने की संभावना होती है, जब कक्षाओं को सांख्यिकीविदों द्वारा पढ़ाया जाता है, लेकिन सभी वर्गों में होने की आवश्यकता होती है।

कुछ पत्रिकाएं बेहतर कर रही हैं, लेकिन मैं एक विशिष्ट सांख्यिकीविद् समीक्षक को मानक बनते देखना चाहूंगा। कुछ साल पहले एक लेख आया था (खेद है कि संदर्भ नहीं है, लेकिन यह JAMA या न्यू इंग्लैंड जर्नल ऑफ मेडिसिन में था) प्रकाशित होने की एक उच्च संभावना दिखाती है (हालांकि यह उतना बड़ा अंतर नहीं है जितना इसे होना चाहिए JAMA या NEJM में) यदि एक बायोस्टैटिस्टीकॉन या एपिडेमियोलॉजिस्ट सह-लेखकों में से एक था।

हाल ही में सामने आया एक दिलचस्प लेख है: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412 जो इसी तरह के कुछ मुद्दों पर चर्चा करते हैं।


1
मैं आपकी बात साझा करता हूं, ग्रेग। मुझे लगता है कि आपका उत्तर स्पष्ट रूप से बताता है। लेकिन मैं आपको उद्धृत करना चाहता हूं: "[...] तब आप सांख्यिकीय कदाचार का अभ्यास कर रहे हैं। अधिकांश समय यह संभवतः ठीक होगा"। एक जोखिम है कि यह धारणा फैल रही है और लोग इसे इस रूप में समझते हैं: कोई भी आँकड़े कर सकता है (जो कि मौलिक रूप से गलत है यदि आप मुझसे पूछें, जिसने आंकड़ों की सतह पर थोड़ा खरोंच किया है)। सवाल यह है कि हम यह कैसे आश्वस्त करें कि प्रकाशित कार्य सांख्यिकीय विश्लेषणों के संदर्भ में सही है? क्योंकि मुझे आश्चर्य है कि कितने लेख हैं जो एक सांख्यिकीविद् पास नहीं हुए ...
एडम रॉबिंसन

@AdamRobinsson, ऊपर मेरा जोड़ देखें।
ग्रेग स्नो

यह बल्कि अभिजात्य वर्ग है। मैं सहमत हूं कि पेशेवर सांख्यिकीविदों के पास सांख्यिकीय विश्लेषण करने की क्षमता और विशेषज्ञता हो सकती है, लेकिन ऐसा वैज्ञानिक भी कर सकते हैं। वास्तव में, आंकड़ों में कुछ आधारभूत प्रगति वैज्ञानिकों (जैसे फिशर और जेफरी) से आई है जो वास्तविक दुनिया में आंकड़ों का अभ्यास कर रहे हैं।
Innisfree

यह कहना भी अजीब है कि सांख्यिकीय कदाचार का गठन न केवल सांख्यिकीय विश्लेषण की गुणवत्ता या परिणामों पर निर्भर करता है, बल्कि आंकड़ों की विश्लेषकों की समझ की ताकत के बारे में व्यक्तिपरक निर्णय पर है
innisfree

@innisfree, मैं आपकी टिप्पणियों को नहीं समझता, या शायद आप मेरी स्थिति को नहीं समझते हैं। मैं यह नहीं कह रहा हूं कि केवल सांख्यिकीविद् मान्यताओं / स्थितियों को देख सकते हैं, बस यह कि वे महत्वपूर्ण हैं और या तो एक सांख्यिकीविद् से परामर्श किया जाना चाहिए, या गैर-सांख्यिकीविद् वैज्ञानिक को केवल संख्याओं को बदलने से परे मुद्दों को समझने के लिए पर्याप्त आँकड़े सीखना चाहिए। एक सूत्र / कंप्यूटर में। व्यक्तिगत रूप से मैं दवा / इंजीनियरिंग / आदि में विशेषज्ञता के साथ बहुत अधिक सांख्यिकी नाबालिगों को देखना चाहूंगा, लेकिन आंकड़ों के पीछे के विचारों की बेहतर समझ के साथ।
ग्रेग स्नो

28

ठीक है, हां, धारणाएं मायने रखती हैं - यदि वे बिल्कुल भी मायने नहीं रखते, तो हमें उन्हें बनाने की आवश्यकता नहीं होगी, क्या हम?

सवाल यह है कि वे कितना मायने रखते हैं - यह प्रक्रियाओं और मान्यताओं में भिन्न होता है और आप अपने परिणामों के बारे में क्या दावा करना चाहते हैं (और यह भी कि आपके दर्शक कितने सहिष्णु हैं - यहां तक ​​कि अशुद्धि भी - ऐसे दावों में)।

तो ऐसी स्थिति के उदाहरण के लिए जहां एक धारणा महत्वपूर्ण है, भिन्नताओं के एफ-परीक्षण में सामान्यता धारणा पर विचार करें; वितरण में काफी मामूली बदलाव प्रक्रिया के गुणों (वास्तविक महत्व स्तर और शक्ति) पर काफी नाटकीय प्रभाव डाल सकते हैं। यदि आप दावा करते हैं कि आप 28% के स्तर पर 5% के स्तर पर परीक्षण कर रहे हैं, तो आप कुछ इस तरह से कर रहे हैं कि आप अपने प्रयोगों का संचालन कैसे कर रहे हैं। यदि आपको नहीं लगता कि ऐसे सांख्यिकीय मुद्दे महत्वपूर्ण हैं, तो तर्क दें जो उन पर भरोसा नहीं करते हैं। दूसरी ओर, यदि आप समर्थन के रूप में सांख्यिकीय जानकारी का उपयोग करना चाहते हैं, तो आप उस समर्थन को गलत तरीके से प्रस्तुत करने के बारे में नहीं जा सकते।

अन्य मामलों में, विशेष धारणाएं बहुत कम महत्वपूर्ण हो सकती हैं। यदि आप एक रेखीय प्रतिगमन में गुणांक का अनुमान लगा रहे हैं और अगर यह सांख्यिकीय रूप से महत्वपूर्ण है तो आप परवाह नहीं करते हैं और आप दक्षता के बारे में परवाह नहीं करते हैं, ठीक है, यह जरूरी नहीं कि होमोसकेडासिटी धारणा मानती है। लेकिन अगर आप कहना चाहते हैं कि यह सांख्यिकीय रूप से महत्वपूर्ण है, या एक विश्वास अंतराल दिखाते हैं, हाँ, यह निश्चित रूप से मायने रख सकता है।


2
Glen_b की टिप्पणी सांख्यिकीय दृष्टिकोण से मान्यताओं के महत्व को अच्छी तरह से कहा जाता है। मुझे लगता है कि यह भी ध्यान दिया जाना चाहिए, कि प्रकाशन के प्रयोजनों के लिए मान्यताओं की जाँच एक अलग मामला है, इसमें मान्यताओं का उल्लंघन केवल उतना ही मायने रखता है जितना समीक्षक या संपादक उनके लिए परवाह करते हैं। एक उदाहरण के रूप में परिणाम के पीछे सिद्धांत प्रकाशन के लिए पर्याप्त योग्यता प्रदान कर सकता है, जहां उम्मीद है कि विश्लेषण के साथ मुद्दों को भविष्य के प्रकाशनों द्वारा हल किया जा सकता है।
जोनाथन लिसिक

खैर, भले ही समीक्षकों ने कागज की जांच की, त्रुटियों के साथ जिम्मेदारी लेखकों के साथ रहती है। तो अपने हित में, आपको जांच करनी चाहिए ...
kjetil b halvorsen

दरअसल, जिम्मेदारी हमेशा लेखकों के साथ रहेगी। लेकिन लेखकों को इन दिनों अनुचित चालकों द्वारा धकेल दिया जाता है जो उन्हें प्रकाशित करने के लिए मजबूर करते हैं, न कि एक त्वरित और गंदे फैशन में। मैं एक समीक्षा-प्रक्रिया देखना चाहूंगा जिसमें सबसे महत्वपूर्ण सांख्यिकीय मान्यताओं की घोषणा अनिवार्य है। आज यह मान लिया गया है कि सांख्यिकीय विश्लेषण पुस्तक के अनुसार किया गया है, लेकिन मेरा मानना ​​है कि यह आम से अधिक दुर्लभ है।
एडम रॉबिंसन

3
+1 "सवाल यह है कि वे कितना मायने रखते हैं" - यह अनिवार्य रूप से पूरे मामले को संक्षेप में रखता है। मुझे यह भी बताना चाहिए कि सांख्यिकीय निष्कर्ष के आवेदन में, यह जानना संभव नहीं है कि कुछ सांख्यिकीय मान्यताओं का उल्लंघन किस हद तक है। हम विश्लेषण की मजबूती को केवल पोस्ट कर सकते हैं या विचार कर सकते हैं यदि वे हैं, और यह सांख्यिकीय अभ्यास का एक आवश्यक लेकिन अक्सर अनदेखा पहलू है।
हेरोपअप

18

जबकि Glen_b ने शानदार जवाब दिया , मैं उस पर कुछ जोड़े जोड़ना चाहूंगा।

एक विचार यह है कि क्या आप वास्तव में वैज्ञानिक सत्य प्राप्त करना चाहते हैं, जिसके लिए आपको अपने परिणामों को चमकाने की आवश्यकता होगी और सभी विवरणों का पता लगाना होगा कि क्या आपका दृष्टिकोण दोषपूर्ण है, या "आह अच्छी तरह से प्रकाशित हो रहा है, कोई भी मेरे अनुशासन में इन स्वदेशी की जाँच नहीं करता है" मोड। दूसरे शब्दों में, आपको अपने आंतरिक पेशेवर विवेक से पूछना होगा कि क्या आप सबसे अच्छा काम कर रहे हैं। कम सांख्यिकीय साक्षरता और अपने अनुशासन में शिथिल सांख्यिकीय प्रथाओं का उल्लेख करना एक ठोस तर्क नहीं देता है। समीक्षक अक्सर सर्वश्रेष्ठ अर्ध-सहायक होते हैं यदि वे इन शिथिल मानकों के साथ एक ही अनुशासन से आते हैं, हालांकि कुछ शीर्ष आउटलेट्स में समीक्षा प्रक्रिया में सांख्यिकीय विशेषज्ञता लाने की स्पष्ट पहल है।

लेकिन भले ही आप एक सनकी "प्रकाशित-या-पेरिश" सलामी स्लाइसर हैं, अन्य विचार मूल रूप से आपकी शोध प्रतिष्ठा की सुरक्षा है। यदि आपका मॉडल विफल हो जाता है, और आप इसे नहीं जानते हैं, तो आप अपने आप को उन लोगों द्वारा खंडन के जोखिम के लिए उजागर कर रहे हैं जो अधिक परिष्कृत उपकरणों के साथ मॉडल की जांच की दरार में कुल्हाड़ी चला सकते हैं। दीखती है, इसकी संभावना कम प्रतीत होती है, क्योंकि विज्ञान समुदाय, प्रतिष्ठा और प्रतिलिपि प्रस्तुत करने की नाममात्र दार्शनिक आवश्यकताओं के बावजूद, शायद ही कभी किसी और के शोध को पुन: पेश करने के प्रयासों में संलग्न है। (मैं कागज के एक जोड़े को लिखने में शामिल था जो मूल रूप से शुरू हुआ था, "ओह माय गॉड, क्या उन्होंने वास्तव में किया था।"यह लिखें? ", और एक आलोचक और एक सहकर्मी-समीक्षित प्रकाशित अर्ध-सांख्यिकीय दृष्टिकोण के परिशोधन की पेशकश की।) हालांकि, सांख्यिकीय विश्लेषण की विफलताएं, जब उजागर होती हैं , तो अक्सर बड़े और अप्रिय स्पलैश बनते हैं।


मुझे वास्तव में दृष्टिकोण पसंद है: पेशेवर विवेक, और मेरा मानना ​​है कि बहुतों में विवेक है लेकिन फिर भी ज्ञान का अभाव है; लेकिन यह उन्हें डेटा पेश करने से नहीं रोकेगा जैसे कि यह पूरी तरह से किया गया था। दिलचस्प बात यह है कि आप एक विज्ञान लेख का हवाला दे रहे हैं जो स्पष्ट रूप से बताता है: "[...] व्यापक रूप से चिंता है कि डेटा विश्लेषण में बुनियादी गलतियाँ कई प्रकाशित शोध निष्कर्षों की अपूरणीयता में योगदान दे रही हैं।" मुझे वास्तव में लगता है कि हम आम आदमी हैं, हम वास्तव में सांख्यिकीय तरीकों की कठिनाई का सम्मान नहीं करते हैं और यह ऊपर बताए अनुसार बढ़ती समस्या होनी चाहिए।
एडम रॉबिंसन

1
मेरे वर्तमान शोध समूह में, हम 15 शोधकर्ता (जीवविज्ञानी, चिकित्सक) हैं और उनमें से कुछ वास्तव में उत्पादक हैं लेकिन कोई भी सांख्यिकीविद् नहीं है। सभी जूनियर शोधकर्ताओं ने आर या एसएएस स्थापित किया है और आमतौर पर इंटरनेट पर केवल कुछ ट्यूटोरियल पढ़ने के बाद गणना की है। यह एक बड़ा मुद्दा है।
एडम रॉबिंसन

4
@AdamRobinsson, सीवी पर इस बारे में पूछने वाला एकमात्र तथ्य आपके विवेक के बारे में बात करता है। वैज्ञानिक कंप्यूटिंग के कुछ हद तक संबंधित विषय पर (और, सॉफ्टवेयर विकास में सर्वोत्तम प्रथाओं के कार्यान्वयन की कमी पर वैज्ञानिक अपने स्वयं के C / फोरट्रान / आर कोड लिखकर) के लिए एक और प्रकृति लिंक आपको देते हैं - Nature.com/news/2010 /101013/full/467775a.html
StasK

3
विज्ञान समुदाय के रूप में, प्रतिष्ठा और प्रतिलिपि प्रस्तुत करने की नाममात्र दार्शनिक आवश्यकताओं के बावजूद, शायद ही कभी किसी और के शोध को पुन: पेश करने के प्रयासों में संलग्न हूं जो मैं पूरी तरह से उस कथन से सहमत हूं।
रॉबर्ट स्मिथ

software-carpentry.org , "शोधकर्ताओं को बुनियादी कंप्यूटिंग कौशल सिखाने के लिए समर्पित एक स्वयंसेवी गैर-लाभकारी संगठन", में बहुत अच्छे ट्यूटोरियल और सेमिनार हैं।
डेनिस

9

मान्यताओं के उल्लंघन की प्रकृति भविष्य के अनुसंधान के लिए एक महत्वपूर्ण सुराग हो सकती है। उदाहरण के लिए, कॉक्स उत्तरजीविता विश्लेषण में आनुपातिक-खतरे की धारणा का उल्लंघन अल्पकालिक उत्तरजीविता पर एक बड़े प्रभाव के साथ एक चर के कारण हो सकता है लेकिन लंबी अवधि में थोड़ा प्रभाव। यह एक सांख्यिकीय परीक्षण में आपकी मान्यताओं की वैधता की जांच करके आपको अप्रत्याशित लेकिन संभावित रूप से महत्वपूर्ण जानकारी मिल सकती है।

यदि आप अंतर्निहित मान्यताओं का परीक्षण नहीं करते हैं, तो आप केवल साहित्य ही नहीं, एक संभावित असंतोष भी करते हैं। चूंकि उच्च-गुणवत्ता वाली पत्रिकाओं को अधिक परिष्कृत सांख्यिकीय समीक्षा की आवश्यकता होती है, इसलिए आप ऐसा करने के लिए खुद को अधिक बार बुलाएंगे। आप एक ऐसी स्थिति में नहीं रहना चाहते हैं जहां एक सांख्यिकीय समीक्षक द्वारा आवश्यक परीक्षण आपको लगता है कि आपके पेपर का एक महत्वपूर्ण बिंदु था।


मैं इस टिप्पणी से पूरी तरह सहमत हूं, जो मुझे लगता है कि बहुत महत्वपूर्ण है।
एडम रॉबिंसन

9

मैं एक मध्यवर्ती दृष्टिकोण से उत्तर दूंगा। मैं एक सांख्यिकीविद् नहीं हूँ, मैं रसायनज्ञ हूँ। हालाँकि, मैंने पिछले 10 वर्षों को रसायन विज्ञान से संबंधित = रसायन विज्ञान से संबंधित डेटा के लिए सांख्यिकीय डेटा विश्लेषण में बिताया है।

मैं बस मानता हूं कि शोधकर्ता अपने आंकड़ों को अच्छी तरह से नहीं कर रहे हैं।

शायद यही बात है।


लघु संस्करण:

अब मान्यताओं के बारे में। IMHO की स्थिति यहाँ तक कि एक बयान में इससे निपटने के लिए बहुत विषम है। दोनों को समझना कि वास्तव में धारणा की आवश्यकता क्या है और किस तरह से इसका उल्लंघन होने की संभावना है, यह निर्धारित करने के लिए कि क्या नुकसान हानिरहित या महत्वपूर्ण है, यह निर्धारित करने के लिए आवेदन द्वारा आवश्यक है। और इसके लिए दोनों आंकड़ों के साथ-साथ एप्लिकेशन ज्ञान की भी आवश्यकता है।
हालांकि, एक चिकित्सक को अस्वीकार्य मान्यताओं का सामना करना पड़ रहा है, हालांकि, मुझे कुछ और भी चाहिए: मुझे "रक्षा की 2 वीं पंक्ति" चाहिए, जैसे कि मुझे न्याय करने की अनुमति देता है कि क्या उल्लंघन वास्तव में परेशानी पैदा कर रहा है या क्या यह हानिरहित है।


दीर्घ संस्करण:

  • व्यावहारिक दृष्टिकोण से, कुछ विशिष्ट धारणाएं लगभग कभी नहीं मिलती हैं। कभी-कभी मैं डेटा के बारे में समझदार धारणाएं बना सकता हूं, लेकिन अक्सर तब समस्याएं सांख्यिकीय दृष्टि से इतनी जटिल हो जाती हैं कि समाधान अभी तक ज्ञात नहीं हैं। अब तक मेरा मानना ​​है कि विज्ञान करने का अर्थ है कि आप उन सीमाओं को मारेंगे जो न केवल आपके विशेष अनुशासन में, बल्कि शायद अन्य विषयों में भी ज्ञात हैं (यहाँ: लागू आँकड़े)।

  • ऐसी अन्य स्थितियाँ हैं जहाँ कुछ उल्लंघनों को आमतौर पर हानिरहित माना जाता है - उदाहरण के लिए LDA के लिए समान सहसंयोजक के साथ बहुभिन्नरूपी सामान्यता यह दर्शाने के लिए आवश्यक है कि LDA इष्टतम है, लेकिन यह सर्वविदित है कि प्रक्षेपण एक अनुमानी का अनुसरण करता है जो अक्सर अच्छी तरह से होता है यदि धारणा पूरी नहीं हुई है। और किन उल्लंघनों से परेशानी होने की संभावना है: यह भी ज्ञात है कि वितरण में भारी गड़बड़ी एलडीए के साथ व्यवहार में समस्याएं पैदा करती हैं।
    दुर्भाग्य से, ऐसा ज्ञान शायद ही कभी एक पत्र के संघनित लेखन में बनाता है, इसलिए पाठक को कोई सुराग नहीं है कि क्या लेखकों ने आवेदन के गुणों के साथ-साथ मॉडल के गुणों पर विचार करने के बाद भी निर्णय लिया है या क्या उन्होंने जो भी मॉडल चुना है वे भर आए।

  • कभी-कभी व्यावहारिक दृष्टिकोण (ह्यूरिस्टिक्स) विकसित होते हैं जो व्यावहारिक दृष्टिकोण से बहुत उपयोगी होते हैं, भले ही उनके सांख्यिकीय गुणों को समझने में दशकों लगें (मैं पीएलएस के बारे में सोच रहा हूं)।

  • दूसरी चीज जो होती है (और अधिक होनी चाहिए) वह यह है कि उल्लंघन के संभावित परिणामों की निगरानी की जा सकती है (मापा जाता है), जो यह तय करने की अनुमति देता है कि कोई समस्या है या नहीं। आवेदन के लिए, शायद मुझे परवाह नहीं है कि क्या मेरा मॉडल इष्टतम है जब तक कि यह पर्याप्त रूप से अच्छा है।
    केमोमेट्रिक्स में, हम भविष्यवाणी पर अधिक मजबूत ध्यान केंद्रित करते हैं। और मॉडलिंग मान्यताओं के पूरा न होने की स्थिति में यह बहुत अच्छा पलायन है: उन मान्यताओं की परवाह किए बिना, हम यह माप सकते हैं कि क्या मॉडल अच्छा काम करता है। एक प्रैक्टिशनर के दृष्टिकोण से, मैं कहूंगा कि आपको अपनी मॉडलिंग के दौरान जो कुछ भी पसंद है उसे करने की अनुमति है यदि आप करते हैं और एक ईमानदार अत्याधुनिक सत्यापन की रिपोर्ट करते हैं।
    स्पेक्ट्रोस्कोपिक डेटा के केमोमेट्रिक विश्लेषण के लिए, हम एक ऐसे बिंदु पर हैं जहाँ हम अवशिष्टों को नहीं देखते हैं क्योंकि हम जानते हैं कि मॉडल आसानी से तैयार नहीं होते हैं। इसके बजाय हम परीक्षण डेटा प्रदर्शन को देखते हैं (और संभवतः डेटा प्रीडेविट प्रदर्शन प्रशिक्षण के लिए अंतर)।

  • ऐसी अन्य स्थितियां हैं, जबकि हम यह अनुमान लगाने में सक्षम नहीं हैं कि मॉडल के टूटने के कारण किस उल्लंघन का कितना उल्लंघन होता है, लेकिन हम सीधे तौर पर धारणा के गंभीर उल्लंघन के परिणामों को मापने में सक्षम हैं।
    अगला उदाहरण: मैं जिस डेटा का अध्ययन करता हूं, वह आमतौर पर नमूना आकारों के नीचे परिमाण का आदेश होता है, जो सांख्यिकीय नियम-प्रति-अंगूठा प्रति चर के मामलों के लिए सुझाते हैं (स्थिर अनुमानों की गारंटी के लिए)। लेकिन आंकड़ों की किताबें आमतौर पर इस बात की ज्यादा परवाह नहीं करती हैं कि अगर इस धारणा को पूरा नहीं किया जा सकता है तो क्या करना है। न ही कैसे मापें कि क्या आप वास्तव में इस संबंध में परेशानी में हैं। लेकिन: ऐसे सवालों का व्यवहार अधिक लागू विषयों में किया जाता है। निकलता है, यह अक्सर मॉडल स्थिरता को मापने के लिए या आपकी भविष्यवाणियों को अस्थिर करने के लिए सीधे मापना काफी आसान होता है (सीवी पर यहां पढ़ें पुनरावर्तन सत्यापन और मॉडल स्थिरता पर)। और अस्थिर मॉडल (जैसे बैगिंग) को स्थिर करने के तरीके हैं।

  • "रक्षा की दूसरी पंक्ति" के एक उदाहरण के रूप में, मान को फिर से शुरू करने पर विचार करें। सामान्य और मजबूत धारणा यह है कि सभी सरोगेट मॉडल पूरे डेटा सेट पर प्रशिक्षित मॉडल के बराबर हैं। यदि इस धारणा का उल्लंघन किया जाता है, तो हमें प्रसिद्ध निराशावादी पूर्वाग्रह मिलता है। दूसरी पंक्ति यह है कि कम से कम सरोगेट मॉडल एक दूसरे के समतुल्य हैं, इसलिए हम परीक्षण के परिणामों को पूल कर सकते हैं।


अंतिम लेकिन कम से कम, मैं "ग्राहक वैज्ञानिकों" और सांख्यिकीविदों को एक दूसरे के साथ अधिक बोलने के लिए प्रोत्साहित करना चाहूंगा । सांख्यिकीय डेटा विश्लेषण IMHO एक ऐसी चीज़ नहीं है जिसे एक तरफ़ा फ़ैशन में किया जा सकता है। कुछ बिंदु पर, प्रत्येक पक्ष को दूसरे पक्ष के कुछ ज्ञान प्राप्त करने की आवश्यकता होगी। मैं कभी-कभी सांख्यिकीविदों और रसायनज्ञों और जीवविज्ञानियों के बीच "अनुवाद" करने में मदद करता हूं। एक सांख्यिकीविद् जान सकता है कि मॉडल को नियमितीकरण की आवश्यकता है। लेकिन LASSO और रिज के बीच चयन करने, कहने के लिए, उन्हें डेटा के गुणों को जानना होगा जो केवल केमिस्ट, भौतिक विज्ञानी या जीवविज्ञानी ही जान सकते हैं।


6

यह देखते हुए कि सीवी सांख्यिकीविदों और जो लोग उत्सुक हैं, यदि सक्षम नहीं हैं, तो आंकड़ों के बारे में, मैं सभी उत्तरों के बारे में आश्चर्यचकित नहीं हूं, जो मान्यताओं को समझने की आवश्यकता पर जोर देते हैं। मैं इन उत्तरों से भी सहमत हूं।

हालांकि, जब प्रकाशित करने के लिए दबाव और सांख्यिकीय अखंडता के लिए निम्न मानक वर्तमान में हैं, तो मुझे कहना होगा कि ये उत्तर काफी भोले हैं। हम लोगों को बता सकते हैं कि उन्हें पूरे दिन क्या करना चाहिए (यानी आपकी धारणा की जाँच करें), लेकिन वे जो करेंगे वह पूरी तरह से इंस्टेंट प्रोत्साहन पर निर्भर करेगा । ओपी स्वयं कहता है कि वह मॉडल की धारणा को समझे बिना 20 लेख प्रकाशित करने का प्रबंधन करता है। मेरे अपने अनुभव को देखते हुए, मुझे यह विश्वास करना मुश्किल नहीं है।

इस प्रकार, मैं ओपी के सवाल का जवाब देते हुए सीधे तौर पर शैतान के वकील की भूमिका निभाना चाहता हूं। यह किसी भी तरह से एक जवाब नहीं है जो "अच्छे अभ्यास" को बढ़ावा देता है, लेकिन यह एक ऐसा है जो दर्शाता है कि चीजों को व्यंग्य के संकेत के साथ कैसे अभ्यास किया जाता है।

क्या यह अतिरिक्त प्रयास के लायक है?

नहीं, यदि लक्ष्य प्रकाशित करना है, तो यह हर समय मॉडल को समझने में खर्च करने के लिए इसके लायक नहीं है। बस साहित्य में प्रचलित मॉडल का पालन करें। इस तरह, 1) आपका पेपर अधिक आसानी से समीक्षा पास करेगा, और 2) "सांख्यिकीय अक्षमता" के लिए उजागर होने का जोखिम छोटा है, क्योंकि आपको उजागर करने का अर्थ है कई वरिष्ठ लोगों सहित पूरे क्षेत्र को उजागर करना।

क्या यह संभावना नहीं है कि सभी प्रकाशित परिणामों के बहुमत इन मान्यताओं का सम्मान नहीं करते हैं और शायद उनका आकलन भी नहीं किया है? यह संभवतः एक बढ़ता हुआ मुद्दा है क्योंकि डेटाबेस हर दिन बड़ा होता है और एक धारणा है कि डेटा जितना बड़ा होता है, उतना ही कम महत्वपूर्ण मान्यताओं और मूल्यांकन होता है।

हां, यह संभावना है कि अधिकांश प्रकाशित परिणाम सत्य नहीं हैं। जितना अधिक मैं वास्तविक अनुसंधान में शामिल हूं, उतना ही मुझे लगता है कि यह संभावना है।


1
मुझे लगता है कि आपके पास कुछ बहुत अच्छे बिंदु हैं जो ऊपर वर्णित नहीं हैं; अर्थात् जर्नल को भरने के लिए लेखों को प्रकाशित करने के लिए प्रकाशन और पत्रिकाओं पर दबाव। संपादकों के लिए प्रकाशित करने के लिए लेख नहीं होना एक बुरा सपना है, और शोधकर्ताओं को उनके अस्तित्व के लिए प्रकाशित करना चाहिए। हालाँकि, एक पद्धतिगत दृष्टिकोण से, जितना अधिक मैं अनुसंधान में शामिल होता हूं, उतना ही मैं यह मानता हूं कि अधिकांश प्रकाशित निष्कर्ष गलत हैं (एक सांख्यिकीय दृष्टिकोण से) अलग-अलग डिग्री के लिए गलत / कम सही / अपूर्ण हैं।
एडम रॉबिंसन

4

संक्षिप्त जवाब नहीं है।" सांख्यिकीय विधियों को मान्यताओं के सेट के तहत विकसित किया गया था जो कि मान्य होने के परिणामों के लिए मिलना चाहिए। यह तर्क के लिए खड़ा है, कि अगर मान्यताओं को पूरा नहीं किया गया, तो परिणाम मान्य नहीं हो सकते हैं। बेशक, कुछ अनुमान मॉडल मान्यताओं के उल्लंघन के बावजूद मजबूत हो सकते हैं। उदाहरण के लिए, बहुराष्ट्रीय लॉग आईआईए धारणा के उल्लंघन के बावजूद अच्छा प्रदर्शन करते हैं (नीचे दिए गए संदर्भ में क्रोपको के [2011] शोध प्रबंध देखें)।

वैज्ञानिकों के रूप में, हमारा यह दायित्व है कि हम यह सुनिश्चित करें कि जो नतीजे हमारे सामने हैं, वे मान्य हों, भले ही क्षेत्र के लोग इस बात की परवाह न करें कि क्या धारणाएं पूरी हुई हैं। ऐसा इसलिए है क्योंकि विज्ञान इस धारणा पर बनाया गया है कि वैज्ञानिक तथ्यों की खोज में चीजों को सही तरीके से करेंगे। हम अपने सहयोगियों को पत्रिकाओं से बाहर भेजने से पहले उनके काम की जांच करने के लिए भरोसा करते हैं। हम रेफरियों पर विश्वास करते हैं कि यह प्रकाशित होने से पहले किसी पांडुलिपि की सक्षम समीक्षा करें। हम मान लेते हैंशोधकर्ताओं और रेफरी दोनों को पता है कि वे क्या कर रहे हैं, ताकि पीयर-रिव्यू किए गए जर्नल में प्रकाशित होने वाले पत्रों में परिणामों पर भरोसा किया जा सके। हम जानते हैं कि यह वास्तविक दुनिया में हमेशा साहित्य में लेखों की मात्रा पर आधारित नहीं होता है जहाँ आप अंत में अपना सिर हिलाते हैं और सम्मानजनक पत्रिकाओं में स्पष्ट रूप से चेरी से चुने गए परिणामों पर अपनी आँखें घुमाते हैं (" जामा ने इस पत्र को प्रकाशित किया है ") ")।

तो नहीं, महत्व को अतिरंजित नहीं किया जा सकता है, खासकर जब से लोग आप पर भरोसा करते हैं - विशेषज्ञ - आपके उचित परिश्रम के लिए। कम से कम आप इन उल्लंघनों के बारे में अपने पेपर के "सीमाओं" खंड में बात कर सकते हैं ताकि लोगों को आपके परिणामों की वैधता की व्याख्या करने में मदद मिल सके।

संदर्भ

क्रोपको, जे। 2011. राजनीतिक अनुसंधान के लिए विकल्प और समय-श्रृंखला क्रॉस-सेक्शन पद्धति को त्यागने के लिए नए दृष्टिकोण (शोध प्रबंध)। यूएनसी-चैपल हिल, चैपल हिल, नेकां।


मैं इन मूल्यवान टिप्पणियों से सहमत हूं। लेकिन क्या आपको नहीं लगता कि "अवैध" में "अमान्य" नहीं हो सकता है, यही कारण है कि लोग उनके बारे में बहुत अधिक परेशान नहीं कर सकते हैं। मेरा मानना ​​है कि एक परिकल्पना का मात्र अस्तित्व विश्लेषण पूर्वाग्रह पैदा कर सकता है जो इस मुद्दे के लिए प्रासंगिक है।
एडम रॉबिंसन

TIL Kropko एक CV उपयोगकर्ता है।
मोनिका को बहाल करें

@AdamRobinsson, मुझे लगता है कि लोग उनके साथ परेशान नहीं करते क्योंकि वे पूरी तरह से नहीं समझते कि परिणाम कैसे या क्यों अमान्य हो सकते हैं। समस्या का एक बड़ा हिस्सा "लागू" फ़ील्ड में सांख्यिकी शिक्षा में है। मेरा अपना प्रशिक्षण एक लागू क्षेत्र में है। मेरे अर्थमिति- lite वर्गों ने पूर्ण अर्थमिति कक्षाएं होने के बारे में कोई दिखावा नहीं किया और उन्हें "उन्नत अनुसंधान विधियाँ" या ऐसा कुछ कहा गया। क्योंकि कोई आँकड़े नहीं थे, स्टाटा आदेशों पर अधिक समय बिताने और परिणामों की व्याख्या करने के पक्ष में मॉडल की धारणाओं पर प्रोफेसर चमकेंगे।
मारकिस डे कारबास

@AdamRobinsson, पहली बार जब मैं एक स्नातक कार्यक्रम में था, तो यह एक लागू क्षेत्र के लिए भी था, लेकिन कक्षाओं को बायोस्टेटिस्ट द्वारा सिखाया गया था। बायोस्टैटिस्टिशियन ने मॉडल मान्यताओं और विभिन्न जांचों के बारे में गहराई से सिखाया, जो हम करने वाले हैं, क्योंकि कक्षा में कुछ छात्र बायोस्टैटिस्टिक्स के छात्र थे। हालाँकि, यह स्पष्ट था कि इन कक्षाओं में रहने वाले बाकी छात्रों को यह समझ में नहीं आया कि हम उन मान्यताओं की जाँच क्यों कर रहे हैं, क्योंकि छात्रों द्वारा समझी जाने वाली भाषा में प्राध्यापकों ने महत्व का संचार नहीं किया है।
मारकिस डे कारबास

1
@marquisdecarabas, सहमत उन्हें नहीं समझना एक बुनियादी मुद्दा है, जाहिर है। हालांकि, मुझे कभी-कभी आश्चर्य होता है कि यह डेटा हेरफेर पर खर्च किए गए समय की भारी मात्रा के कारण नहीं था, जो नालियों को मान्यताओं को लेने की लालसा रखते हैं।
एडम रॉबिंसन

2

यदि आपको बहुत उन्नत आंकड़ों की आवश्यकता है, तो इसकी सबसे अधिक संभावना है क्योंकि आपका डेटा एक गड़बड़ है, जो कि अधिकांश सामाजिक विज्ञानों के मामले में है, मनोविज्ञान का उल्लेख नहीं करना। उन क्षेत्रों में जहां आपके पास अच्छा डेटा है, आपको बहुत कम आँकड़े चाहिए। भौतिकी एक बहुत अच्छा उदाहरण है।

अपने प्रसिद्ध गुरुत्वाकर्षण त्वरण प्रयोग पर गैलीलियो के इस उद्धरण पर विचार करें:

लकड़ी की ढलाई या खुरचन का एक टुकड़ा, लगभग 12 हाथ लंबा, आधा हाथ चौड़ा, और तीन अंगुल-मोटा, लिया जाता था; इसके किनारे पर एक चैनल को चौड़ाई में एक उंगली से थोड़ा अधिक काट दिया गया था; इस खांचे को बहुत सीधा, चिकना और पॉलिश किया गया है, और इसे चर्मपत्र के साथ पंक्तिबद्ध किया गया है, जितना संभव हो उतना चिकनी और पॉलिश किया गया है, हमने इसे एक कठिन, चिकनी और बहुत गोल कांस्य गेंद के साथ घुमाया। इस बोर्ड को ढलान वाली स्थिति में रखने के बाद, एक छोर को एक या दो हाथ ऊपर उठाकर, हमने गेंद को लुढ़काया, जैसा कि मैं अभी कह रहा था, चैनल के साथ, नोटिंग, वर्तमान में वर्णित तरीके से, समय की आवश्यकता है वंश बनाने के लिए। हमने इस प्रयोग को एक सटीकता के साथ समय को मापने के लिए एक से अधिक बार दोहराया ताकि दो अवलोकनों के बीच विचलन एक नाड़ी-बीट के दसवें से अधिक न हो। इस ऑपरेशन को करने और अपनी विश्वसनीयता सुनिश्चित करने के बाद, हमने अब गेंद को केवल एक-चौथाई चैनल की लंबाई में लुढ़काया; और इसके वंश के समय को मापने के बाद, हमने इसे पूर्व का एक-आधा भाग पाया। आगे हमने अन्य दूरियों की कोशिश की, आधी के लिए पूरी लंबाई के लिए समय की तुलना की, या उसके साथ दो-तिहाई के लिए, या तीन-चौथाई के लिए, या वास्तव में किसी भी अंश के लिए; इस तरह के प्रयोगों में, पूरे सौ बार दोहराया गया, हमने हमेशा पाया कि ट्रेस किए गए स्थान एक-दूसरे के समय के वर्गों के रूप में थे, और यह विमान के सभी झुकावों के लिए सही था, अर्थात, चैनल के साथ, जिसके साथ हम लुढ़के थे। गेंद। हमने यह भी देखा कि विमान के विभिन्न झुकावों के लिए वंश का समय, एक दूसरे से ठीक उसी अनुपात में ऊबता है, जैसा कि हम बाद में देखेंगे,

समय की माप के लिए, हमने एक ऊंचे स्थान पर रखा पानी का एक बड़ा बर्तन काम में लिया; इस जहाज के निचले हिस्से में पानी के एक पतले जेट देने वाले छोटे व्यास के एक पाइप को मिलाया गया था जिसे हमने प्रत्येक वंश के समय एक छोटे गिलास में एकत्र किया था, चाहे वह चैनल की पूरी लंबाई के लिए हो या उसकी लंबाई के हिस्से के लिए; इस प्रकार एकत्र किए गए पानी को बहुत सटीक संतुलन पर प्रत्येक वंश के बाद तौला गया; इन वज़न के अंतर और अनुपात ने हमें समय के अंतर और अनुपात दिए, और यह इतनी सटीकता के साथ कि यद्यपि ऑपरेशन कई बार दोहराया गया, कई बार, परिणामों में कोई प्रशंसनीय विसंगति नहीं थी

मेरे द्वारा हाइलाइट किए गए पाठ पर ध्यान दें। यह अच्छा डेटा है। यह एक अच्छे सिद्धांत पर आधारित एक सुनियोजित प्रयोग से आता है। आपको जिस चीज़ में दिलचस्पी है उसे निकालने के लिए आंकड़ों की ज़रूरत नहीं है। उस समय कोई आँकड़े नहीं थे, न ही कंप्यूटर थे। नतीजा? एक सुंदर मौलिक संबंध, जो अभी भी धारण करता है, और 6 वें ग्रेडर द्वारा घर पर परीक्षण किया जा सकता है।

मैंने इस भयानक पृष्ठ का उद्धरण चुरा लिया ।

अद्यतन: @Silverfish टिप्पणी के लिए, यहाँ प्रयोगात्मक कण भौतिकी में आँकड़ों का एक उदाहरण है । बहुत बुनियादी, हुह? बमुश्किल एमबीए स्तर पर। ध्यान दें, वे कैसे प्यार करते हैं :) कि, सांख्यिकीविदों ले लो!χ2


2
"उन क्षेत्रों में जहां आपके पास अच्छा डेटा है, आपको बहुत कम आंकड़ों की आवश्यकता है। भौतिकी एक बहुत अच्छा उदाहरण है।" मैं इस बिंदु को देख सकता हूं, लेकिन यह इंगित करने योग्य है कि कण भौतिकविदों के पास डेटा की बहुतायत है और उनका विश्लेषण करने के लिए उन्नत सांख्यिकीय तकनीकों की एक पूरी श्रृंखला विकसित की है।
सिल्वरफिश

@Silverfish, क्या आप मुझे वहां के उन्नत आंकड़ों का उदाहरण दे सकते हैं? मैंने जो देखा है उसने मुझे बहुत प्रभावित नहीं किया है। एक औसत ईकॉन पीएचडी छात्र मेरी राय में, विश्व स्तर के कण भौतिक विज्ञानी की तुलना में अधिक आँकड़े जानेंगे। भौतिक विज्ञानी वास्तव में क्या अच्छे हैं, सांख्यिकीय यांत्रिकी जैसी चीजें हैं, लेकिन हम "उन्नत आंकड़े" कहते हैं, यह बहुत अलग है। मैं पूरी तरह से आपके साथ सहमत हूँ कि उनके डेटासेट मन से टकरा रहे हैं, उन्होंने "बिग डेटा" एक कष्टप्रद चर्चा शब्द बनने से पहले बड़ा डेटा शुरू किया।
अक्कल

1
उनके पास विशेष रूप से मापदंडों के लिए "आत्मविश्वास अंतराल" पर काफी दिलचस्प है, जो नकारात्मक नहीं हो सकता है, उदाहरण के लिए देखें। en.wikipedia.org/wiki/CLs_upper_limits_%28particle_physics%29
सिल्वरफिश

(मुझे लगता है कि कण
सांख्यिकीविद

@ अक्सकल, मेरी व्यक्तिगत समझ यह है कि बेइज़ियन तरीके चमत्कार करते हैं जब थोड़ी मॉडल अनिश्चितता होती है, अर्थात, हार्ड विज्ञान जहां मॉडल जो भी श्रोडिंगर समीकरण हैं वह आपको कुछ 5,000-आयामी एकीकरण के बाद देता है। अर्थशास्त्र में, बायेसियन दृष्टिकोण शायद ही कभी जीवित प्रायोगिक शोधकर्ताओं के ध्यान को ध्यान में रखते हुए बच जाएगा, जो संभावित प्रमुख मॉडल प्रक्षेपन के लिए मजबूत है। (मैं एक स्नातक की डिग्री के द्वारा भौतिक विज्ञानी हूं, हालांकि 20+ वर्षों में कोई भौतिकी नहीं किया है, और अब काम की रेखा से एक मात्रात्मक सामाजिक वैज्ञानिक है।)
StasK

2

यह सवाल पेशेवर ईमानदारी का मामला लगता है।

समस्या यह है कि या तो लगता है: (ए) आम व्यक्तियों द्वारा सांख्यिकीय विश्लेषण का पर्याप्त महत्वपूर्ण मूल्यांकन नहीं है या (बी) सामान्य ज्ञान का एक मामला सांख्यिकीय त्रुटि की पहचान करने के लिए अपर्याप्त है (जैसे टाइप 2 त्रुटि)?

जब मैं उस विशेषज्ञता की सीमा के पास होता हूं, तो विशेषज्ञों के इनपुट का अनुरोध करने के लिए अपनी विशेषज्ञता के क्षेत्र के बारे में पर्याप्त जानता हूं। मैंने देखा है कि लोग बिना पर्याप्त ज्ञान के एफ-टेस्ट (और एक्सेल में आर-स्क्वेर) जैसी चीजों का उपयोग करते हैं।

मेरे अनुभव में, शिक्षा प्रणालियों ने, आंकड़ों को बढ़ावा देने की हमारी उत्सुकता में, उपकरणों को सरल बना दिया है और जोखिमों / सीमाओं को समझा है। क्या यह एक सामान्य विषय है जिसे अन्य लोगों ने अनुभव किया है और स्थिति की व्याख्या करेगा?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.