आंकड़ों में गैर-तकनीकी अभी तक गहरे लेखों के लिए सिफारिशें


24

इस सवाल के लिए प्रेरणा देर लियो-ब्रेमेन के प्रसिद्ध लेख सांख्यिकीय मॉडलिंग: द टू कल्चर (उपलब्ध खुली पहुंच) से मिलती है । लेखक तुलना करता है कि वह डेटा का विश्लेषण करने के लिए दो विषम दृष्टिकोणों के रूप में क्या देखता है, शास्त्रीय आंकड़ों और मशीन सीखने के प्रमुख विचारों पर छू रहा है। हालांकि, लेख एक व्यापक दर्शकों के लिए समझदारी है - यकीनन जो भी डेटा के साथ काम करता है, चाहे वे डॉक्टरेट स्तर पर आंकड़ों का पीछा किया हो या केवल एक परिचयात्मक पाठ्यक्रम लिया हो। इसके अलावा, लेख उत्तेजक है । यही है, यह आसानी से चर्चा उत्पन्न करता है (जैसा कि एक ही अंक में प्रकाशित जीवंत टिप्पणियों की श्रृंखला से स्पष्ट है)।

मैं इन गुणों के साथ और अधिक लेख खोजने के लिए उत्सुक हूं। यह है कि, लेख:

  • सांख्यिकी / डेटा विश्लेषण में मौलिक अवधारणाओं पर स्पर्श करें
  • अनुसंधान-फ़ोकस और औपचारिक सांख्यिकीय प्रशिक्षण में भिन्नता के संदर्भ में व्यापक दर्शकों द्वारा समझा जा सकता है
  • चर्चा को उत्तेजित करें, चाहे अंतर्दृष्टि या विवाद के माध्यम से

2
अब तक के जवाब बहुत दिलचस्प रहे हैं! उन्हें आने दो। निश्चित रूप से, मैं किसी भी उत्तर को meta.stats.stackexchange.com/questions/409/… के
रिचर्ड बॉर्डर

2
आंकड़ों के लिए कोई रॉयल रोड नहीं है ।
अक्कल

जवाबों:


15

श्मुइली, गैलिट। "समझाने या भविष्यवाणी करने के लिए?" सांख्यिकीय विज्ञान (2010): 289-310।

मेरा मानना ​​है कि यह आपके तीन बुलेट पॉइंट से मेल खाता है।

यह व्याख्यात्मक बनाम भविष्य कहनेवाला मॉडलिंग (शर्तों को स्व-व्याख्यात्मक होना चाहिए) के बारे में बात करता है और नोट करता है कि उनके बीच के मतभेदों को अक्सर मान्यता नहीं दी जाती है।

यह इस बिंदु को बढ़ाता है कि मॉडलिंग के लक्ष्य (व्याख्यात्मक बनाम भविष्य कहनेवाला) के आधार पर, विभिन्न मॉडल निर्माण रणनीतियों का इस्तेमाल किया जा सकता है और विभिन्न मॉडलों को "सर्वश्रेष्ठ" मॉडल के रूप में चुना जा सकता है।

यह एक व्यापक पेपर और एक आनंददायक रीड है। इसकी एक चर्चा रोब जे। हयंडमैन के ब्लॉग पोस्ट में संक्षेप में दी गई है । क्रॉस मान्य पर एक संबंधित चर्चा इस धागे में है (बहुत सारे अपवोट के साथ)। इसी विषय पर एक और (अनुत्तरित) सवाल यह है


12

लेहमैन, एरिच एल। "द फ़िशर, नेमन-पियर्सन परिकल्पनाओं के परीक्षण के सिद्धांत: एक सिद्धांत या दो ?." जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 88.424 (1993): 1242-1249।

यह बहुतों को पता नहीं है, लेकिन जब पेशे के दिग्गज अभी भी हमारे बीच थे, तो वे एक-दूसरे के साथ ठीक नहीं हुए। विशेष रूप से परिकल्पना परीक्षण की नींव पर बहस, चाहे वह आगमनात्मक या कटौतीत्मक हो, कुछ मछुआरों के बीच कुछ सुंदर गंभीर अपमानों को देखा, एक ओर नेमन-पीयरसन। और इस मुद्दे को उनके जीवनकाल के दौरान कभी सेट नहीं किया गया था।

लंबे समय के बाद वे सभी पास हो गए, लेहमैन ने अंतर को पाटने की कोशिश की और मेरी राय में एक अच्छा काम करता है क्योंकि वह दिखाता है कि दृष्टिकोण परस्पर अनन्य होने के बजाय पूरक हैं। यह वही है जो आजकल छात्र सीखते हैं। आपको परिकल्पना परीक्षण के बारे में कुछ बुनियादी बातें जानने की जरूरत है लेकिन आप अन्यथा बिना किसी समस्या के कागज का पालन कर सकते हैं।


1
प्रशस्ति पत्र के लिए धन्यवाद। मैंने एक बार एफ और एनपी दृष्टिकोणों के बीच कथित संघर्ष के बारे में एक सवाल पूछा है: आंकड़े.stackexchange.com/questions/112769 , और बहुत सारे ध्यान और उठाव के बावजूद मुझे प्राप्त हुआ मैं अभी भी किसी भी मौजूदा जवाब से आश्वस्त नहीं हूं (और नहीं किया किसी भी स्वीकार करें)। मैं उस धागे पर वापस जाने और कुछ पढ़ने / कुछ करने या कुछ करने की योजना बनाता हूं, लेकिन कभी समय नहीं पाता; यदि आप लेहमैन के कागज से परिचित हैं तो मैं आपको वहाँ एक उत्तर देने के लिए प्रोत्साहित करूँगा।
अमीबा का कहना है कि

@amoeba मैंने लेहमैन के पेपर को बार-बार पढ़ा है, यह बहुत पठनीय है लेकिन मुझे नहीं लगता कि मैंने इस मामले पर आपके साथ भी शोध किया है। इसलिए जब भी आपके पास समय होगा तो आपके लिए एक अच्छा विचार होगा कि आप उस पर जाएं और उसकी बातों को देखें। आपको विशेष रूप से Behrens-Fisher समस्या की चर्चा मिलेगी।
जॉनक

साझा करने के लिए धन्यवाद। हो सकता है कि मैंने जो कुछ सुना है वह एकतरफा हो, लेकिन सर रॉन फिशर के बारे में मैंने जो कुछ भी सुना है वह यह है कि वह कम से कम कहने के लिए एक अप्रिय व्यक्ति था। तंबाकू के उपयोग और फेफड़ों के कैंसर के बीच के लिंक पर भी उनकी कुछ संदेहास्पद राय थी ।
फिल

लेख के लिए एक "हल्का" विकल्प क्रिस्टेंसन, रोनाल्ड है। "परीक्षण फिशर, नेमन, पियर्सन, और बेयस।" द अमेरिकन स्टेटिस्टिशियन 59.2 (2005): 121-126। मुझे यह सुखद लगा।
रिचर्ड हार्डी

9

विल्क, एमबी और ज्ञानादिकान, आर। 1968। डेटा के विश्लेषण के लिए संभावना प्लॉटिंग के तरीके। बायोमेट्रिक 55: 1-17। अगर आपके पास पहुंच है तो Jstor लिंक

यह पत्र, मेरे लेखन के समय, लगभग 50 वर्ष पुराना है, लेकिन अभी भी ताजा और अभिनव लगता है। दिलचस्प और पर्याप्त उदाहरणों की एक समृद्ध विविधता का उपयोग करते हुए, लेखक क्यूक्यू (क्वांटाइल-क्वांटाइल) और पीपी (प्रायिकता-प्रायिकता) भूखंडों के ढांचे का उपयोग करके वितरण की साजिश रचने और तुलना करने के लिए विभिन्न विचारों को एकजुट और विस्तारित करते हैं। यहां वितरण का मतलब है कि उनके विश्लेषण में उत्पन्न होने वाले डेटा या संख्याओं (अवशेषों, विरोधाभासों, आदि, आदि) के किसी भी सेट।

इन भूखंडों के विशेष संस्करण कई दशकों तक वापस चले जाते हैं, सबसे स्पष्ट रूप से सामान्य संभावना या सामान्य स्कोर वाले भूखंड। जो इन शब्दों में हैं क्वांटाइल-क्वांटाइल प्लॉट, अर्थात् एक सामान्य (गौसियन) वितरण से एक ही आकार के नमूने से अपेक्षित क्वांटाइल्स बनाम अपेक्षित क्वांटिकल या सैद्धांतिक क्वांटाइल्स। लेकिन लेखक दिखाते हैं, मामूली रूप से अभी तक आत्मविश्वास से, कि समान विचारों को आसानी से बढ़ाया जा सकता है - और व्यावहारिक रूप से आधुनिक कंप्यूटिंग के साथ - अन्य प्रकार के क्वांटाइल्स की जांच करने और परिणामों को स्वचालित रूप से प्लॉट करने के लिए।

लेखकों, फिर बेल टेलीफोन प्रयोगशालाओं में, दोनों ने अत्याधुनिक कंप्यूटिंग सुविधाओं का आनंद लिया, और यहां तक ​​कि कई विश्वविद्यालयों और शोध संस्थानों ने इसे पकड़ने के लिए एक या दो दशक का समय लिया। अब भी, इस पत्र के विचारों को उनके द्वारा प्राप्त व्यापक आवेदन के लायक है। यह एक दुर्लभ परिचयात्मक पाठ या पाठ्यक्रम है जिसमें सामान्य क्यूक्यू भूखंड के अलावा इन विचारों में से कोई भी शामिल है। हिस्टोग्राम और बॉक्स भूखंड (प्रत्येक अक्सर अत्यधिक उपयोगी होते हैं, लेकिन फिर भी प्रत्येक अजीब और कई मायनों में सीमित) वितरण के भूखंडों को पेश किए जाने पर मुख्य स्टेपल होते हैं।

व्यक्तिगत स्तर पर, भले ही इस पत्र के मुख्य विचार मेरे अधिकांश करियर के लिए परिचित रहे हों, लेकिन मैं इसे हर दो साल में पढ़ता हूं। एक अच्छा कारण खुशी है जिस तरह से लेखक गंभीर उदाहरणों के साथ अच्छे प्रभाव के लिए सरल लेकिन शक्तिशाली विचारों का उत्पादन करते हैं। एक और अच्छा कारण यह है कि कागज, जो कि संक्षिप्त रूप से लिखा गया है, बिना बम के मामूली निशान के बिना, मुख्य विचारों के विस्तार पर संकेत देता है। एक से अधिक बार, मैंने मुख्य संकेत पर साइड संकेत और आगे की टिप्पणियों में स्पष्ट रूप से कवर किए गए ट्विस्ट किए हैं।

यह विशेष रूप से सांख्यिकीय ग्राफिक्स में रुचि रखने वालों के लिए सिर्फ एक कागज नहीं है, हालांकि मेरे दिमाग में किसी भी तरह के आंकड़ों में रुचि रखने वाले सभी को शामिल करना चाहिए। यह उन वितरणों के बारे में सोचने के तरीकों को बढ़ावा देता है जो व्यावहारिक रूप से किसी के सांख्यिकीय कौशल और अंतर्दृष्टि को विकसित करने में सहायक होते हैं।


2
यह एक बढ़िया विकल्प है। मैंने इसे कई बार पढ़ा है - जैसे ही मैंने आपके उत्तर में लेखकों के नाम देखे, मुझे पता था कि यह कौन सा पेपर था, और सीधे मैं फिर से पढ़ना चाहता था। मुझे लगता है कि मेरे पास इसकी एक प्रति कहीं है ...
Glen_b -Reinstate Monica

6

इयोनिडीस, जॉन पीए "क्यों सबसे प्रकाशित शोध निष्कर्ष गलत हैं।" पीएलओएस मेडिसिन (2005)

Ioannidis, जॉन पीए "कैसे और अधिक प्रकाशित शोध सच बनाने के लिए।" पीएलओएस मेडिसिन (2014)

प्रत्येक शोधकर्ता / सांख्यिकीविद् / विश्लेषक को पढ़ना चाहिए जो अनुसंधान में गलत तरीके से आँकड़ों के उपयोग और व्याख्या करने के खतरों से बचना चाहते हैं। 2005 का लेख सार्वजनिक पुस्तकालय विज्ञान के इतिहास में सबसे अधिक उपयोग किया गया है, और इसने बहुत सारे विवाद और चर्चा को प्रेरित किया।


6

Tukey, जेडब्ल्यू (1960) निष्कर्ष बनाम निर्णय Technometrics 2 (4): 423-433

यह पेपर टुकी की एक रात के खाने के बाद की बातचीत पर आधारित है और एक टिप्पणी है कि 'काफी चर्चा हुई' इसलिए यह आपके डॉट बिंदुओं के कम से कम तीसरे हिस्से से मेल खाता है।

मैंने पहली बार इस पेपर को तब पढ़ा था जब मैं इंजीनियरिंग में पीएचडी पूरा कर रहा था और डेटा विश्लेषण की व्यावहारिकताओं की खोज की सराहना की थी।


लिंक काम नहीं करता है। यह काम करता है
kjetil b halvorsen

5

एफ्रॉन और मॉरिस, 1977, स्टीन के विरोधाभास सांख्यिकी में

इफ्रॉन और मॉरिस ने 1970 के दशक में जेम्स-स्टीन के अनुमानक पर तकनीकी पत्रों की एक श्रृंखला लिखी, जो कि इपेरिकल बेयस संदर्भ में स्टीन के "विरोधाभास" को दर्शाती है। 1977 का पेपर साइंटिफिक अमेरिकन में प्रकाशित एक लोकप्रिय है ।

यह एक बेहतरीन रीड है।


3

खैर, रॉय मॉडल में अधिक रुचि के बावजूद अर्थशास्त्रियों के बीच है (लेकिन मैं गलत हो सकता है), 1951 से इसका मूल पत्र "कुछ विचार वितरण पर आय" , स्व चयन समस्या के बारे में एक व्यावहारिक और गैर-तकनीकी चर्चा है। इस पत्र ने नॉबल पुरस्कार जेम्स हेकमैन द्वारा विकसित चयन मॉडल के लिए प्रेरणा के रूप में कार्य किया। हालांकि, मुझे लगता है कि यह आपके तीन बुलेट बिंदुओं से मेल खाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.