आंकड़ों में एनाक्रोनोस्टिक प्रथाओं के कुछ उदाहरण क्या हैं?


55

मैं उन प्रथाओं का उल्लेख कर रहा हूं जो अभी भी अपनी उपस्थिति बनाए रखते हैं, भले ही समस्याओं (आमतौर पर कम्प्यूटेशनल) के साथ सामना करने के लिए डिज़ाइन किए गए थे ज्यादातर हल हो गए हैं।

उदाहरण के लिए, येट्स 'निरंतरता सुधार के साथ फिशर सटीक परीक्षण अनुमान लगाने के लिए आविष्कार किया गया था परीक्षण, लेकिन यह अब व्यावहारिक है के बाद से सॉफ्टवेयर अब (यहां तक कि बड़े नमूनों के साथ फिशर का परीक्षण संभाल कर सकते हैं मैं जानता हूँ कि यह "को बनाए रखने का एक अच्छा उदाहरण नहीं हो सकता है इसके उपस्थिति ", चूंकि पाठ्यपुस्तकों, जैसे कि एग्रेस्टी के श्रेणीबद्ध डेटा विश्लेषण , अक्सर स्वीकार करते हैं कि येट्स के सुधार की अब आवश्यकता नहीं है")।χ2

ऐसी प्रथाओं के कुछ अन्य उदाहरण क्या हैं?


मैं वास्तव में इतना निश्चित नहीं हूं कि फिशर के सटीक परीक्षण करने के लिए कंप्यूटिंग शक्ति की उपलब्धता से ची-स्क्वेयर परीक्षण अप्रचलित हो गया था, जैसे आपके मार्जिन वास्तव में तय हैं? उदाहरण के लिए, @gung द्वारा एक और प्रश्न का उत्तर देखें । (मुझे पूरा यकीन है कि हमारे पास इस मुद्दे पर अधिक विस्तार से चर्चा करने के लिए एक धागा है, लेकिन मैं इसे नहीं पा सकता हूं क्योंकि हमारे पास बहुत सारे हैं "क्या मुझे ची-स्क्वेर्ड का उपयोग करना चाहिए या क्या मुझे फिशर के सटीक परीक्षण का उपयोग करना चाहिए" प्रश्न जो तब दिखाई देता है जब मैं खोज करता हूं!)
सिल्वरफिश

@Silverfish: मैं यह मतलब नहीं था अप्रचलित बनाया गया था, केवल येट्स 'सुधार था। मेरा मानना ​​है कि अध्ययनों से पता चला है कि जब मार्जिन तय नहीं होते हैं तो येट्स का सुधार बहुत रूढ़िवादी होता है। माइकल हैबर के लेख द कंटिन्यूअसिटी सुधार और सांख्यिकीय परीक्षण ने एक समीक्षा प्रदान की। χ2
फ्रांसिस


LAD के बजाय OLS का उपयोग करना?
पैट्रिक

5
@PatrickT: मुझे ओएलएस एनक्रोनॉस्टिक कहने में बहुत परेशानी होती है। निश्चित रूप से, ऐसे विशेष मामले हैं जब LAD स्पष्ट रूप से श्रेष्ठ है ... लेकिन दूसरी दिशा में भी ऐसा ही कहा जा सकता है।
क्लिफ एबी

जवाबों:


49

यह दृढ़ता से तर्क दिया जाता है कि या पी = 0.01 जैसे दहलीज महत्व स्तरों का उपयोग उस अवधि से एक ऐतिहासिक हैंगओवर है जब अधिकांश शोधकर्ता महत्वपूर्ण मानों की पहले से गणना की गई तालिकाओं पर निर्भर थे। अब अच्छा सॉफ्टवेयर सीधे पी- वैल्यू देगा । वास्तव में, अच्छा सॉफ्टवेयर आपको अपने विश्लेषण को अनुकूलित करने और पाठ्यपुस्तक परीक्षणों पर निर्भर नहीं होने देता है।P=0.05P=0.01P

यह केवल तभी विवादास्पद है क्योंकि कुछ महत्त्वपूर्ण परीक्षण समस्याओं के लिए निर्णयों की आवश्यकता होती है, क्योंकि गुणवत्ता नियंत्रण में जहां बैच को स्वीकार करना या अस्वीकार करना आवश्यक निर्णय होता है, उसके बाद किसी भी तरह से कार्रवाई की जाती है। लेकिन यहां तक ​​कि उपयोग किए जाने वाले थ्रेसहोल्ड को जोखिम विश्लेषण से बाहर बढ़ना चाहिए, परंपरा पर निर्भर नहीं। और अक्सर विज्ञान में, मात्रात्मक संकेतों का विश्लेषण निर्णयों की तुलना में अधिक उपयुक्त होता है: सोच मात्रात्मक रूप से आकार के आकारों पर ध्यान देती है और न कि केवल एक कच्चे द्विभाजन के लिए, महत्वपूर्ण बनाम महत्वपूर्ण नहीं।P

मैं झंडा लगाऊंगा कि मैं यहां एक जटिल और विवादास्पद मुद्दे को छूता हूं, जो पूरी किताबों और शायद हजारों पत्रों पर केंद्रित है, लेकिन यह इस धागे के लिए एक उचित उदाहरण लगता है।


4
महान उदाहरण! संदर्भ के लिए, यह सूत्र ध्यान देने योग्य है: पी-मूल्यों के बारे में, 1% और 5% क्यों? 6% या 10% क्यों नहीं?
फ्रांसिस

5
@ जेएम मैं 95% आश्वस्त हूं कि आप सही हैं, हालांकि मैं 99% आश्वस्त नहीं हूं।
मार्क एल। स्टोन

5
α=0.038561

4
@ क्लिफब मुझे नहीं लगता कि एक सटीक पी-मूल्य का मुख्य बिंदु यह है कि आप तब निर्णय लेते हैं कि यह उस महत्वपूर्ण स्तर का गठन करता है जिसे आप किसी निर्णय के लिए अपनाना चाहते हैं। मैं निश्चित रूप से सुझाव नहीं दे रहा हूं या इसकी वकालत नहीं कर रहा हूं। यहां तर्क का एक हिस्सा सिर्फ यह नहीं है कि 0.05 और 0.01 सर्वश्रेष्ठ पारंपरिक स्तरों पर हैं, बल्कि यह परीक्षण बाइनरी निर्णय लेने के बजाय एक अशक्त परिकल्पना के खिलाफ सबूतों की ताकत का आकलन करने का एक तरीका प्रदान करते हैं। अभ्यास में कई क्षेत्रों में 0.05 और 0.01 का स्तर बहुत अधिक उपयोग किया जाता है।
निक कॉक्स

4
@ निक कॉक्स और रखी-बैक, मधुर भीड़ के लिए 0.1 के स्तर को मत भूलना।
मार्क एल। स्टोन

24

एक तरीका है जो मुझे लगता है कि इस साइट के कई आगंतुक मेरे साथ सहमत होंगे स्टेप वाइज रिग्रेशन। यह अभी भी हर समय किया जाता है , लेकिन आपको इस साइट पर विशेषज्ञों के लिए खोज करने की आवश्यकता नहीं है, जो इसके उपयोग को कम कर रहे हैं। LASSO जैसी विधि को अधिक पसंद किया जाता है।


4
हा !! आप अगली पीढ़ी के एनोक्रोनिज़्म (LASSO) के साथ एनाक्रोनिज़्म (स्टेपवाइज़ रिग्रेशन) के प्रतिस्थापन की सिफारिश कर रहे हैं, जो कि अपने समय में एक एनाक्रोनिज़्म है, जिसका पालन करने वाले को अभी तक इसका एहसास नहीं है। आँकड़े देखें ।stackexchange.com/questions/162861/…
मार्क एल। स्टोन

3
@ MarkL.Stone: अरे यार, कम से कम यह सही दिशा में 20 साल है। मैं इन विधियों से परिचित नहीं हूँ, इसलिए मुझे अपना समर्थन देने से पहले मुझे उन पर पढ़ना होगा।
क्लिफ एबी

2
लेख को जल्दी से पढ़ने के बाद, मैं यह तय करने में थोड़ा संकोच कर रहा हूं कि LASSO आधिकारिक तौर पर पुराना है, हालांकि यह स्पष्ट रूप से हमेशा इष्टतम विकल्प नहीं है। शायद 5 वर्षों में मैं LASSO अप्रचलित कॉलिंग अधिक सहज हो जाऊंगा।
क्लिफ एबी

2
@amoeba: मुझे लगता है कि मार्क सबसे अच्छा सबसेट प्रतिगमन के लिए एक उपकरण के रूप में LASSO का उपयोग करने की प्रथा का जिक्र कर रहा है। उदाहरण के लिए, मैं अस्पष्ट रूप से किसी को पढ़ने के लिए याद करता हूं कि पहले फिटिंग LASSO पर चर्चा करें, और फिर गैर-शून्य प्रतिगमन मापदंडों का उपयोग करके गैर-दंडित मॉडल का त्याग करें। सबसे अच्छा उपसमुच्चय प्रतिगमन ऐसा करने का एक अधिक प्रत्यक्ष तरीका हो सकता है (हालांकि जैसा कि आप कहते हैं, यह स्पष्ट नहीं है कि यह एक अच्छा विचार है, भले ही यह विश्लेषक क्या करना चाहता है)।
क्लिफ एबी

2
... और कागज कम से कम एक स्थिति (यानी कुछ मापदंडों के तहत सिमुलेशन) प्रस्तुत करता है, जहां यह स्पष्ट रूप से LASSO करता है, हालांकि मुझे लगता है कि हम सभी को वास्तव में पता है कि हमें इस तरह के परिणामों को कितनी गंभीरता से लेना चाहिए।
क्लिफ एबी

17

मेरा विचार है कि कम से कम (लागू) अर्थमिति में, यह कोवरियन मैट्रिक्स के सही विनिर्देश पर निर्भरता (asymptotically) के "एचीरोनिस्टिक अभ्यास" के बजाय मजबूत या अनुभवजन्य सहसंयोजक मैट्रिक्स का उपयोग करने के लिए अधिक से अधिक आदर्श है। यह निश्चित रूप से विवाद के बिना नहीं है: क्रॉसविलेडेटेड में मेरे द्वारा यहां दिए गए कुछ उत्तरों को देखें, लेकिन यह निश्चित रूप से एक स्पष्ट प्रवृत्ति है।

E[uu]=σ2In

अन्य उदाहरणों में पैनल डेटा, इमबेंस और वोल्ड्रिज शामिल हैं, उदाहरण के लिए उनके व्याख्यान स्लाइड्स में यादृच्छिक प्रभाव विचरण कोविरेंस मैट्रिक्स (अंतर्निहित रूप में कुछ प्रक्षेपीकरण को डिफ़ॉल्ट रूप से मानकर) का उपयोग करने के खिलाफ तर्क दिया गया है:

σc2σu2

सामान्यीकृत रैखिक मॉडल (वितरण के लिए, जो घातीय परिवार से संबंधित हैं) का उपयोग करते हुए, अक्सर यह सलाह दी जाती है कि हमेशा सही वितरण संबंधी मान्यताओं (एनाक्रोनॉस्टिक प्रैक्टिस) पर भरोसा करने के बजाय तथाकथित सैंडविच अनुमानक का उपयोग करें: उदाहरण के लिए देखें इस उत्तर या कैमरन का जिक्र डेटा को गिनने के लिए क्योंकि छद्म अधिकतम संभावना अनुमान के मामले में काफी लचीली हो सकती है (जैसे कि पॉइज़न का उपयोग करना यदि नकारात्मक द्विपद सही होगा)।

पोइसन रिग्रेशन के लिए इस तरह के [व्हाइट] मानक त्रुटि सुधार किए जाने चाहिए, क्योंकि वे ओएलएस के लिए समान हेटेरोसेडासिटी सुधारों की तुलना में बहुत बड़ा अंतर कर सकते हैं।

ग्रीन ने एक महत्वपूर्ण नोट के साथ उदाहरण के लिए अध्याय 14 (अपनी वेबसाइट पर उपलब्ध) में अपनी पाठ्यपुस्तक में लिखा है कि इस अभ्यास के फायदे और नुकसान के बारे में विस्तार से जाना जाता है:

वर्तमान साहित्य में एक प्रवृत्ति है कि इस [सैंडविच] अनुमानक की गणना नियमित रूप से की जाए, संभावना की परवाह किए बिना। * [...] * हम एक बार फिर इस बात पर जोर देते हैं कि सैंडविच अनुमानक, और अपने आप में से किसी एक की आवश्यकता नहीं है। पुण्य कार्य यदि संभावना समारोह गलत है और एम अनुमानक के लिए अन्य शर्तें पूरी नहीं हुई हैं।


4
दिलचस्प है, लेकिन सवाल यह है कि क्या एप्रोनॉस्टिक है, न कि अब जो तेजी से मानक है, इसलिए उत्तर को उल्टा करना होगा।
निक कॉक्स

1
हाय निक, आपकी टिप्पणी के लिए धन्यवाद (और आपके संपादन), मैंने पाठ को संशोधित करने के लिए कि एराक्रोनॉस्टिक अभ्यास क्या है, मुझे उम्मीद है कि यह थोड़ा स्पष्ट हो जाएगा। मैंने पूरे पाठ को उल्टा नहीं किया, क्योंकि पूर्व अभ्यास मानक त्रुटि के बारे में विशेष रूप से कुछ भी करने के करीब नहीं है।
अर्ने जोनास वार्नके

कुछ मामलों में, यह स्वाभाविक नहीं है और मजबूत विकल्प का उपयोग करना संभव नहीं है, समय श्रृंखला कहते हैं। इसलिए मुझे लगता है कि यह "अधिक लोकप्रिय" नहीं बन रहा है, लेकिन "कुछ क्षेत्रों में अधिक लोकप्रिय" है।
हेनरी।

13

m>1mm=1

m=30


यह पोस्ट करने के लिए यहाँ आया था। इसके अलावा: आश्वस्त नहीं हूं कि ऐसी कोई भी स्थिति है जहां एफडब्ल्यूईआर को नए एफडीआर तरीकों (स्केलेबिलिटी और अनुकूलन क्षमता के कारण) के लिए पसंद किया जाएगा।
एलेक्सिस

13

ज्यादातर एनाक्रोनॉस्टिक प्रैक्टिस संभवतया आँकड़ों को पढ़ाने के तरीके और तथ्य यह है कि विश्लेषण बड़ी संख्या में ऐसे लोगों द्वारा चलाए जाते हैं जिन्होंने केवल कुछ बुनियादी वर्गों को लिया है। हम अक्सर मानक सांख्यिकीय विचारों और प्रक्रियाओं का एक सेट सिखाते हैं क्योंकि वे वैचारिक परिष्कार को बढ़ाने का एक तार्किक क्रम बनाते हैं जो समझदारी से करता है (cf., हम कभी भी जनसंख्या परिवर्तन कैसे जान सकते हैं? )। मैं खुद इसके लिए दोषी हूं: मैं कभी-कभी आंकड़े 101 और 102 सिखाता हूं, और मैं लगातार कहता हूं, 'ऐसा करने का एक बेहतर तरीका है, लेकिन यह इस वर्ग के दायरे से परे है।' उन छात्रों के लिए जो परिचयात्मक अनुक्रम (लगभग सभी) से आगे नहीं जाते हैं, उन्हें मूल, लेकिन सुव्यवस्थित, रणनीतियों के साथ छोड़ दिया जाता है।

  1. 101 उदाहरणों के लिए, शायद सबसे आम एनाक्रोनोस्टिक अभ्यास कुछ धारणा का परीक्षण करना है और फिर एक पारंपरिक सांख्यिकीय विश्लेषण चलाना है क्योंकि परीक्षण महत्वपूर्ण नहीं था। एक अधिक आधुनिक / उन्नत / रक्षात्मक दृष्टिकोण शुरू से उस धारणा को मजबूत करने के लिए एक विधि का उपयोग करना होगा। अधिक जानकारी के लिए कुछ संदर्भ:

  2. आंकड़े 102 उदाहरणों के लिए, मॉडलिंग प्रथाओं की किसी भी संख्या को आगे बढ़ाया गया है:

    • Yp
    • Y
    • वक्रता बनाम घन विभाजन को पकड़ने के लिए उच्च-क्रम बहुपद का उपयोग करना।
    • pR2
    • बार-बार माप डेटा के साथ, एक सतत चर को वर्गीकृत करना ताकि rmANOVA का उपयोग किया जा सके या एक से अधिक मापों का उपयोग किया जा सके।
    • आदि।

इन सभी मामलों में मुद्दा यह है कि लोग वही कर रहे हैं जो पहले एक परिचयात्मक वर्ग में पढ़ाया जाता था क्योंकि वे केवल अधिक उन्नत और उपयुक्त तरीकों को नहीं जानते हैं।


5

एक बहुत ही रोचक उदाहरण इकॉनोमेट्रिक्स में यूनिट रूट टेस्ट हैं । जबकि एक समय श्रृंखला (जैसे, (संवर्धित) डिकी फुलर टेस्ट या केपीएसएस टेस्ट) के अंतराल बहुपद में एक इकाई जड़ के खिलाफ या परीक्षण करने के लिए बहुत सारे विकल्प उपलब्ध हैं, समस्या को पूरी तरह से दरकिनार किया जा सकता है, जो बेयसियन विश्लेषण का उपयोग करता है। । सिम्स ने अपने उत्तेजक पेपर में 1991 के अंडरस्टैंडिंग यूनिट रूटर्स: ए हेलिकॉप्टर टूर शीर्षक से बताया ।

यूनिट रूट परीक्षण वैध रहते हैं और अर्थमिति में उपयोग किए जाते हैं। हालांकि मैं व्यक्तिगत रूप से बेयसियन प्रथाओं को समायोजित करने के लिए अनिच्छुक लोगों के लिए इसका श्रेय देता हूं, कई रूढ़िवादी अर्थशास्त्री यह कहते हुए यूनिट रूट परीक्षणों के अभ्यास का बचाव करते हैं कि दुनिया के बायेसियन दृष्टिकोण अर्थशास्त्रीय अनुसंधान के आधार के विपरीत हैं। (अर्थात्, अर्थशास्त्री दुनिया को तय मापदंडों के साथ एक जगह के रूप में सोचते हैं, न कि यादृच्छिक पैरामीटर जो कुछ हाइपरपैरमीटर द्वारा नियंत्रित होते हैं।)


5
मुझे इस बात की एक संक्षिप्त चर्चा में दिलचस्पी होगी कि बायेसियन प्रथाएं इन परीक्षणों को कैसे दरकिनार करती हैं। दूसरे शब्दों में, आप इस दावे के लिए केस कैसे करेंगे?
माइक हंटर

मुझे यह स्वीकार करना होगा कि जब से मैंने पेपर पढ़ा है तब से कुछ समय हो गया है, लेकिन मुख्य बिंदु यह है कि एक समय श्रृंखला के बायेसियन विश्लेषण के लिए एक फ्लैट का उपयोग करके, एक मानक टी-मूल्यों का उपयोग कर सकता है।
जेरीमस के

5

उच्च गुणवत्ता वाले सांख्यिकीय सॉफ्टवेयर सिस्टम के लिए लाइसेंस शुल्क का भुगतान करना। #R


1

परिकल्पना परीक्षण के क्रमिक दायरे में तुल्यता के लिए एक साथ परीक्षण के बिना अंतर के लिए दो-पूंछ परीक्षणों का संचालन / संचालन करना पुष्टि पूर्वाग्रह के लिए एक गहरी प्रतिबद्धता है ।

वहाँ कुछ बारीकियों है, कि प्रभाव के आकार की विचारशील परिभाषा के साथ एक उचित शक्ति विश्लेषण इस के खिलाफ की रक्षा कर सकते हैं और अधिक या कम एक ही प्रकार के निष्कर्ष प्रदान कर सकते हैं, लेकिन (ए) शक्ति विश्लेषण इतनी बार निष्कर्ष प्रस्तुत करने में नजरअंदाज कर रहे हैं, और (बी) मैं है कभी नहीं के लिए एक शक्ति विश्लेषण देखा, उदाहरण के लिए, प्रत्येक गुणांक एक बहु प्रतिगमन में प्रत्येक चर के लिए अनुमानित है, लेकिन यह अंतर के लिए संयुक्त परीक्षण और तुल्यता के लिए परीक्षण के लिए ऐसा करने के लिए सरल है (यानी प्रासंगिकता परीक्षण)।


0

एक गणना चर में ब्याज के एक पैरामीटर की पहचान करने के लिए एक (मजबूत) पॉइसन मॉडल के बजाय एक नकारात्मक द्विपद मॉडल का उपयोग करना, केवल इसलिए कि अधिक फैलाव है?

संदर्भ के रूप में देखें: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

पॉयसन फिक्स्ड-इफेक्ट्स के मामले में अधिक मजबूत है, इसका प्रमाण काफी ताजा है क्योंकि इसका संदर्भ दिया गया है: वोल्ड्रिज, जेएम, "डिस्ट्रीब्यूशन-फ्री एस्टिमेशन ऑफ कुछ नॉनलाइनर पैनल डेटा मॉडल्स," जर्नल ऑफ इकोनोमेट्री 90 (1999), 77-97।


-6

यहाँ कुछ एनाक्रोनिज़म हैं:

  • नियोप्लाटोनिक धारणा है कि सैद्धांतिक ईथर में एक एकल, "सच्ची" आबादी है जो शाश्वत, निश्चित और अविचल है जिसके खिलाफ हमारे अपूर्ण नमूनों का मूल्यांकन किया जा सकता है, जो सीखने और ज्ञान को आगे बढ़ाने के लिए बहुत कम है।

  • आज्ञाचक्र के रेज़र जैसे जनादेशों में निहित न्यूनतावाद समय के साथ असंगत है। या संक्षेप में कहा जा सकता है, "प्रतिस्पर्धी परिकल्पनाओं में से, कुछ मान्यताओं के साथ चयन किया जाना चाहिए।" विकल्प में एपिकुरस के एकाधिक स्पष्टीकरण के सिद्धांत शामिल हैं , जो मोटे तौर पर कहते हैं, "यदि एक से अधिक सिद्धांत डेटा के अनुरूप हैं, तो उन सभी को रखें।"

  • पूरे पीयर-रिव्यू सिस्टम को ओवरहाल की जरूरत है।

* संपादित करें *

  • लाखों-करोड़ों विशेषताओं वाले विशाल डेटा के साथ, एक चर चयन चरण की आवश्यकता नहीं है।

  • इसके अलावा, हीनता के आँकड़े निरर्थक हैं।


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.