शास्त्रीय तकनीकों की जगह मजबूत (और प्रतिरोधी) आँकड़े क्यों नहीं आए?


82

डेटा का उपयोग करके व्यावसायिक समस्याओं को हल करते समय, यह सामान्य है कि कम से कम एक प्रमुख धारणा है कि अंडर-पिंस शास्त्रीय आँकड़े अमान्य हैं। अधिकांश समय, कोई भी उन मान्यताओं की जांच करने के लिए परेशान नहीं करता है ताकि आप वास्तव में कभी भी नहीं जान सकें।

उदाहरण के लिए, कि इतने सारे सामान्य वेब मेट्रिक्स "लॉन्ग-टेल्ड" (सामान्य वितरण के सापेक्ष) हैं, अब तक, इतनी अच्छी तरह से प्रलेखित है कि हम इसे मान लेते हैं। एक अन्य उदाहरण, ऑनलाइन समुदाय - यहां तक ​​कि हजारों सदस्यों वाले समुदायों में, यह अच्छी तरह से प्रलेखित है कि अब तक इन समुदायों में से कई में योगदान / भागीदारी के लिए सबसे बड़ा हिस्सा 'सुपर-योगदानकर्ताओं' के एक छोटे समूह के लिए जिम्मेदार है। (जैसे, कुछ महीने पहले, एसओ एपीआई बीटा में उपलब्ध होने के बाद, एक स्टैकऑवरफ्लो सदस्य ने एपीआई के माध्यम से एकत्र किए गए डेटा से एक संक्षिप्त विश्लेषण प्रकाशित किया था; उसका निष्कर्ष - एसओ सदस्यों के अधिकांश के लिए एक प्रतिशत से भी कम है। एसओ पर गतिविधि (शायद सवाल पूछ रहे हैं, और उन्हें जवाब दे), एक और 1-2% बाकी के लिए जिम्मेदार है, और सदस्यों के भारी बहुमत कुछ नहीं करते हैं)।

उस तरह के वितरण - फिर से अपवाद के बजाय अधिक बार नियम - अक्सर पावर लॉ डेंसिटी फ़ंक्शन के साथ सबसे अच्छा मॉडल होते हैं । इस प्रकार के वितरण के लिए, यहां तक ​​कि केंद्रीय सीमा प्रमेय को लागू करने के लिए समस्याग्रस्त है।

इसलिए विश्लेषकों को इस तरह की आबादी की बहुतायत दी गई है, और यह देखते हुए कि शास्त्रीय मॉडल इन आंकड़ों पर खराब प्रदर्शन करते हैं, और यह देखते हुए कि मजबूत और प्रतिरोधी तरीके कुछ समय के लिए रहे हैं (कम से कम 20 साल, मुझे विश्वास है) - क्यों क्या वे अधिक बार उपयोग नहीं किए जाते हैं? (मैं यह भी सोच रहा हूं कि मैं उनका अधिक बार उपयोग क्यों नहीं करता, लेकिन यह वास्तव में CrossValidated के लिए एक प्रश्न नहीं है ।)

हाँ, मुझे पता है कि पाठ्यपुस्तक के अध्याय पूरी तरह से मजबूत आँकड़ों के लिए समर्पित हैं और मुझे पता है कि (कुछ) आर पैकेज्स ( स्ट्रोंगबेस वह हैं जिनसे मैं परिचित और उपयोग करता हूँ), आदि।

और फिर भी इन तकनीकों के स्पष्ट लाभ दिए गए हैं, वे अक्सर स्पष्ट रूप से नौकरी के लिए बेहतर उपकरण हैं - वे अक्सर अधिक उपयोग क्यों नहीं किए जाते हैं ? क्या हमें शास्त्रीय एनालॉग्स की तुलना में अधिक मजबूत (और प्रतिरोधी) आँकड़ों का उपयोग करने की उम्मीद नहीं करनी चाहिए?

एकमात्र मूल (यानी, तकनीकी) स्पष्टीकरण मैंने सुना है कि मजबूत तकनीकों (इसी तरह प्रतिरोधी तरीकों के लिए) में शास्त्रीय तकनीकों की शक्ति / संवेदनशीलता का अभाव है। मुझे नहीं पता कि यह वास्तव में कुछ मामलों में सच है, लेकिन मुझे पता है कि यह कई मामलों में सच नहीं है।

प्रीमेशन का एक अंतिम शब्द: हाँ, मुझे पता है कि इस सवाल का एक भी demonstrably सही उत्तर नहीं है; इस साइट पर बहुत कम प्रश्न हैं। इसके अलावा, यह सवाल एक वास्तविक जांच है; यह एक दृष्टिकोण को आगे बढ़ाने का बहाना नहीं है - मेरे पास यहां कोई दृष्टिकोण नहीं है, बस एक सवाल है जिसके लिए मैं कुछ व्यावहारिक जवाबों की उम्मीद कर रहा हूं।


12
नसीम निकोलस तालेब के ब्लैक स्वान बताते हैं कि वित्तीय दुनिया में सरल मॉडल का उपयोग क्यों किया गया है और इसके कारण खतरे पैदा हुए हैं। एक विशेष दोष शून्य-कम संभावनाओं को बराबर कर रहा है और जोखिम प्रबंधन में सामान्य वितरण को नेत्रहीन रूप से लागू करता है!
जेम्स

9
कई मान्यताओं पर भरोसा करने वाले टेस्ट अधिक शक्तिशाली होते हैं जब वे धारणाएँ संतुष्ट होती हैं। हम यह मानते हुए विचलन के महत्व के लिए परीक्षण कर सकते हैं कि अवलोकन IID गौसियन हैं, जो सांख्यिकीय के रूप में अर्थ देता है। मान्यताओं का एक कम प्रतिबंधक सेट हमें माध्यिका का उपयोग करने के लिए कहता है। हम और भी आगे बढ़ सकते हैं और मान सकते हैं कि प्रेक्षणों को और अधिक मजबूती प्राप्त करने के लिए सहसंबद्ध किया जाता है। लेकिन प्रत्येक चरण हमारे परीक्षण की शक्ति को कम कर देता है, और यदि हम कोई भी धारणा नहीं बनाते हैं, तो हमारा परीक्षण बेकार है। मजबूत परीक्षण स्पष्ट रूप से डेटा के बारे में धारणा बनाते हैं और शास्त्रीय से बेहतर होते हैं, जब वे धारणाएं वास्तविकता से बेहतर मेल खाती हैं
यारोस्लाव बुलटोव

जवाबों:


69

शोधकर्ता छोटे पी-मान चाहते हैं, और यदि आप उन विधियों का उपयोग करते हैं जो मजबूत वितरणात्मक धारणाएं बनाते हैं, तो आप छोटे पी-मान प्राप्त कर सकते हैं। दूसरे शब्दों में, गैर-मजबूत तरीके आपको अधिक पेपर प्रकाशित करने देते हैं। बेशक इनमें से अधिक कागजात गलत सकारात्मक हो सकते हैं, लेकिन एक प्रकाशन एक प्रकाशन है। यह एक सनकी विवरण है, लेकिन यह कभी-कभी मान्य होता है।


4
"कभी-कभी" एक ख़ामोशी है ... लेखकों का तर्क अक्सर यह प्रत्यक्ष नहीं होता है, लेकिन उत्तेजना / इनाम का परिदृश्य ऐसा होता है कि लोग इसे कंडीशनिंग के मामले में करेंगे
जॉन 13

2
मुझे नहीं लगता कि शोधकर्ता इतने बेईमान हो रहे हैं जितना कि अज्ञानता से बाहर निकल कर अभिनय करना। उन्हें समझ में नहीं आता कि आंकड़ों का क्या मतलब है या उन्हें किन मान्यताओं की आवश्यकता है, लेकिन जैसा कि आपने कहा कि वे स्पष्ट रूप से उत्तेजना / इनाम: p> 0.05 => कोई प्रकाशन नहीं समझते हैं।
जॉन डी। कुक

10
आपको कुछ ऐसा भी प्रस्तुत करना होगा जिसे "सत्ता में" (निर्णय निर्माता, पर्यवेक्षक, समीक्षक) समझें। इसलिए इसे आम भाषा में होना चाहिए जो काफी धीरे-धीरे विकसित होता है, क्योंकि वे लोग पुराने और अधिक प्रतिरोधी होने के लिए बदलते हैं, मोटे तौर पर यह उनके करियर को अमान्य कर सकता है!
जेम्स

12
अच्छी बात। "मैं पी-वैल्यूज़ को समझता हूं। बस मुझे एक पी-वैल्यू दें।" विडंबना यह है कि वे शायद पी-मूल्यों को नहीं समझते हैं, लेकिन यह एक और मामला है।
जॉन डी। कुक

2
मेरा मानना ​​है कि यह स्पष्ट रूप से सच है। कम से कम, मैंने सुना है कि आधुनिक nonparametrics अक्सर बहुत कम बिजली का त्याग करते हैं, यदि कोई हो। AFAIK, पावर ट्रांसफ़ॉर्म को रैंक परिवर्तनों से संबंधित परीक्षणों में सबसे अधिक स्पष्ट किया गया है, जो कि मजबूत तरीकों के बीच शायद ही सर्वव्यापी हैं।
निक स्टानर

42

तो 'शास्त्रीय मॉडल' (वे जो कुछ भी हैं - मेरा मानना ​​है कि पाठ्यपुस्तकों में सिखाए गए सरल मॉडल और एमएल द्वारा अनुमानित) जैसे कुछ, शायद कई, वास्तविक दुनिया डेटा सेट पर विफल होते हैं।

यदि कोई मॉडल विफल हो जाता है तो उसे ठीक करने के दो बुनियादी तरीके हैं:

  1. कम धारणाएँ (कम मॉडल)
  2. अधिक धारणाएं बनाएं (अधिक मॉडल)

मजबूत आंकड़े, अर्ध-संभावना और जीईई दृष्टिकोण अनुमान रणनीति को बदलकर पहला दृष्टिकोण लेते हैं जहां मॉडल सभी डेटा बिंदुओं (मजबूत) के लिए पकड़ नहीं रखता है या डेटा (क्यूएल और जीईई) के सभी पहलुओं की विशेषता नहीं है।

विकल्प एक मॉडल बनाने की कोशिश करना है जो स्पष्ट रूप से डेटा बिंदुओं को दूषित करने के स्रोत, या मूल मॉडल के पहलुओं को स्पष्ट करता है, जो अनुमान लगाने की विधि को पहले जैसा ही रखते हैं।

कुछ सहज रूप से पूर्व को पसंद करते हैं (यह विशेष रूप से अर्थशास्त्र में लोकप्रिय है), और कुछ सहज रूप से उत्तरार्द्ध को पसंद करते हैं (यह विशेष रूप से बेइज़ियन के बीच लोकप्रिय है, जो अधिक जटिल मॉडल के साथ खुश होते हैं, विशेष रूप से एक बार जब उन्हें पता चलता है कि उनके पास सिमुलेशन उपकरण का उपयोग करने जा रहे हैं। वैसे भी)

फैट पूंछी हुई वितरण संबंधी मान्यताओं, उदाहरण के लिए पॉज़िशन के बजाय नकारात्मक द्विपद का उपयोग करना या सामान्य के बजाय टी, दूसरी रणनीति से संबंधित है। 'मजबूत आँकड़े' लेबल वाली अधिकांश चीजें पहली रणनीति से संबंधित हैं।

एक व्यावहारिक मामले के रूप में, वास्तविक रूप से जटिल समस्याओं के लिए पहली रणनीति के लिए अनुमान लगाने वाले व्युत्पन्न काफी कठिन प्रतीत होते हैं। ऐसा नहीं है कि ऐसा नहीं करने का एक कारण है, लेकिन यह शायद एक स्पष्टीकरण है कि यह बहुत बार क्यों नहीं किया जाता है।


4
+1। बहुत अच्छी व्याख्या। मैं यह भी सोचता हूं कि कुछ "मजबूत" विधियां बल्कि तदर्थ (काटे गए साधन) हैं, और यह कि "मजबूत" एक विधि के एक विशेष पहलू से जुड़ा हुआ है और यह सामान्य गुणवत्ता नहीं है, लेकिन कई लोग "आई" का मतलब "मजबूत" बताते हैं। "मेरे डेटा के बारे में चिंता करने की ज़रूरत नहीं है, क्योंकि मेरा तरीका मजबूत है"।
वेन

बहुत बढ़िया जवाब। यह मुझे परेशान करता है कि इतने सारे उत्तर मजबूत आँकड़ों को समझने में कठिनाई पर या धारणाओं के उल्लंघन को रोकने के लिए प्रोत्साहन पर ध्यान केंद्रित करते हैं। वे वहां के लोगों की उपेक्षा करते हैं जो जानते हैं कि ऐसे मामले हैं जब मजबूत आंकड़ों की आवश्यकता होती है और जब वे नहीं होते हैं।
केंजी 15

29

मेरा सुझाव है कि यह शिक्षण में एक अंतराल है। ज्यादातर लोग या तो कॉलेज या विश्वविद्यालय में आँकड़े सीखते हैं। यदि आँकड़े आपकी पहली डिग्री नहीं है और इसके बजाय गणित या कंप्यूटर विज्ञान की डिग्री है, तो आप शायद केवल मूल सांख्यिकी मॉड्यूल को कवर करते हैं:

  1. संभावना
  2. परिकल्पना परीक्षण
  3. वापसी

इसका मतलब यह है कि जब आप किसी समस्या का सामना करते हैं, तो आप उस समस्या का समाधान करने के लिए जानते हैं और उसका उपयोग करते हैं।

  • डेटा सामान्य नहीं है - लॉग लें।
  • डेटा ने आउटलेर्स को परेशान किया है - उन्हें हटा दें।

जब तक आप किसी और चीज़ में ठोकर नहीं खाते हैं, तब तक कुछ बेहतर करना मुश्किल है। यदि आप यह नहीं जानते कि यह क्या कहा जाता है, तो कुछ खोजने के लिए Google का उपयोग करना वास्तव में कठिन है!

मुझे लगता है कि सभी तकनीकों के साथ नई तकनीकों को फ़िल्टर करने में कुछ समय लगेगा। एक मानक आँकड़े पाठ्यक्रम का हिस्सा बनने के लिए मानक परिकल्पना परीक्षणों में कितना समय लगा?

BTW, एक सांख्यिकी डिग्री के साथ अभी भी शिक्षण में पिछड़ जाएगा - बस एक छोटा!


4
लेकिन यह एक दिलचस्प शैक्षणिक समस्या को उठाता है, कम से कम मनोविज्ञान में, क्योंकि जहां तक ​​मुझे पता है कि मेरे क्षेत्र में उपयोग की जाने वाली अधिकांश परिचयात्मक आँकड़े पुस्तकें वास्तव में एक तरफ के अलावा मजबूत उपायों पर चर्चा नहीं करती हैं।
russellpierce

3
यह बहुत सच है, और मनोविज्ञान में भी, गैर-पैरामीट्रिक और गैर-सामान्य के बीच एक कष्टप्रद भ्रम है, जो समझ में बाधा डालता है।
रिचमीमोर्रिसो

2
हम में से कुछ मनोवैज्ञानिक हर चीज के बारे में उलझन में हैं! :)
निक स्टानर

21

उचित स्तर पर सांख्यिकीय डेटा विश्लेषण में प्रशिक्षित कोई भी नियमित आधार पर मजबूत आंकड़ों की अवधारणाओं का उपयोग करता है । अधिकांश शोधकर्ता गंभीर आउटलेर और डेटा रिकॉर्डिंग त्रुटियों को देखने के लिए पर्याप्त जानते हैं; संदिग्ध डेटा बिंदुओं को हटाने की नीति लॉर्ड रेले, जीजी स्टोक्स और उनकी उम्र के अन्य लोगों के साथ 19 वीं सदी में अच्छी तरह से वापस चली गई। यदि प्रश्न है:

शोधकर्ताओं ने कंप्यूटिंग स्थान, पैमाने, प्रतिगमन, आदि अनुमानों के लिए अधिक आधुनिक तरीकों का उपयोग क्यों नहीं किया?

फिर इसका उत्तर ऊपर दिया गया है - विधियों का बड़े पैमाने पर विकास पिछले 25 वर्षों में किया गया है, 1985 - 2010 का कहना है। नए तरीकों के कारकों को सीखने के लिए अंतराल, साथ ही 'मिथक' द्वारा जटिल जड़ता है कि इसमें कुछ भी गलत नहीं है नेत्रहीन शास्त्रीय तरीकों का उपयोग कर। जॉन टुके टिप्पणी करते हैं कि आपके द्वारा उपयोग किए जाने वाले कौन से मजबूत / प्रतिरोधी तरीके महत्वपूर्ण नहीं हैं - जो महत्वपूर्ण है वह यह है कि आप कुछ का उपयोग करते हैं। यह शास्त्रीय और मजबूत / प्रतिरोधी दोनों तरीकों का नियमित रूप से उपयोग करने के लिए पूरी तरह से उचित है, और केवल तभी चिंता करते हैं जब वे मामले में पर्याप्त भिन्न होते हैं। लेकिन जब वे भिन्न होते हैं , तो आपको कठिन सोचना चाहिए ।

यदि इसके बजाय, प्रश्न यह है:

नेत्रहीन अत्यधिक अस्थिर अनुमानों को लागू करने के बजाय, शोधकर्ता क्यों रोकते हैं और अपने डेटा के बारे में सवाल नहीं पूछते हैं?

फिर जवाब वास्तव में प्रशिक्षण के लिए नीचे आता है। अभी तक बहुत सारे शोधकर्ता हैं, जिन्हें कभी भी ठीक से आँकड़ों में प्रशिक्षित नहीं किया गया था, पी-मानों पर सामान्य निर्भरता के कारण और सभी के 'सांख्यिकीय महत्व' के रूप में अभिव्यक्त हुए।

@ क्वाक: 1970 के दशक के ह्यूबर के अनुमान शब्द के शास्त्रीय अर्थ में मजबूत हैं : वे आउटलेर्स का विरोध करते हैं। और पुनरावर्ती अनुमानक वास्तव में 1980 के दशक से पहले अच्छी तरह से तारीख करते हैं: प्रिंसटन मजबूती अध्ययन (1971 के) में स्थान का द्विअर्थी अनुमान, एक पुनरावर्ती अनुमान शामिल था।


2
projecteuclid.org/… पीटर टकर द्वारा जॉन ट्युकी के सशक्त आँकड़ों के योगदान पर स्वतंत्र रूप से उपलब्ध दस्तावेज। यथोचित आसान पढ़ा, सूत्र पर प्रकाश।
वेस्ले बूर

20

सांख्यिकी गैर-सांख्यिकीय-दिमाग वाले शोधकर्ताओं के लिए एक उपकरण है, और वे सिर्फ परवाह नहीं करते हैं।

मैंने एक बार एक मेडिसिन लेख के साथ मदद करने की कोशिश की, मेरी पूर्व पत्नी सह-लेखन कर रही थी। मैंने डेटा का वर्णन करते हुए कई पेज लिखे, जो यह सुझाया, क्यों कुछ टिप्पणियों को अध्ययन से बाहर रखा गया था ... और प्रमुख शोधकर्ता, एक डॉक्टर, ने इसे दूर फेंक दिया और किसी को पी-मूल्य की गणना करने के लिए कहा, जो कि वह सब है (और सिर्फ उन सभी के बारे में जो लेख पढ़ेंगे) परवाह करते थे।


12

मैं दो दिशाओं में उत्तर देता हूं:

  1. जो चीजें मजबूत होती हैं, जरूरी नहीं कि वे मजबूत हो। यदि आप मानते हैं कि हर चीज के खिलाफ मजबूती मौजूद है तो आप अनुभवहीन हैं।
  2. सांख्यिकीय दृष्टिकोण जो मजबूती की समस्या को छोड़ देते हैं, वे कुछ समय के लिए वास्तविक दुनिया के अनुकूल नहीं होते हैं, लेकिन अक्सर एक एल्गोरिथ्म की तुलना में अधिक मूल्यवान होते हैं जो कि रसोई की तरह दिखता है।

developpment

सबसे पहले, मुझे लगता है कि आँकड़ों में बहुत सारे अच्छे दृष्टिकोण हैं (आप उन्हें आर पैकेजों में पाएंगे जो जरूरी नहीं कि कहीं मजबूत उल्लेख के साथ हैं) जो स्वाभाविक रूप से मजबूत हैं और वास्तविक डेटा पर परीक्षण किया गया है और यह तथ्य कि आप "मजबूत" के साथ एल्गोरिथ्म नहीं पाते हैं। "कहीं उल्लेख नहीं किया गया है इसका मतलब यह नहीं है कि यह मजबूत नहीं है। वैसे भी अगर आपको लगता है कि मजबूत होने का मतलब सार्वभौमिक होना है, तो आपको कभी भी किसी भी मजबूत प्रक्रिया (कोई मुफ्त दोपहर का भोजन) नहीं मिलेगा, आपके द्वारा अनुकूलित टूल का उपयोग करने या अनुकूलित मॉडल बनाने के लिए आपके द्वारा विश्लेषण किए गए डेटा पर कुछ ज्ञान / विशेषज्ञता की आवश्यकता होगी।

दूसरी ओर, सांख्यिकीय में कुछ दृष्टिकोण मजबूत नहीं हैं क्योंकि वे एक ही प्रकार के मॉडल के लिए समर्पित हैं। मुझे लगता है कि चीजों को समझने की कोशिश करने के लिए प्रयोगशाला में काम करना अच्छा है। यह समझने के लिए भी समस्या का इलाज करना अच्छा है कि हमारे समाधान की समस्या क्या है ... यह है कि गणितज्ञ कैसे काम करता है। गॉसियन मॉडल के उदाहरण: बहुत आलोचना की जाती है क्योंकि गॉसियन धारणा कभी पूरी नहीं होती है, लेकिन आज सांख्यिकीय रूप से उपयोग किए जाने वाले 75% विचारों को लाया गया है। क्या आपको लगता है कि यह सबकुछ पब्लिशिंग या पेरिश रूल (जो मुझे पसंद नहीं है, मैं मानता हूं) को फॉलो करने के लिए राइटिंग पेपर के बारे में है?


11

जैसा कि कोई है जो अपने स्वयं के अनुसंधान के लिए थोड़ा सा आँकड़े सीख चुका है, मुझे लगता है कि कारण शैक्षणिक और जड़ता हैं।

मैंने अपने स्वयं के क्षेत्र के भीतर देखा है कि विषयों को जिस क्रम में पढ़ाया जाता है वह क्षेत्र के इतिहास को दर्शाता है। उन विचारों को जो पहले आए थे, पहले सिखाया जाता है, और इसी तरह। उन लोगों के लिए जो केवल सरसरी शिक्षा के लिए आंकड़ों में डुबकी लगाते हैं, इसका मतलब है कि वे पहले शास्त्रीय आँकड़े सीखेंगे और शायद आखिरी। फिर, भले ही वे अधिक सीखें, प्रधानता प्रभाव के कारण उनके साथ छड़ी के साथ शास्त्रीय सामान बेहतर है।

इसके अलावा, हर कोई जानता है कि एक दो नमूना टी-टेस्ट क्या है। सब से कम लोग जानते हैं कि मैन-व्हिटनी या विलकॉक्सन रैंक सम टेस्ट क्या है। इसका मतलब यह है कि मुझे यह समझने में थोड़ी सी ऊर्जा लगानी होगी कि मेरी मजबूत परीक्षा क्या है, या किसी भी शास्त्रीय परीक्षा के साथ परीक्षा नहीं देनी है। इस तरह की स्थितियां जाहिर तौर पर कम लोगों को चाहिए कि वे मजबूत तरीकों का इस्तेमाल करें।


9

वोल्ड्रिज "परिचयात्मक अर्थमिति - एक आधुनिक दृष्टिकोण" 2E p.261।

यदि Heteroskedasticity- मजबूत मानक त्रुटियां सामान्य OLS मानक त्रुटियों की तुलना में अधिक बार मान्य होती हैं, तो हम सामान्य मानक त्रुटियों को बिल्कुल क्यों परेशान करते हैं? ... एक कारण है कि वे अभी भी क्रॉस सेक्शनल कार्य में उपयोग किए जाते हैं, यदि होमोसैकेडैस्टिक धारणा मानती है और इरोस सामान्य रूप से वितरित किए जाते हैं, फिर सामान्य टी-आँकड़ों के नमूने के आकार की परवाह किए बिना सटीक टी वितरण होते हैं। मजबूत मानक त्रुटियां और मजबूत टी आँकड़े केवल उचित हैं क्योंकि नमूना आकार बड़ा हो जाता है। छोटे नमूना आकारों के साथ, मजबूत टी आँकड़ों में वितरण हो सकते हैं जो कि टी वितरण के बहुत करीब नहीं हैं, और जो हमारे अनुमान को फेंक सकते हैं। बड़े नमूने के आकारों में, हम हमेशा केवल हेटेरोसेडासिटी-मजबूत मानक त्रुटियों की रिपोर्टिंग के लिए क्रॉस-सेक्शनल एप्लिकेशन में रिपोर्ट कर सकते हैं,


2
बुरी खबर यहाँ: pan.oxfordjournals.org/content/23/2/159
conjugateprior

7

जबकि वे परस्पर अनन्य नहीं हैं, मुझे लगता है कि बायेसियन सांख्यिकी की बढ़ती लोकप्रियता इसका एक हिस्सा है। बेयर्सियन आंकड़े पुजारियों और मॉडल औसत के माध्यम से समान लक्ष्यों को प्राप्त कर सकते हैं, और अभ्यास में थोड़ा अधिक मजबूत होते हैं।


6

मैं सांख्यिकीविद् नहीं हूं, आंकड़ों में मेरा अनुभव काफी सीमित है, मैं सिर्फ कंप्यूटर दृष्टि / 3 डी पुनर्निर्माण / मुद्रा अनुमान में मजबूत आंकड़ों का उपयोग करता हूं। यहाँ उपयोगकर्ता की दृष्टि से समस्या पर मेरी राय है:

पहले, मजबूत आँकड़ों ने इंजीनियरिंग और विज्ञान में "मजबूत आँकड़ों" को बुलाए बिना बहुत उपयोग किया। बहुत से लोग इसे सहज रूप से उपयोग करते हैं, जो वास्तविक दुनिया की समस्या के लिए विशिष्ट विधि को समायोजित करने की प्रक्रिया में आते हैं। उदाहरण के लिए पुनरावृत्त कम से कम वर्ग और छंटनी का मतलब है / छंटनी की गई कम से कम वर्ग का आमतौर पर इस्तेमाल किया जाता है, बस उपयोगकर्ता को पता नहीं है कि वे मजबूत आंकड़ों का उपयोग करते हैं - वे सिर्फ वास्तविक, गैर-सिंथेटिक डेटा के लिए विधि को व्यावहारिक बनाते हैं।

दूसरा, दोनों "सहज" और जागरूक मजबूत आंकड़े हमेशा व्यावहारिक रूप से उस मामले में उपयोग किए जाते हैं जहां परिणाम सत्यापन योग्य होते हैं, या जहां स्पष्ट रूप से दिखाई देने वाली त्रुटि मैट्रिक्स होती है। यदि सामान्य वितरण के साथ प्राप्त परिणाम स्पष्ट रूप से गैर-मान्य या गलत हैं, तो लोग वज़न के साथ छेड़छाड़ करना शुरू कर देते हैं, ट्रिमिंग करते हैं, नमूना लेते हैं, कुछ पेपर पढ़ते हैं और मजबूत अनुमानकर्ताओं का उपयोग करते हुए समाप्त होते हैं, चाहे वे शब्द जानते हों या नहीं। दूसरी ओर अगर अनुसंधान के अंतिम परिणाम सिर्फ कुछ ग्राफिक्स और आरेख हैं, और परिणामों को सत्यापित करने के लिए कोई असंवेदनशील नहीं है, या अगर सामान्य सांख्यिकीय उपज पर्याप्त रूप से अच्छी लगती है - तो लोग परेशान नहीं होते हैं।

और अंतिम, एक सिद्धांत के रूप में मजबूत आंकड़ों की उपयोगिता के बारे में - जबकि सिद्धांत ही बहुत दिलचस्प है यह अक्सर कोई व्यावहारिक लाभ नहीं देता है। अधिकांश मजबूत अनुमानक काफी तुच्छ और सहज होते हैं, अक्सर लोग उन्हें बिना किसी सांख्यिकीय ज्ञान के पुनर्निर्मित करते हैं। थ्योरी, जैसे ब्रेकडाउन पॉइंट आकलन, एसिम्पोटिक्स, डेटा डेप्थ, हेटेरोसेडेसिटी आदि डेटा की गहरी समझ की अनुमति देते हैं, लेकिन ज्यादातर मामलों में यह सिर्फ अनावश्यक है। एक बड़ा अपवाद मजबूत आंकड़ों और संपीड़ित संवेदन का प्रतिच्छेदन है, जो कुछ नए व्यावहारिक तरीकों का उत्पादन करता है जैसे "क्रॉस-एंड-बुके"


5

मजबूत आकलनकर्ताओं का मेरा ज्ञान केवल प्रतिगमन मापदंडों के लिए मजबूत मानक त्रुटियों के संबंध में है, इसलिए मेरी टिप्पणी केवल उन लोगों के संबंध में होगी। मेरा सुझाव है कि लोग इस लेख को पढ़ें,

सो-बुलाए गए "ह्यूबर सैंडविच एस्टिमेटर" और "रोबस्ट स्टैंडर्ड एरर्स" द्वारा: फ्रीडमैन, ए डेविड द अमेरिकन स्टेटिस्टिशियन, वॉल्यूम। 60, नंबर 4. (नवंबर 2006), पीपी। 299-302। doi: 10.1198 / 000313006X152207 ( पीडीएफ संस्करण )

विशेष रूप से मैं इन दृष्टिकोणों के बारे में चिंतित हूं, ऐसा नहीं है कि वे गलत हैं, लेकिन वे बस बड़ी समस्याओं से ध्यान भंग कर रहे हैं। इस प्रकार मैं रॉबिन गिरार्ड के उत्तर और "नो फ्री लंच" के उनके उल्लेख से पूरी तरह सहमत हूं।


3

मजबूत आंकड़ों के लिए आवश्यक पथरी और प्रायिकता (आमतौर पर) कठिन होती है, इसलिए (ए) में कम सिद्धांत होता है और (बी) यह समझ पाना कठिन होता है।


2

मुझे यह देखकर आश्चर्य हुआ कि उत्तर की इस लंबी सूची में गॉस-मार्कोव प्रमेय का उल्लेख नहीं है, एफिक्स:

गोलाकार त्रुटियों के साथ एक रेखीय मॉडल में (जिसमें रास्ते में परिमित त्रुटि के माध्यम से कोई आउटलेयर की धारणा शामिल नहीं है), ओएलएस रैखिक निष्पक्ष अनुमानकर्ताओं के एक वर्ग में कुशल है - वहाँ (प्रतिबंधात्मक हैं, सुनिश्चित करने के लिए कि किन शर्तों के तहत " आप OLS से बेहतर नहीं कर सकते ”।

मैं यह तर्क नहीं दे रहा हूं कि लगभग हर समय ओएलएस का उपयोग करना उचित होना चाहिए, लेकिन यह निश्चित रूप से योगदान देता है कि क्यों (विशेष रूप से चूंकि यह शिक्षण में ओएलएस पर इतना ध्यान केंद्रित करने का एक अच्छा बहाना है)।


ठीक है, हाँ, लेकिन यह माना जाता है कि कम से कम विचरण प्रासंगिक मानदंड है, और भारी पूंछ के साथ, ऐसा नहीं हो सकता है!
kjetil b halvorsen

1
ज़रूर। मैं सिर्फ यह जोड़ना चाहता था कि मेरा मानना ​​है कि शायद सबसे प्रसिद्ध कारण है कि ओएलएस समझ में आने वाली कारणों की सूची के लिए एक उपयोगी तकनीक है, क्यों मजबूत तकनीकों ने इसे प्रतिस्थापित नहीं किया है: ऐसे मामले हैं जहां आपको इसे प्रतिस्थापित नहीं करना चाहिए।
क्रिस्टोफ़ हनक

0

मेरा अनुमान है कि मजबूत आँकड़े कभी पर्याप्त नहीं होते हैं यानी मजबूत होने के लिए ये आँकड़े वितरण के बारे में कुछ जानकारी को छोड़ देते हैं। और मुझे संदेह है कि यह हमेशा एक अच्छी बात नहीं है। दूसरे शब्दों में, सूचना की मजबूती और हानि के बीच एक व्यापार बंद है।

जैसे कि माध्य मजबूत होता है क्योंकि (मतलब के विपरीत) यह केवल आधे तत्वों के बारे में जानकारी का उपयोग करता है (असतत मामले में):

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})

1
आंकड़े देखें ।stackexchange.com/questions/74113/… ऐसी स्थिति के लिए जहां माध्य अत्यधिक नाजुक होता है और इसका मतलब बहुत अच्छा व्यवहार होता है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.