डेटा का उपयोग करके व्यावसायिक समस्याओं को हल करते समय, यह सामान्य है कि कम से कम एक प्रमुख धारणा है कि अंडर-पिंस शास्त्रीय आँकड़े अमान्य हैं। अधिकांश समय, कोई भी उन मान्यताओं की जांच करने के लिए परेशान नहीं करता है ताकि आप वास्तव में कभी भी नहीं जान सकें।
उदाहरण के लिए, कि इतने सारे सामान्य वेब मेट्रिक्स "लॉन्ग-टेल्ड" (सामान्य वितरण के सापेक्ष) हैं, अब तक, इतनी अच्छी तरह से प्रलेखित है कि हम इसे मान लेते हैं। एक अन्य उदाहरण, ऑनलाइन समुदाय - यहां तक कि हजारों सदस्यों वाले समुदायों में, यह अच्छी तरह से प्रलेखित है कि अब तक इन समुदायों में से कई में योगदान / भागीदारी के लिए सबसे बड़ा हिस्सा 'सुपर-योगदानकर्ताओं' के एक छोटे समूह के लिए जिम्मेदार है। (जैसे, कुछ महीने पहले, एसओ एपीआई बीटा में उपलब्ध होने के बाद, एक स्टैकऑवरफ्लो सदस्य ने एपीआई के माध्यम से एकत्र किए गए डेटा से एक संक्षिप्त विश्लेषण प्रकाशित किया था; उसका निष्कर्ष - एसओ सदस्यों के अधिकांश के लिए एक प्रतिशत से भी कम है। एसओ पर गतिविधि (शायद सवाल पूछ रहे हैं, और उन्हें जवाब दे), एक और 1-2% बाकी के लिए जिम्मेदार है, और सदस्यों के भारी बहुमत कुछ नहीं करते हैं)।
उस तरह के वितरण - फिर से अपवाद के बजाय अधिक बार नियम - अक्सर पावर लॉ डेंसिटी फ़ंक्शन के साथ सबसे अच्छा मॉडल होते हैं । इस प्रकार के वितरण के लिए, यहां तक कि केंद्रीय सीमा प्रमेय को लागू करने के लिए समस्याग्रस्त है।
इसलिए विश्लेषकों को इस तरह की आबादी की बहुतायत दी गई है, और यह देखते हुए कि शास्त्रीय मॉडल इन आंकड़ों पर खराब प्रदर्शन करते हैं, और यह देखते हुए कि मजबूत और प्रतिरोधी तरीके कुछ समय के लिए रहे हैं (कम से कम 20 साल, मुझे विश्वास है) - क्यों क्या वे अधिक बार उपयोग नहीं किए जाते हैं? (मैं यह भी सोच रहा हूं कि मैं उनका अधिक बार उपयोग क्यों नहीं करता, लेकिन यह वास्तव में CrossValidated के लिए एक प्रश्न नहीं है ।)
हाँ, मुझे पता है कि पाठ्यपुस्तक के अध्याय पूरी तरह से मजबूत आँकड़ों के लिए समर्पित हैं और मुझे पता है कि (कुछ) आर पैकेज्स ( स्ट्रोंगबेस वह हैं जिनसे मैं परिचित और उपयोग करता हूँ), आदि।
और फिर भी इन तकनीकों के स्पष्ट लाभ दिए गए हैं, वे अक्सर स्पष्ट रूप से नौकरी के लिए बेहतर उपकरण हैं - वे अक्सर अधिक उपयोग क्यों नहीं किए जाते हैं ? क्या हमें शास्त्रीय एनालॉग्स की तुलना में अधिक मजबूत (और प्रतिरोधी) आँकड़ों का उपयोग करने की उम्मीद नहीं करनी चाहिए?
एकमात्र मूल (यानी, तकनीकी) स्पष्टीकरण मैंने सुना है कि मजबूत तकनीकों (इसी तरह प्रतिरोधी तरीकों के लिए) में शास्त्रीय तकनीकों की शक्ति / संवेदनशीलता का अभाव है। मुझे नहीं पता कि यह वास्तव में कुछ मामलों में सच है, लेकिन मुझे पता है कि यह कई मामलों में सच नहीं है।
प्रीमेशन का एक अंतिम शब्द: हाँ, मुझे पता है कि इस सवाल का एक भी demonstrably सही उत्तर नहीं है; इस साइट पर बहुत कम प्रश्न हैं। इसके अलावा, यह सवाल एक वास्तविक जांच है; यह एक दृष्टिकोण को आगे बढ़ाने का बहाना नहीं है - मेरे पास यहां कोई दृष्टिकोण नहीं है, बस एक सवाल है जिसके लिए मैं कुछ व्यावहारिक जवाबों की उम्मीद कर रहा हूं।