सांख्यिकी और बिग डेटा outliers

5

क्या डेटा की सफाई सांख्यिकीय विश्लेषण के परिणामों को खराब कर सकती है?

वायरस के प्रचलन के कारण महामारी (संख्या में अचानक वृद्धि) के दौरान होने वाले मामलों और मौतों की संख्या में वृद्धि (2002 में संयुक्त राज्य अमेरिका में वेस्ट नाइल वायरस) या लोगों की प्रतिरोधक क्षमता में कमी या भोजन या पानी के दूषित होने या संख्या में वृद्धि के कारण …

17 time-series forecasting epidemiology outliers

1

आउटर डिटेक्शन के लिए रोबस्ट पीसीए बनाम मजबूत महालनोबिस दूरी

मजबूत पीसीए (के रूप में द्वारा विकसित Candes एट अल 2009 या बेहतर अभी तक Netrepalli एट अल 2014 ) है मल्टीवेरिएट बाहरी पता लगाने के लिए एक लोकप्रिय तरीका है, लेकिन महालनोबिस दूरी भी एक दिया बाहरी पता लगाने के लिए इस्तेमाल किया जा सकता सहप्रसरण मैट्रिक्स के मजबूत, …

17 pca outliers covariance-matrix robust anomaly-detection

2

आर में आउटलेर का पता लगाने के साथ पूर्वानुमान कैसे करें? - समय श्रृंखला विश्लेषण प्रक्रिया और विधि

मेरे पास मासिक समय श्रृंखला डेटा है, और आउटलेर्स का पता लगाने के साथ पूर्वानुमान करना चाहते हैं। यह मेरे डेटा सेट का नमूना है: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 …

16 r time-series forecasting arima outliers

3

वित्तीय समयसीमाओं में तेजी का पता लगाने

मैं कुछ मजबूत तकनीकों की तलाश कर रहा हूं जो वित्तीय समय-श्रृंखला डेटा (यानी टिकडाटा) से आउटलेर और त्रुटियों (जो भी कारण हो) को हटाने के लिए। टिक-दर-टिक वित्तीय समय-श्रृंखला डेटा बहुत गड़बड़ है। इसमें एक्सचेंज बंद होने पर बहुत बड़ा (समय) अंतराल होता है, और जब एक्सचेंज फिर से …

16 time-series outliers

5

क्या यह प्रतिगमन मॉडल को बेहतर बनाने के लिए मीन एब्सोल्यूट एरर के बॉक्सप्लेट के आधार पर आउटलेयर को छोड़ने के लिए धोखा दे रहा है

मेरे पास एक भविष्यवाणी मॉडल है जो चार तरीकों से परीक्षण किया गया है जैसा कि आप नीचे दिए गए बॉक्सप्लेट में देख सकते हैं। मॉडल की भविष्यवाणी करने वाली विशेषता 0-8 की सीमा में है। आप देख सकते हैं कि सभी विधियों द्वारा इंगित एक ऊपरी-बाउंड आउटलाइयर और तीन …

15 regression machine-learning multiple-regression predictive-models outliers

2

प्रभावशाली बिंदु, उच्च उत्तोलन बिंदु और बाहरी के बीच तुलना का सटीक अर्थ?

विकिपीडिया से प्रभावशाली अवलोकन वे अवलोकन हैं जो प्रतिगमन मॉडल की भविष्यवाणियों पर अपेक्षाकृत बड़ा प्रभाव डालते हैं। विकिपीडिया से उत्तोलन बिंदु वे अवलोकन हैं, यदि कोई है, तो स्वतंत्र चर के चरम या बाहरी मूल्यों से बना है, जैसे कि पड़ोसी टिप्पणियों की कमी का मतलब है कि फिट …

15 regression outliers leverage

2

एक सामान्य वितरण के मापदंडों का अनुमान लगाना: औसत के बजाय मंझला?

सामान्य वितरण के मापदंडों का अनुमान लगाने के लिए सामान्य दृष्टिकोण का मतलब और नमूना मानक विचलन / विचरण का उपयोग करना है। हालांकि, अगर कुछ आउटलेयर हैं, तो माध्यिका और माध्यिका से मध्य विचलन बहुत अधिक मजबूत होना चाहिए, है ना? कुछ डेटा सेट पर मैंने कोशिश की, सामान्य …

15 normal-distribution estimation outliers robust unbiased-estimator

3

मजबूत मतलब अनुमान में क्रैश कोर्स

मेरे पास अनुमानों का एक गुच्छा (लगभग 1000) है और वे सभी लंबे समय तक चलने वाले लोच का अनुमान लगाने वाले हैं। इनमें से आधे से थोड़ा अधिक विधि ए का उपयोग करने का अनुमान है और बाकी विधि बी का उपयोग करते हुए। कहीं मैंने कुछ ऐसा पढ़ा …

15 mean outliers robust references

3

एक बहुपद प्रतिगमन से विश्वास बैंड को समझना

मैं नीचे दिए गए मेरे ग्राफ में दिखाई देने वाले परिणाम को समझने की कोशिश कर रहा हूं। आमतौर पर, मैं एक्सेल का उपयोग करता हूं और एक रेखीय-प्रतिगमन लाइन प्राप्त करता हूं, लेकिन नीचे के मामले में मैं आर का उपयोग कर रहा हूं और मुझे कमांड के साथ …

14 r regression data-visualization outliers

5

क्या आउटलेर्स का पता लगाने का एक सरल तरीका है?

मुझे आश्चर्य हो रहा है कि क्या आउटलेयर का पता लगाने का एक सरल तरीका है। मेरी एक परियोजना के लिए, जो मूल रूप से एक सप्ताह में शारीरिक गतिविधि में भाग लेने वाले उत्तरदाताओं की संख्या के बीच सहसंबंध था और एक सप्ताह में घर (फास्ट फूड) के बाहर …

14 correlation outliers

1

"2.5 गुना RMSE" के आधार पर आउटलेर्स को छोड़ना

में Kahneman और Deaton (2010) † , लेखकों निम्नलिखित लिखें:††^\dagger यह प्रतिगमन 0.67852 के मूल माध्य वर्ग त्रुटि (RMSE) के साथ 37% विचरण को स्पष्ट करता है। आउटलेर्स और अनुमानित आय रिपोर्ट को समाप्त करने के लिए, हमने टिप्पणियों को छोड़ दिया जिसमें लॉग इनकम और इसकी भविष्यवाणी के बीच …

13 regression outliers

7

अनोमली और आउटलाइर के बीच अंतर

मशीन सीखने के संदर्भ में बाहरी और विसंगति के बीच क्या अंतर है। मेरी समझ यह है कि दोनों एक ही चीज को संदर्भित करते हैं।

13 outliers terminology anomaly-detection

2

डेटा लगाने में पड़ोसी जानकारी का उपयोग करना या ऑफ-डेटा (आर में) खोजना।

मेरे पास इस धारणा के साथ डेटासेट है कि निकटतम पड़ोसी सर्वश्रेष्ठ भविष्यवक्ता हैं। बस दो तरफा ढाल का एक आदर्श उदाहरण है- मान लीजिए कि हमारे पास ऐसा मामला है जहां कुछ मूल्य गायब हैं, हम आसानी से पड़ोसियों और प्रवृत्ति के आधार पर भविष्यवाणी कर सकते हैं। आर …

13 r prediction outliers data-imputation multiple-imputation

1

लार्स बनाम लैस्सो के लिए वंश का समन्वय

लार्स का उपयोग करने के पेशेवरों और विपक्ष क्या हैं [1] बनाम एल -1-नियमित रैखिक प्रतिगमन फिटिंग के लिए समन्वित वंश का उपयोग करना? मुझे मुख्य रूप से प्रदर्शन के पहलुओं में दिलचस्पी है (मेरी समस्याएं Nसैकड़ों और हजारों की संख्या में हैं p। <20) हालांकि, किसी भी अन्य अंतर्दृष्टि …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

नमूने से दो आबादी को अलग करना

मैं एक ही डेटा सेट से मूल्यों के दो समूहों को अलग करने की कोशिश कर रहा हूं। मैं मान सकता हूं कि आबादी में से एक सामान्य रूप से वितरित की गई है और नमूने का कम से कम आधा आकार है। दूसरे वाले का मान पहले वाले (वितरण …

13 dataset outliers expectation-maximization

outliers पर टैग किए गए जवाब