सांख्यिकी और बिग डेटा

3

AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - क्या मैं इनका उपयोग कर सकता हूं?

पी पर। उनके 34 PRNN ब्रायन रिप्ले टिप्पणी करते हैं कि "AIC को Aikeike (1974) ने 'एक सूचना मानदंड' के रूप में नामित किया था, हालांकि आमतौर पर ऐसा माना जाता है कि A का अर्थ Akaike है"। दरअसल, जब AIC स्टेटिस्टिक्स की शुरुआत करते हैं, Akaike (1974, p.719) बताते …

47 forecasting model-selection aic bic

2

परतों में का इष्टतम संख्या पार सत्यापन गुना: हमेशा सबसे अच्छा विकल्प है छुट्टी-एक-बाहर सीवी?

कम्प्यूटिंग पावर विचारों को एक तरफ करने के लिए, क्या यह मानने के कोई कारण हैं कि क्रॉस-वैलिडेशन में सिलवटों की संख्या बढ़ने से बेहतर मॉडल चयन / सत्यापन होता है (यानी कि सिलवटों की संख्या जितनी अधिक होगी)? चरम पर तर्क लेते हुए छुट्टी-एक-बाहर पार सत्यापन जरूरी बेहतर मॉडल …

47 cross-validation bias-variance-tradeoff

5

QQplot की व्याख्या करना - क्या गैर-सामान्यता के लिए निर्णय लेने के लिए अंगूठे का कोई नियम है?

मैंने QQplots पर पर्याप्त सूत्र पढ़े हैं यह समझने के लिए कि एक QQplot अन्य सामान्यता परीक्षणों की तुलना में अधिक जानकारीपूर्ण हो सकता है। हालाँकि, मैं QQplots की व्याख्या करने के साथ अनुभवहीन हूं। मैंने बहुत गुस्ताखी की; मुझे गैर-सामान्य QQplots के बहुत सारे ग्राफ़ मिले, लेकिन उनकी व्याख्या …

47 interpretation normality-assumption qq-plot

4

अंकगणित माध्य के समान क्यों है?

आज मुझे गणित विषय में एक नया विषय आया। मैं जिस पुस्तक का अनुसरण कर रहा हूं, वह कहती है, अपेक्षा किसी भी संभाव्यता वितरण से आने वाले यादृच्छिक चर का अंकगणितीय माध्य है। लेकिन, यह कुछ डेटा के उत्पाद और इसकी संभावना के रूप में अपेक्षा को परिभाषित करता …

47 expected-value

2

क्या स्प्लीन डेटा ओवरफिट कर रहे हैं?

मेरी समस्या : मैं हाल ही में एक सांख्यिकीविद् से मिला, जिसने मुझे सूचित किया कि स्प्लिन केवल डेटा की खोज के लिए उपयोगी हैं और ओवरफिटिंग के अधीन हैं, इस प्रकार भविष्यवाणी में उपयोगी नहीं हैं। उन्होंने सरल बहुपदों के साथ खोज करना पसंद किया ... जैसा कि मैं …

47 regression splines

5

R - QQPlot: यह देखने के लिए कि कैसे डेटा को सामान्य रूप से वितरित किया जाता है

शापिरो-विलक सामान्यता परीक्षण करने के बाद मैंने यह साजिश रची है। परीक्षण से पता चला कि यह संभावना है कि जनसंख्या सामान्य रूप से वितरित की जाती है। हालांकि, इस साजिश पर इस "व्यवहार" को कैसे देखें? अपडेट करें डेटा का एक सरल हिस्टोग्राम: अपडेट करें शापिरो-विल्क परीक्षण कहता है:

47 r data-visualization normal-distribution histogram qq-plot

3

मैं डेटासेट में चोटियाँ कैसे ढूँढूँ?

अगर मेरे पास एक डेटा सेट है जो निम्नलिखित के रूप में एक ग्राफ बनाता है, तो मैं दिखाए गए चोटियों के एक्स-मानों को कैसे निर्धारित करूंगा (इस मामले में उनमें से तीन):

47 data-visualization mode

4

लॉजिस्टिक रिग्रेशन सब्मिट चयन कैसे करें?

मैं आर में एक द्विपद परिवार की चमक फिट कर रहा हूं, और मेरे पास व्याख्यात्मक चर की एक पूरी मंडली है, और मुझे सबसे अच्छा खोजने की आवश्यकता है (माप के रूप में आर-स्क्वेर ठीक है)। व्याख्यात्मक चर के यादृच्छिक अलग-अलग संयोजनों के माध्यम से लूप में एक स्क्रिप्ट …

47 r logistic

6

बायेसियन सांख्यिकी ट्यूटोरियल

मैं Bayesian सांख्यिकी में गति प्राप्त करने की कोशिश कर रहा हूं। मेरे पास आँकड़े पृष्ठभूमि (STAT 101) का थोड़ा बहुत है लेकिन बहुत अधिक नहीं है - मुझे लगता है कि मैं पूर्व, पीछे और संभावना को समझ सकता हूं: डी। मैं अभी तक एक बायसियन पाठ्यपुस्तक नहीं पढ़ना …

47 bayesian references

5

पहला आर पैकेज सोर्स कोड खुद के पैकेज लिखने की तैयारी में अध्ययन करने के लिए

मैं आर पैकेज लिखना शुरू करने की योजना बना रहा हूं। मैंने सोचा कि पैकेज निर्माण की परंपराओं को सीखने के लिए मौजूदा पैकेजों के स्रोत कोड का अध्ययन करना अच्छा होगा। अध्ययन के लिए अच्छे पैकेज के लिए मेरा मानदंड: सरल सांख्यिकीय / तकनीकी विचार : बिंदु पैकेज निर्माण …

47 r

15

अधिकांश भ्रामक सांख्यिकीय शब्द

हम सांख्यिकीविद कई शब्दों का उपयोग उन तरीकों से करते हैं, जो हर किसी के उपयोग करने के तरीके से थोड़े अलग हैं। जब हम सिखाते हैं या समझाते हैं तो यह बहुत समस्याएँ पैदा करता है। मैं एक सूची शुरू करूँगा (और अब मैं कुछ परिभाषाएँ जोड़ूंगा, प्रति टिप्पणी): …

47 terminology communication

3

क्या वक्र आकृति के आधार पर समय-श्रृंखला क्लस्टरिंग करना संभव है?

मेरे पास आउटलेट्स की एक श्रृंखला के लिए बिक्री डेटा है, और समय के साथ उनके घटता के आकार के आधार पर उन्हें वर्गीकृत करना चाहते हैं। डेटा लगभग इस तरह दिखता है (लेकिन स्पष्ट रूप से यादृच्छिक नहीं है, और कुछ लापता डेटा है): n.quarters <- 100 n.stores <- …

47 r time-series clustering

7

जब एक टी-टेस्ट आयोजित किया जाता है, तो कोई हमेशा df के वेल्च सन्निकटन का उपयोग करने के बजाय समान भिन्नताओं को क्यों मान सकता है (या परीक्षण करना)?

ऐसा लगता है कि जब विचरण की समरूपता की धारणा को पूरा किया गया है कि एक वेल्च समायोजित टी-परीक्षण और एक मानक टी-परीक्षण से परिणाम लगभग समान हैं। क्यों नहीं हमेशा वेल्च समायोजित टी का उपयोग करें?

47 variance t-test heteroscedasticity

14

आत्मविश्वास अंतराल की व्याख्या पर स्पष्टीकरण?

धारणा की मेरी वर्तमान समझ "आत्मविश्वास स्तर साथ आत्मविश्वास अंतराल " यह है कि अगर हमने कई बार विश्वास अंतराल की गणना करने की कोशिश की (प्रत्येक बार एक ताजा नमूने के साथ), इसमें सही पैरामीटर होगा समय।1 - α1−α1 - \alpha1 - α1−α1 - \alpha हालांकि मुझे लगता है …

47 confidence-interval

2

जीएलएम आर में अवशिष्ट और नल डिवियन की व्याख्या करना

आरएल में जीएलएम में नल और अवशिष्ट डीविंस की व्याख्या कैसे करें? जैसे, हम कहते हैं कि छोटा AIC बेहतर है। क्या विचलन के लिए भी कोई समान और त्वरित व्याख्या है? अशक्त विचलन: स्वतंत्रता के 1077 डिग्री पर 1146.1 अवशिष्ट अवशिष्ट: 4589.4 आजादी के 1099 डिग्री पर: 6589

47 generalized-linear-model deviance