सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - क्या मैं इनका उपयोग कर सकता हूं?
पी पर। उनके 34 PRNN ब्रायन रिप्ले टिप्पणी करते हैं कि "AIC को Aikeike (1974) ने 'एक सूचना मानदंड' के रूप में नामित किया था, हालांकि आमतौर पर ऐसा माना जाता है कि A का अर्थ Akaike है"। दरअसल, जब AIC स्टेटिस्टिक्स की शुरुआत करते हैं, Akaike (1974, p.719) बताते …

2
परतों में का इष्टतम संख्या पार सत्यापन गुना: हमेशा सबसे अच्छा विकल्प है छुट्टी-एक-बाहर सीवी?
कम्प्यूटिंग पावर विचारों को एक तरफ करने के लिए, क्या यह मानने के कोई कारण हैं कि क्रॉस-वैलिडेशन में सिलवटों की संख्या बढ़ने से बेहतर मॉडल चयन / सत्यापन होता है (यानी कि सिलवटों की संख्या जितनी अधिक होगी)? चरम पर तर्क लेते हुए छुट्टी-एक-बाहर पार सत्यापन जरूरी बेहतर मॉडल …

5
QQplot की व्याख्या करना - क्या गैर-सामान्यता के लिए निर्णय लेने के लिए अंगूठे का कोई नियम है?
मैंने QQplots पर पर्याप्त सूत्र पढ़े हैं यह समझने के लिए कि एक QQplot अन्य सामान्यता परीक्षणों की तुलना में अधिक जानकारीपूर्ण हो सकता है। हालाँकि, मैं QQplots की व्याख्या करने के साथ अनुभवहीन हूं। मैंने बहुत गुस्ताखी की; मुझे गैर-सामान्य QQplots के बहुत सारे ग्राफ़ मिले, लेकिन उनकी व्याख्या …

4
अंकगणित माध्य के समान क्यों है?
आज मुझे गणित विषय में एक नया विषय आया। मैं जिस पुस्तक का अनुसरण कर रहा हूं, वह कहती है, अपेक्षा किसी भी संभाव्यता वितरण से आने वाले यादृच्छिक चर का अंकगणितीय माध्य है। लेकिन, यह कुछ डेटा के उत्पाद और इसकी संभावना के रूप में अपेक्षा को परिभाषित करता …

2
क्या स्प्लीन डेटा ओवरफिट कर रहे हैं?
मेरी समस्या : मैं हाल ही में एक सांख्यिकीविद् से मिला, जिसने मुझे सूचित किया कि स्प्लिन केवल डेटा की खोज के लिए उपयोगी हैं और ओवरफिटिंग के अधीन हैं, इस प्रकार भविष्यवाणी में उपयोगी नहीं हैं। उन्होंने सरल बहुपदों के साथ खोज करना पसंद किया ... जैसा कि मैं …

5
R - QQPlot: यह देखने के लिए कि कैसे डेटा को सामान्य रूप से वितरित किया जाता है
शापिरो-विलक सामान्यता परीक्षण करने के बाद मैंने यह साजिश रची है। परीक्षण से पता चला कि यह संभावना है कि जनसंख्या सामान्य रूप से वितरित की जाती है। हालांकि, इस साजिश पर इस "व्यवहार" को कैसे देखें? अपडेट करें डेटा का एक सरल हिस्टोग्राम: अपडेट करें शापिरो-विल्क परीक्षण कहता है:

3
मैं डेटासेट में चोटियाँ कैसे ढूँढूँ?
अगर मेरे पास एक डेटा सेट है जो निम्नलिखित के रूप में एक ग्राफ बनाता है, तो मैं दिखाए गए चोटियों के एक्स-मानों को कैसे निर्धारित करूंगा (इस मामले में उनमें से तीन):

4
लॉजिस्टिक रिग्रेशन सब्मिट चयन कैसे करें?
मैं आर में एक द्विपद परिवार की चमक फिट कर रहा हूं, और मेरे पास व्याख्यात्मक चर की एक पूरी मंडली है, और मुझे सबसे अच्छा खोजने की आवश्यकता है (माप के रूप में आर-स्क्वेर ठीक है)। व्याख्यात्मक चर के यादृच्छिक अलग-अलग संयोजनों के माध्यम से लूप में एक स्क्रिप्ट …
47 r  logistic 

6
बायेसियन सांख्यिकी ट्यूटोरियल
मैं Bayesian सांख्यिकी में गति प्राप्त करने की कोशिश कर रहा हूं। मेरे पास आँकड़े पृष्ठभूमि (STAT 101) का थोड़ा बहुत है लेकिन बहुत अधिक नहीं है - मुझे लगता है कि मैं पूर्व, पीछे और संभावना को समझ सकता हूं: डी। मैं अभी तक एक बायसियन पाठ्यपुस्तक नहीं पढ़ना …

5
पहला आर पैकेज सोर्स कोड खुद के पैकेज लिखने की तैयारी में अध्ययन करने के लिए
मैं आर पैकेज लिखना शुरू करने की योजना बना रहा हूं। मैंने सोचा कि पैकेज निर्माण की परंपराओं को सीखने के लिए मौजूदा पैकेजों के स्रोत कोड का अध्ययन करना अच्छा होगा। अध्ययन के लिए अच्छे पैकेज के लिए मेरा मानदंड: सरल सांख्यिकीय / तकनीकी विचार : बिंदु पैकेज निर्माण …
47 r 

15
अधिकांश भ्रामक सांख्यिकीय शब्द
हम सांख्यिकीविद कई शब्दों का उपयोग उन तरीकों से करते हैं, जो हर किसी के उपयोग करने के तरीके से थोड़े अलग हैं। जब हम सिखाते हैं या समझाते हैं तो यह बहुत समस्याएँ पैदा करता है। मैं एक सूची शुरू करूँगा (और अब मैं कुछ परिभाषाएँ जोड़ूंगा, प्रति टिप्पणी): …

3
क्या वक्र आकृति के आधार पर समय-श्रृंखला क्लस्टरिंग करना संभव है?
मेरे पास आउटलेट्स की एक श्रृंखला के लिए बिक्री डेटा है, और समय के साथ उनके घटता के आकार के आधार पर उन्हें वर्गीकृत करना चाहते हैं। डेटा लगभग इस तरह दिखता है (लेकिन स्पष्ट रूप से यादृच्छिक नहीं है, और कुछ लापता डेटा है): n.quarters <- 100 n.stores <- …

7
जब एक टी-टेस्ट आयोजित किया जाता है, तो कोई हमेशा df के वेल्च सन्निकटन का उपयोग करने के बजाय समान भिन्नताओं को क्यों मान सकता है (या परीक्षण करना)?
ऐसा लगता है कि जब विचरण की समरूपता की धारणा को पूरा किया गया है कि एक वेल्च समायोजित टी-परीक्षण और एक मानक टी-परीक्षण से परिणाम लगभग समान हैं। क्यों नहीं हमेशा वेल्च समायोजित टी का उपयोग करें?

14
आत्मविश्वास अंतराल की व्याख्या पर स्पष्टीकरण?
धारणा की मेरी वर्तमान समझ "आत्मविश्वास स्तर साथ आत्मविश्वास अंतराल " यह है कि अगर हमने कई बार विश्वास अंतराल की गणना करने की कोशिश की (प्रत्येक बार एक ताजा नमूने के साथ), इसमें सही पैरामीटर होगा समय।1 - α1−α1 - \alpha1 - α1−α1 - \alpha हालांकि मुझे लगता है …

2
जीएलएम आर में अवशिष्ट और नल डिवियन की व्याख्या करना
आरएल में जीएलएम में नल और अवशिष्ट डीविंस की व्याख्या कैसे करें? जैसे, हम कहते हैं कि छोटा AIC बेहतर है। क्या विचलन के लिए भी कोई समान और त्वरित व्याख्या है? अशक्त विचलन: स्वतंत्रता के 1077 डिग्री पर 1146.1 अवशिष्ट अवशिष्ट: 4589.4 आजादी के 1099 डिग्री पर: 6589

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.