सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

4
क्या बूटस्ट्रैप को छोटे नमूने के आकार के लिए "इलाज" के रूप में देखा जा सकता है?
यह प्रश्न मैंने इस स्नातक स्तर की सांख्यिकी पाठ्यपुस्तक में पढ़ी गई चीज़ों और भी (स्वतंत्र रूप से) इस प्रस्तुति के दौरान एक सांख्यिकीय संगोष्ठी में सुना है। दोनों ही मामलों में, बयान "की वजह से था, क्योंकि नमूना का आकार बहुत छोटा है, हमने इस पैरामीट्रिक विधि बजाय (या …

8
मौजूदा चर के लिए एक परिभाषित सहसंबंध के साथ एक यादृच्छिक चर उत्पन्न करें
सिमुलेशन अध्ययन के लिए मुझे यादृच्छिक चर उत्पन्न करना होगा जो मौजूदा चर लिए पूर्वनिर्मित (जनसंख्या) सहसंबंध दिखाते हैं ।YYY मैंने Rपैकेजों पर ध्यान दिया copulaऔर CDVineजो एक दी गई निर्भरता संरचना के साथ यादृच्छिक बहुभिन्नरूपी वितरण का उत्पादन कर सकते हैं। हालाँकि, किसी मौजूदा चर के परिणामस्वरूप चर को …

12
रैखिक प्रतिगमन के बारे में सबसे आम गलत धारणाओं में से कुछ क्या हैं?
मैं आपके लिए उत्सुक हूं, जिनके पास अन्य शोधकर्ताओं के साथ सहयोग करने का व्यापक अनुभव है, जो रैखिक प्रतिगमन के बारे में सबसे आम गलत धारणाओं में से कुछ हैं जो आप मुठभेड़ करते हैं? मुझे लगता है कि समय से पहले आम भ्रांतियों के बारे में सोचने के …

4
कैसे कल्पना करें कि कैनोनिकल सहसंबंध विश्लेषण क्या करता है (प्रिंसिपल घटक विश्लेषण की तुलना में) क्या करता है?
कैन्यिकल कॉर्लेशन विश्लेषण (CCA) एक घटक है जो प्रमुख घटक विश्लेषण (PCA) से संबंधित है। जबकि पीसीए या रैखिक प्रतिगमन को स्कैटर प्लॉट का उपयोग करना सिखाना आसान है (Google छवि खोज पर कुछ हज़ार उदाहरण देखें), मैंने सीसीए के लिए समान सहज दो-आयामी उदाहरण नहीं देखा है। कैसे स्पष्ट …

10
क्या टी-टेस्ट के लिए वैध होने के लिए न्यूनतम नमूना आकार आवश्यक है?
मैं वर्तमान में एक अर्ध-प्रायोगिक शोध पत्र पर काम कर रहा हूं। मेरे पास चुने हुए क्षेत्र के भीतर कम आबादी के कारण केवल 15 का एक नमूना आकार है और वह केवल 15 मेरे मानदंडों को पूरा करता है। टी-टेस्ट और एफ-टेस्ट के लिए गणना करने के लिए 15 …

5
समय-श्रृंखला मॉडल चयन के लिए k- गुना क्रॉस-सत्यापन का उपयोग करना
प्रश्न: मैं कुछ सुनिश्चित करना चाहता हूं, क्या समय श्रृंखला के साथ k- गुना क्रॉस-सत्यापन का उपयोग सीधा है, या किसी को उपयोग करने से पहले विशेष ध्यान देने की आवश्यकता है? बैकग्राउंड: मैं हर 5 मिनट में डेटा सैंपल के साथ 6 साल की टाइम सीरीज़ (सेमी-मार्कोव चेन के …

9
अर्थमिति और अन्य सांख्यिकीय क्षेत्रों के बीच प्रमुख दार्शनिक, पद्धतिगत और पारिभाषिक अंतर क्या हैं?
अर्थमिति में पारंपरिक आंकड़ों के साथ पर्याप्त ओवरलैप है, लेकिन अक्सर विभिन्न विषयों ("पहचान," "बहिर्जात," आदि) के बारे में अपने स्वयं के शब्दजाल का उपयोग करता है। मैंने एक बार एक अन्य क्षेत्र में एक लागू सांख्यिकी प्रोफेसर को सुना था कि अक्सर शब्दावली अलग होती है लेकिन अवधारणाएं समान …

9
क्यों महत्वपूर्ण एफ सांख्यिकीय (पी <.001) प्राप्त करना संभव है, लेकिन गैर-महत्वपूर्ण प्रतिगामी टी-परीक्षण?
एक बहु-रेखीय प्रतिगमन में, अत्यधिक महत्वपूर्ण F आँकड़ा (p &lt;.001) होना क्यों संभव है, लेकिन सभी regressor के t परीक्षणों पर बहुत उच्च p-मान हैं? मेरे मॉडल में, 10 रजिस्ट्रार हैं। एक का पी-मान 0.1 है और बाकी 0.9 से ऊपर हैं इस समस्या से निपटने के लिए अनुवर्ती प्रश्न …

15
व्याख्यात्मक बनाम भविष्य कहनेवाला मॉडलिंग पर व्यावहारिक विचार
अप्रैल में वापस, मैंने यूएमडी मठ विभाग सांख्यिकी समूह संगोष्ठी श्रृंखला में एक चर्चा में भाग लिया, जिसे "समझाने या भविष्यवाणी करने के लिए" कहा गया। यह बात प्रो गैलीट श्मुइली ने दी, जो यूएमडी के स्मिथ बिजनेस स्कूल में पढ़ाते हैं। उसकी बात शोध पर आधारित थी, जो उसने …

3
तंत्रिका नेटवर्क के शोधकर्ता युगों की परवाह क्यों करते हैं?
स्टोचस्टिक ढाल वंश में एक युग डेटा के माध्यम से एक एकल पास के रूप में परिभाषित किया गया है। प्रत्येक SGD मिनीबैच के लिए, नमूने खींचे जाते हैं , क्रमिक गणना और पैरामीटर अपडेट किए जाते हैं। युगीन सेटिंग में, नमूने प्रतिस्थापन के बिना खींचे जाते हैं।kkk लेकिन यह …

1
क्रॉस सत्यापन, लर्निंग कर्व और अंतिम मूल्यांकन के लिए डेटासेट को कैसे विभाजित करें?
डेटासेट को विभाजित करने के लिए एक उपयुक्त रणनीति क्या है? मैं निम्नलिखित दृष्टिकोण पर प्रतिक्रिया के लिए पूछना (जैसे व्यक्तिगत मानकों के आधार पर नहीं test_sizeया n_iter, लेकिन अगर मैं इस्तेमाल किया X, y, X_train, y_train, X_test, और y_testउचित रूप से और अनुक्रम समझ में आता है तो): ( …

9
समय-श्रृंखला पर विसंगतियों का पता लगाने के लिए मुझे किस एल्गोरिथ्म का उपयोग करना चाहिए?
पृष्ठभूमि मैं नेटवर्क संचालन केंद्र में काम कर रहा हूं, हम कंप्यूटर सिस्टम और उनके प्रदर्शन की निगरानी करते हैं। मॉनिटर करने के लिए एक महत्वपूर्ण मैट्रिक्स वर्तमान में हमारे सर्वर से जुड़े विज़िटर के कई ग्राहक हैं। इसे दृश्यमान बनाने के लिए हम (ऑप्स टीम) ऐसे मेट्रिक्स को टाइम-सीरीज़ …

2
रैखिक प्रतिगमन में अनुमानित मूल्यों के लिए आत्मविश्वास अंतराल का आकार
मैंने देखा है कि एक रेखीय प्रतिगमन में अनुमानित मूल्यों के लिए विश्वास अंतराल भविष्यवक्ता के न्यूनतम और अधिकतम मूल्यों के आसपास भविष्यवक्ता और वसा के माध्यम से संकीर्ण होने की ओर इशारा करता है। यह इन 4 रैखिक रजिस्टरों के भूखंडों में देखा जा सकता है: मैंने शुरू में …

4
R फ़ंक्शन prcomp और princomp के बीच क्या अंतर है?
मैंने क्यू-मोड और आर-मोड प्रमुख घटक विश्लेषण (पीसीए) के बारे में तुलना ?prcompऔर ?princompकुछ पाया। लेकिन ईमानदारी से - मैं इसे नहीं समझता। क्या कोई अंतर समझा सकता है और शायद यह भी बताए कि कब कौन सा आवेदन करना है?
69 r  pca 

4
सहसंबंध गुणांक प्रतिगमन ढलान से कैसे भिन्न होता है?
मैंने उम्मीद की थी कि सहसंबंध गुणांक एक प्रतिगमन ढलान (बीटा) के समान होगा, हालांकि दोनों की तुलना करने के बाद, वे अलग हैं। वे कैसे भिन्न होते हैं - वे क्या अलग जानकारी देते हैं?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.