सांख्यिकी और बिग डेटा

3

बड़े , छोटे समस्या से निपटने के दौरान मॉडल की स्थिरता

परिचय: मेरे पास एक शास्त्रीय "बड़े पी, छोटे एन समस्या" के साथ एक डेटासेट है। उपलब्ध नमूनों की संख्या n = 150 जबकि संभावित भविष्यवक्ताओं की संख्या p = 400। परिणाम एक सतत चर है। मैं सबसे "महत्वपूर्ण" वर्णनकर्ताओं को ढूंढना चाहता हूं, अर्थात, जो परिणाम की व्याख्या करने और …

22 regression cross-validation model-selection feature-selection elastic-net

1

सांख्यिकीय शक्ति की गणना

जैसा कि मैं इसे समझता हूं, मुझे शक्ति विश्लेषण करने के लिए अपने प्रस्तावित अध्ययन के कम से कम तीन पहलुओं (चार में से) को जानने की आवश्यकता है, अर्थात्: परीक्षण का प्रकार - मैं पियर्सन के r और ANCOVA / प्रतिगमन - GLM का उपयोग करने का इरादा रखता …

22 power-analysis

2

मिश्रित प्रभाव वाले मॉडल की तुलना और सत्यापन कैसे किया जाना चाहिए?

आम तौर पर एक दूसरे के मुकाबले (रैखिक) मिश्रित प्रभाव वाले मॉडल कैसे होते हैं? मुझे पता है कि संभावना अनुपात परीक्षण का उपयोग किया जा सकता है, लेकिन यह काम नहीं करता है अगर एक मॉडल दूसरे सही का 'सबसेट' नहीं है? क्या मॉडल df का अनुमान हमेशा सीधा …

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

1

कई मौसमी घटकों के साथ समय श्रृंखला को कैसे विघटित किया जाए?

मेरे पास एक समय श्रृंखला है जिसमें दोहरे मौसमी घटक शामिल हैं और मैं निम्नलिखित समय श्रृंखला घटकों (प्रवृत्ति, मौसमी घटक 1, मौसमी घटक 2 और अनियमित घटक) में श्रृंखला को विघटित करना चाहूंगा। जहाँ तक मुझे पता है, R में एक श्रृंखला को विघटित करने की STL प्रक्रिया केवल …

22 r time-series forecasting decomposition multiple-seasonalities

2

मैं R में Pareto वितरण के लिए डेटा का एक सेट कैसे फिट करूं?

चलो, हम कहते हैं, निम्नलिखित डेटा: 8232302 684531 116857 89724 82267 75988 63871 23718 1696 436 439 248 235 इसे (और कई अन्य डेटासेट) एक पारेटो वितरण के लिए फिट करने के लिए एक सरल तरीका चाहते हैं। आदर्श रूप से यह मिलान के सैद्धांतिक मूल्यों का उत्पादन करेगा, कम …

22 r pareto-distribution

4

क्यों रेखीय प्रतीपगमन करते हैं और एनोवा अलग देना चर के बीच बातचीत पर विचार के मामले में -value?

मैं प्रतिगमन मॉडल का उपयोग करके एक बार-श्रृंखला डेटा (प्रतिकृति के बिना) फिट करने की कोशिश कर रहा था। डेटा इस प्रकार दिखता है: > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 …

22 r regression statistical-significance anova p-value

2

कमजोर शिक्षार्थियों की "ताकत" पर

मैं कलाकारों की टुकड़ी सीखने (जैसे बूस्टिंग) में कमजोर शिक्षार्थियों के बारे में कई बारीकी से संबंधित प्रश्न करता हूं। यह गूंगा लग सकता है, लेकिन मजबूत शिक्षार्थियों के विपरीत कमजोर का उपयोग करने के क्या लाभ हैं? (उदाहरण के लिए "मजबूत" सीखने के तरीकों को बढ़ावा क्यों नहीं दिया …

22 machine-learning boosting ensemble

4

तार्किक और बिजली कानून वितरण (नेटवर्क डिग्री वितरण) के बीच अंतर की व्याख्या

सबसे पहले, मैं एक सांख्यिकीविद् नहीं हूँ। हालांकि, मैं अपने पीएचडी के लिए सांख्यिकीय नेटवर्क विश्लेषण कर रहा हूं। नेटवर्क विश्लेषण के हिस्से के रूप में, मैंने नेटवर्क डिग्रियों का एक पूरक कार्यान्वयन वितरण समारोह (CCDF) दिया। मैंने पाया कि पारंपरिक नेटवर्क वितरण (जैसे डब्ल्यूडब्ल्यूडब्ल्यू) के विपरीत, वितरण को सबसे …

22 curve-fitting networks lognormal power-law

1

किसी दिए गए डेटासेट के लिए पियर्सन और स्पीयरमैन के सहसंबंध के बीच सहसंबंध गुणांक में बड़ा अंतर क्या हो सकता है?

दो चर के बीच पियर्सन का गुणांक काफी अधिक है (r = .65)। लेकिन जब मैं चर मानों को रैंक करता हूं और एक स्पीयरमैन के सहसंबंध को चलाता हूं, तो कॉफ़िशिएंसी मूल्य बहुत कम है (आर = 30)। इसकी व्याख्या क्या है?

22 correlation spearman-rho

2

मॉडल चयन बेयसियन या क्रॉस-सत्यापन के लिए सबसे अच्छा तरीका?

जब विभिन्न मॉडलों या चयन करने के लिए कई विशेषताओं के बीच चयन करने का प्रयास किया जाता है, तो कहें कि भविष्यवाणी मैं दो दृष्टिकोणों के बारे में सोच सकता हूं। डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करें। अभी भी बेहतर है, बूटस्ट्रैपिंग या के-गुना क्रॉस-सत्यापन का …

22 bayesian model-selection cross-validation feature-selection

3

बहुभिन्नरूपी श्रृंखला श्रृंखला भविष्यवाणी के लिए वेक्टर प्रतिगमन का समर्थन करें

क्या किसी ने सपोर्ट वेक्टर रिग्रेशन का उपयोग करते हुए समय श्रृंखला भविष्यवाणी का प्रयास किया है? मैं सपोर्ट वेक्टर मशीनों को समझता हूं और आंशिक रूप से सपोर्ट वेक्टर रिग्रेशन को समझता हूं, लेकिन मुझे समझ नहीं आता है कि इन्हें टाइम सीरीज, खासकर मल्टीवेरेट टाइम सीरीज के लिए …

22 time-series machine-learning svm

2

विभिन्न स्थितियों के तहत दो संख्यात्मक चर के बीच सहयोग पर सुझाव के साथ अच्छा ऑनलाइन संसाधन

प्रसंग: जब तक मैं दो संख्यात्मक चर के बीच एसोसिएशन को प्रभावी ढंग से प्लॉट करने के लिए उत्तराधिकार का एक सेट हासिल कर चुका हूं। मैं कल्पना करता हूं कि ज्यादातर लोग जो डेटा के साथ काम करते हैं, उनके पास नियमों का एक समान सेट होगा। ऐसे नियमों …

22 data-visualization correlation teaching rule-of-thumb scatterplot

1

भारी पूंछ और वसा पूंछ वितरण के बीच अंतर

मैंने सोचा था कि भारी पूंछ = वसा की पूंछ, लेकिन मैंने जो कुछ लेख पढ़े, उन्होंने मुझे समझ में आया कि वे नहीं हैं। उनमें से एक कहता है: भारी पूंछ का मतलब है कि वितरण में कुछ पूर्णांक j के लिए अनंत jth क्षण है। इसके अतिरिक्त पारेतो …

22 distributions

2

परिकल्पना परीक्षण में एक सीमा के बजाय अशक्त परिकल्पना हमेशा एक बिंदु मान क्यों होती है?

यह कुछ अन्य प्रश्न से संबंधित है जो मैंने पूछा था। प्रश्न मेरे पास है, जब परिकल्पना परीक्षण कर रही है, जब वैकल्पिक परिकल्पना एक सीमा है, अशक्त परिकल्पना अभी भी एक बिंदु मान है। एक उदाहरण के रूप में, जब परीक्षण कि क्या एक सहसंबंध गुणांक 0.5 से अधिक …

22 hypothesis-testing

4

अधिकतम संभावना का उपयोग करके सामान्य मॉडल को मल्टीवेरेट करते समय सहसंयोजक मैट्रिक्स के गुणों को कैसे सुनिश्चित किया जाए?

मान लीजिए मेरे पास निम्न मॉडल है yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i जहाँyi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i व्याख्यात्मक चर का एक वेक्टर है, θθ\theta के गैर रेखीय समारोह मापदंडों है fff और εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma) , जहां ΣΣ\Sigma स्वाभाविक रूप से है K×KK×KK\times K मैट्रिक्स । लक्ष्य का अनुमान लगाना सामान्य है और Σ । स्पष्ट …

22 maximum-likelihood optimization covariance