सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
सांख्यिकीय अनुमान लगाते समय नियमितीकरण का उपयोग करना
मैं पूर्वानुमान मॉडल (पूर्वाग्रह बनाम विचरण, ओवरफिटिंग को रोकने) के निर्माण के दौरान नियमितीकरण के लाभों के बारे में जानता हूं। लेकिन, मैं सोच रहा हूं कि क्या नियमितीकरण (लासो, रिज, इलास्टिक नेट) करना भी एक अच्छा विचार है, जब प्रतिगमन मॉडल का मुख्य उद्देश्य गुणांकों पर अनुमान है (यह …

2
Lmer मॉडल पर पोस्ट-हॉक टेस्ट कैसे करें?
यह मेरा डेटा फ़्रेम है: Group <- c("G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3") Subject <- c("S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15") Value <- c(9.832217741,13.62390117,13.19671612,14.68552076,9.26683366,11.67886655,14.65083473,12.20969772,11.58494621,13.58474896,12.49053635,10.28208078,12.21945867,12.58276212,15.42648969,9.466436017,11.46582655,10.78725485,10.66159358,10.86701127,12.97863424,12.85276916,8.672953949,10.44587257,13.62135205,13.64038394,12.45778874,8.655142642,10.65925259,13.18336949,11.96595556,13.5552118,11.8337142,14.01763101,11.37502161,14.14801305,13.21640866,9.141392359,11.65848845,14.20350364,14.1829714,11.26202565,11.98431285,13.77216009,11.57303893) data <- data.frame(Group, Subject, Value) फिर मैं "मूल्य" पर 3 समूहों के अंतर की तुलना करने के लिए एक रैखिक-मिश्रित प्रभाव मॉडल चलाता हूं, जहां "विषय" यादृच्छिक कारक है: library(lme4) library(lmerTest) model <- lmer (Value~Group + …
18 r  lme4-nlme  post-hoc 

1
k-NN कम्प्यूटेशनल जटिलता
भोले खोज के दृष्टिकोण (कोई kd पेड़ या सिमिलर्स) के साथ k -NN एल्गोरिथ्म की समय जटिलता क्या है ? मैं हाइपरपरमीटर k पर विचार करते हुए इसकी समय जटिलता में रुचि रखता हूं । मुझे विरोधाभासी उत्तर मिले हैं: O (nd + kn), जहां n प्रशिक्षण सेट की कार्डिनैलिटी …

4
उत्तल अनुकूलन में द्वितीय-क्रम डेरिवेटिव उपयोगी क्यों हैं?
मुझे लगता है कि यह एक बुनियादी सवाल है और इसे ग्रेडिएंट की दिशा के साथ ही करना है, लेकिन मैं ऐसे उदाहरणों की तलाश कर रहा हूं, जहां 2 क्रम विधियां (जैसे बीएफजीएस ) सरल ढाल वंश की तुलना में अधिक प्रभावी हैं।

3
पहले सिर तक आने की उम्मीद की संख्या
मान लीजिए कि जब तक पहली बार एक सिर प्राप्त नहीं होता है तब तक एक उचित सिक्का बार-बार उछाला जाता है। अपेक्षित संख्या में टॉस की क्या आवश्यकता है? पहले सिर को प्राप्त करने से पहले पूंछ की अपेक्षित संख्या क्या होगी?

3
कुल्बैक-लीब्लर विचलन का विश्लेषण
आइए हम निम्नलिखित दो संभाव्यता वितरणों पर विचार करें P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 मैंने कुल्बैक-लीब्लर विचलन की गणना की है जो कि बराबर है , मैं सामान्य रूप से जानना चाहता हूं कि यह …

4
जब बेयसियन तरीके आवृत्तिवादी के लिए बेहतर हैं?
मैं वास्तव में बायेसियन तकनीकों के बारे में सीखना चाहता हूं, इसलिए मैं खुद को थोड़ा सिखाने की कोशिश कर रहा हूं। हालाँकि, मुझे यह देखने में कठिन समय हो रहा है जब बेयसियन तकनीकों का उपयोग करते हुए कभी-कभी फ़्रीक्वेंटिस्ट विधियों पर लाभ मिलता है। उदाहरण के लिए: मैंने …

1
आर-वर्ग की सशर्त अपेक्षा
सरल रैखिक मॉडल पर विचार करें: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon जहां ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2) और X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p} ,औरस्थिरांक की एक कॉलम होता है।p≥2p≥2p\geq2XXX मेरा प्रश्न दिया जाता है, E(X′X)E(X′X)\mathrm{E}(X'X) , ββ\beta और σσ\sigma , वहाँ एक गैर तुच्छ ऊपरी पर बाध्य करने का फार्मूला है E(R2)E(R2)\mathrm{E}(R^2) *? (मान लिया गया कि मॉडल OLS द्वारा अनुमानित …

3
नेत्रहीन बहु आयामी क्लस्टर डेटा की साजिश रचने
मेरे पास 16 चर के साथ एक डेटा सेट है, और kmeans द्वारा क्लस्टरिंग के बाद, मैं दो समूहों की साजिश करना चाहता हूं। आप दो समूहों को नेत्रहीन रूप से दर्शाने के लिए किन भूखंडों का सुझाव देते हैं?

5
जब मेरे टी-आँकड़े इतने बड़े हैं तो मेरा आर-स्क्वेर इतना कम क्यों है?
मैं 4 चर के साथ एक प्रतिगमन भाग गया, और सभी बहुत सांख्यिकीय रूप से महत्वपूर्ण है, टी मूल्यों के साथ कर रहे हैं ≈7,9,26≈7,9,26\approx 7,9,26 और 313131 (मैं कहता हूँ ≈≈\approx क्योंकि यह दशमलव के शामिल करने के लिए अप्रासंगिक लगती है), जो बहुत ही उच्च और स्पष्ट रूप …

1
गामा वितरण के साथ डिरिचलेट वितरण का निर्माण
चलो X1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1} पारस्परिक रूप से स्वतंत्र यादृच्छिक परिवर्तनीय होना, प्रत्येक पैरामीटर के साथ एक गामा वितरण होने αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1 बताते हैं कि Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,k, के रूप में एक संयुक्त ditribution हैDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) संयुक्त पीडीएफ (X1,…,Xk+1)=e−∑k+1i=1xixα1−11…xαk+1−1k+1Γ(α1)Γ(α2)…Γ(αk+1)(X1,…,Xk+1)=e−∑i=1k+1xix1α1−1…xk+1αk+1−1Γ(α1)Γ(α2)…Γ(αk+1)(X_1,\dots,X_{k+1})=\frac{e^{-\sum_{i=1}^{k+1}x_i}x_1^{\alpha_1-1}\dots x_{k+1}^{\alpha_{k+1}-1}}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots \Gamma(\alpha_{k+1})} तो फिर के संयुक्त पीडीएफ खोजने के लिए(Y1,…,Yk+1)(Y1,…,Yk+1)(Y_1,\dots,Y_{k+1})मैं नहीं मिल सकता है Jacobian यानीJ(x1,…,xk+1y1,…,yk+1)J(x1,…,xk+1y1,…,yk+1)J(\frac{x_1,\dots,x_{k+1}}{y_1,\dots,y_{k+1}})

2
एक आधार के आधार पर कल्पना करना
जब वे विषय को समझा रहे हों, तो पाठ्यपुस्तकों में आमतौर पर समान विभाजन के लिए आधार के अच्छे उदाहरण प्लॉट होते हैं। रैखिक रेखा के लिए छोटे त्रिभुजों की एक पंक्ति या क्यूबिक पट्टी के लिए छोटे कूबड़ की एक पंक्ति की तरह कुछ। यह एक विशिष्ट उदाहरण है: …

1
एकाधिक प्रतिगमन गुणांक के लिए मानक त्रुटियां?
मुझे एहसास है कि यह एक बहुत ही बुनियादी सवाल है, लेकिन मुझे कहीं भी जवाब नहीं मिल रहा है। मैं सामान्य समीकरणों या क्यूआर अपघटन का उपयोग करके प्रतिगमन गुणांक की गणना कर रहा हूं। मैं प्रत्येक गुणांक के लिए मानक त्रुटियों की गणना कैसे कर सकता हूं? मैं …

2
एक मिश्रित प्रभाव मॉडल में समझाया विचरण का अनुपात
मुझे नहीं पता कि यह पहले पूछा गया है, लेकिन मुझे इसके बारे में कुछ नहीं मिला। मेरा सवाल यह है कि अगर कोई भी एक मिश्रित प्रभाव मॉडल में निश्चित और यादृच्छिक कारकों में से प्रत्येक के द्वारा समझाया गया विचरण के अनुपात को प्राप्त करने का तरीका जानने …

1
LASSO मान्यताओं
एक LASSO प्रतिगमन परिदृश्य में जहां y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon , और LASSO का अनुमान निम्नलिखित अनुकूलन समस्या द्वारा दिया जाता है minβ||y−Xβ||+τ||β||1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 क्या \ epsilon के संबंध में कोई वितरण संबंधी धारणाएं हैं ϵϵ\epsilon? एक OLS परिदृश्य में, कोई अपेक्षा करेगा …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.