सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

1
टी-एसएनई लागू करने से पहले क्या डेटा को केंद्रित किया जाना चाहिए?
मेरे डेटा की कुछ विशेषताओं में बड़े मूल्य हैं, जबकि अन्य सुविधाओं में बहुत छोटे मूल्य हैं। क्या बड़े मूल्यों के प्रति पूर्वाग्रह को रोकने के लिए t-SNE लगाने से पहले + स्केल डेटा को केंद्र में रखना आवश्यक है? मैं डिफ़ॉल्ट यूक्लिडियन दूरी मीट्रिक के साथ पायथन के sklearn.manifold.TSNE …

2
Wilcoxon पर प्रभाव का आकार रैंक परीक्षण पर हस्ताक्षर किए?
कुछ लेखक (जैसे पल्लेंट, 2007, पी। 225; नीचे की छवि देखें) सुझाव की संख्या के वर्गमूल द्वारा परीक्षण सांख्यिकीय को विभाजित करके एक विलकॉक्सन हस्ताक्षरित रैंक परीक्षण के लिए प्रभाव आकार की गणना करने का सुझाव देते हैं: आर = जेडnएक्स+ एनy√आर=जेडnएक्स+nyr = \frac{Z}{\sqrt{n_x + n_y}} Zएसपीएसएस द्वारा परीक्षण आँकड़ा …

2
एक जोड़ा प्रतिगमन प्लॉट (आंशिक प्रतिगमन प्लॉट) एक बहु प्रतिगमन में क्या समझाता है?
मेरे पास मूवी डेटासेट का एक मॉडल है और मैंने प्रतिगमन का उपयोग किया है: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) जिसने आउटपुट दिया: अब मैंने पहली बार Add Variable …


2
REML या ML दो मिश्रित प्रभाव वाले मॉडलों की तुलना करने के लिए अलग-अलग निश्चित प्रभावों के साथ, लेकिन समान यादृच्छिक प्रभाव के साथ?
पृष्ठभूमि: नोट: मेरे डेटासेट और आर-कोड पाठ के नीचे शामिल हैं मैं R. lme4 पैकेज का उपयोग करके उत्पन्न दो मिश्रित प्रभाव मॉडल की तुलना करने के लिए AIC का उपयोग करना चाहता हूं। प्रत्येक मॉडल में एक निश्चित प्रभाव और एक यादृच्छिक प्रभाव होता है। निश्चित प्रभाव मॉडल के …

5
क्या
मैं अपने आप को समझने के लिए अगर एक कोशिश कर भ्रमित हो पा रहे -squared मूल्य भी एक है -value।rrrppp मैं यह समझ के रूप में, डेटा बिंदुओं का एक सेट के साथ रैखिक सहसंबंध में से लेकर एक मूल्य हो सकता है के लिए 1 और इस मूल्य, …

5
क्या कारण है कि लॉग-ट्रांस्फ़ॉर्म का उपयोग दाईं-तिरछी वितरण के साथ किया जाता है?
मैंने एक बार सुना था रेखीय प्रतिगमन या क्वांटाइल प्रतिगमन में दाएं तिरछी वितरण के लिए लॉग ट्रांसफॉर्मेशन सबसे लोकप्रिय है मैं जानना चाहूंगा कि क्या इस कथन का कोई कारण है? लॉग-रूपांतरण सही-तिरछा वितरण के लिए उपयुक्त क्यों है? बाएं-तिरछे वितरण के बारे में कैसे?

5
Cv.glmnet परिणामों में विविधता
मैं cv.glmnetभविष्यवक्ताओं को खोजने के लिए उपयोग कर रहा हूं । मेरे द्वारा उपयोग किया जाने वाला सेटअप इस प्रकार है: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] यह सुनिश्चित करने के परिणाम प्रतिलिपि प्रस्तुत करने योग्य मैं कर रहे हैं set.seed(1)। परिणाम अत्यधिक परिवर्तनशील हैं। मैं यह देखने के लिए कि …

3
ट्रेन में बैठने और परीक्षण से पहले या बाद में प्रतिष्ठा?
मेरे पास N ~ 5000 के साथ एक डेटा सेट है और लगभग 1/2 कम से कम एक महत्वपूर्ण चर पर गायब है। मुख्य विश्लेषणात्मक विधि कॉक्स आनुपातिक खतरे होंगे। मैं कई प्रतिरूपण का उपयोग करने की योजना बना रहा हूं। मैं ट्रेन और टेस्ट सेट में भी बंट जाऊंगा। …

4
क्या "रैंडम सैंपल" और "आईड रैंडम वैरिएबल" पर्यायवाची हैं?
मैं "रैंडम सैंपल" के साथ-साथ "आईड रैंडम वैरिएबल" के अर्थ को समझने में कठिन समय का सामना कर रहा हूं। मैंने कई स्रोतों से इसका अर्थ जानने की कोशिश की, लेकिन बस अधिक से अधिक भ्रमित हो गया। मैं यहाँ पोस्ट कर रहा हूँ जो मैंने कोशिश की और पता …

4
तीन समूहों में कई अनुपातों में अंतर की कल्पना कैसे करें?
मैं नेत्रहीन तुलना करने की कोशिश कर रहा हूं कि कैसे तीन अलग-अलग समाचार प्रकाशन विभिन्न विषयों को कवर करते हैं (एक एलडीए विषय मॉडल के माध्यम से निर्धारित)। मेरे पास ऐसा करने के लिए दो संबंधित तरीके हैं, लेकिन सहयोगियों से बहुत प्रतिक्रिया मिली है कि यह बहुत सहज …

2
R के साथ लॉजिस्टिक रिग्रेशन में गुणांक की गणना करें
एकाधिक रैखिक प्रतिगमन में निम्न सूत्र के साथ गुणांक का पता लगाना संभव है। b=(X′X)−1(X′)Yb=(X′X)−1(X′)Yb = (X'X)^{-1}(X')Y beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta उदाहरण के लिए: > y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1) > x0 <- c(1,1,1,1,1,1,1,1,1,1) > x1 …

1
एक बंधे हुए पैरामीटर स्पेस पर MCMC?
मैं एक समस्या पर MCMC लागू करने की कोशिश कर रहा हूं, लेकिन मेरे पुजारी (मेरे मामले में वे )) एक क्षेत्र तक सीमित हैं? क्या मैं सामान्य MCMC का उपयोग कर सकता हूं और उन नमूनों को अनदेखा कर सकता हूं जो प्रतिबंधित क्षेत्र के बाहर आते हैं (जो …

2
पीसीए बाइपोलॉट पर चार अक्ष क्या हैं?
जब आप PCA विश्लेषण के लिए एक द्विपद का निर्माण करते हैं, तो आपके पास x- अक्ष पर मुख्य घटक PC1 स्कोर होता है और y- अक्ष पर PC2 स्कोर होता है। लेकिन स्क्रीन के दाईं और शीर्ष पर अन्य दो कुल्हाड़ी क्या हैं?
18 r  pca  biplot 

2
डमी सुविधाओं के साथ विसंगति का पता लगाने (और अन्य असतत / श्रेणीबद्ध विशेषताएं)
tl; डॉ discreteविसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ? categoricalविसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ? यह उत्तर केवल परिणामों को फ़िल्टर करने के लिए असतत डेटा का उपयोग करने का सुझाव …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.