सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

5
बड़े डेटासेट के खोजपूर्ण विश्लेषण को कैसे रोकें?
जब मैं एक बड़े डेटा सेट (कई नमूने, कई चर) पर एक खोजपूर्ण विश्लेषण शुरू करता हूं, तो मैं अक्सर खुद को सैकड़ों व्युत्पन्न चर, और विभिन्न भूखंडों के टन के साथ पाता हूं, और यह पता लगाने का कोई वास्तविक तरीका नहीं है कि क्या हो रहा है। कोड …

2
बाइनरी मैट्रिक्स को क्लस्टर करना
मेरे पास आयाम 250k x 100 की बाइनरी विशेषताओं का एक अर्ध-छोटा मैट्रिक्स है। प्रत्येक पंक्ति एक उपयोगकर्ता है और कॉलम कुछ उपयोगकर्ता व्यवहार के बाइनरी "टैग" हैं जैसे "पसंद_कैट"। user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 …

3
सिम्पसन के विरोधाभास को समझना: सेक्स और ऊंचाई पर आय प्राप्त करने के साथ एंड्रयू जेलमैन का उदाहरण
एंड्रयू जेलमैन अपने हाल के ब्लॉग पोस्टों में से एक में कहते हैं: मुझे नहीं लगता कि सिम्पसन के विरोधाभास के लिए जवाबी कार्रवाई या संभावित परिणाम आवश्यक हैं। मैं यह कहता हूं क्योंकि कोई भी सिम्पसन के विरोधाभास को उन चरों के साथ स्थापित कर सकता है जिन्हें हेरफेर …

3
क्या W स्टेटकॉक्स.टेस्ट () आर में यू स्टेटिस्टिक के समान है?
मैं हाल ही में मान-व्हिटनी यू परीक्षण के बारे में पढ़ रहा हूं। यह पता चला है कि आर में इस परीक्षण को करने के लिए आपको वास्तव में एक विलकॉक्सन परीक्षण चलाने की आवश्यकता है! मेरा प्रश्न: wilcox.testR का W आँकड़ा U आँकड़ा के समान है?

2
लोचदार नेट लॉजिस्टिक प्रतिगमन में इष्टतम अल्फा चुनना
मैं का उपयोग कर एक स्वास्थ्य देखभाल डेटासेट पर एक लोचदार शुद्ध रसद प्रतिगमन प्रदर्शन कर रहा हूँ glmnetका एक ग्रिड से अधिक लैम्ब्डा मूल्यों का चयन करके आर में पैकेज 1. 0 से मेरे संक्षिप्त कोड के नीचे है:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, …

2
प्रतिगमन (OLS और GLMs) में वाल्ड परीक्षण: t- बनाम z- वितरण
मैं समझता हूं कि प्रतिगमन गुणांक के लिए वाल्ड परीक्षण निम्न संपत्ति पर आधारित है जो कि अस्वाभाविक रूप से रखती है (जैसे Wasserman (2006): सभी सांख्यिकी , पृष्ठ 153, 214-215): जहां अनुमानित प्रतिगमन गुणांक को दर्शाता है, _ प्रतिगमन गुणांक की मानक त्रुटि को दर्शाता है और ब्याज का …

3
लार्स समस्या के लिए लार्स और ग्लमेनेट अलग-अलग समाधान क्यों देते हैं?
मैं बेहतर आर संकुल को समझना चाहते हैं Larsऔर Glmnetहै, जो कमंद समस्या को हल करने के लिए इस्तेमाल कर रहे हैं: (पेजवेरिएबल्स औरएननमूनों के लिए,www.stanford.edu/~hastie/Papers/glmnet.pdfपेज 3 परदेखें)m i n( β0β) ∈ आरपी + 1[ १2 एनΣमैं = १एन( yमैं- β0- एक्सटीमैंβ)2+ λ | | β| |एल1]मीटरमैंn(β0β)∈आरपी+1[12एनΣमैं=1एन(yमैं-β0-एक्समैंटीβ)2+λ||β||एल1]min_{(\beta_0 \beta) \in R^{p+1}} …

8
K- साधन (या उसके करीबी परिजन) केवल एक दूरी मैट्रिक्स के साथ क्लस्टरिंग करें, न कि पॉइंट-बाय-फीचर्स डेटा
मैं K- साधनों का प्रदर्शन उन वस्तुओं पर करना चाहता हूं जो मेरे पास हैं, लेकिन वस्तुओं को अंतरिक्ष में बिंदुओं के रूप में वर्णित नहीं किया जाता है, अर्थात objects x featuresडाटासेट द्वारा । हालांकि, मैं किसी भी दो वस्तुओं के बीच की दूरी की गणना करने में सक्षम …

4
आप एंग्री बर्ड्स खेलने के लिए मशीन लर्निंग सिस्टम कैसे डिजाइन करेंगे?
बहुत अधिक गुस्सा पक्षी खेलने के बाद, मैंने अपनी रणनीतियों का पालन करना शुरू कर दिया। यह पता चला है कि मैंने प्रत्येक स्तर पर 3 स्टार प्राप्त करने के लिए एक बहुत ही विशिष्ट दृष्टिकोण विकसित किया है। इसने मुझे मशीन लर्निंग सिस्टम विकसित करने की चुनौतियों के बारे …

1
एक बातचीत के लिए इंट्राक्लास सहसंबंध (आईसीसी)?
मान लीजिए कि मेरे पास प्रत्येक साइट पर प्रत्येक विषय के लिए कुछ माप है। दो चर, विषय और साइट, कंप्यूटिंग इंट्राक्लास सहसंबंध (आईसीसी) मूल्यों के संदर्भ में रुचि रखते हैं। आमतौर पर मैं lmerआर पैकेज से फ़ंक्शन का उपयोग करता हूं lme4, और चलाता हूं lmer(measurement ~ 1 + …

3
एआईसी या पी-मूल्य: मॉडल चयन के लिए किसे चुनना है?
मैं इस R चीज़ के लिए बिल्कुल नया हूं लेकिन यह सुनिश्चित करने के लिए अनिश्चित हूं कि किस मॉडल का चयन करना है। मैंने न्यूनतम AIC के आधार पर प्रत्येक चर का चयन करते हुए एक स्टेपवाइज़ फ़ॉरवर्ड रिग्रेशन किया । मैं 3 मॉडल के साथ आया था कि …

2
क्या आंकड़ों का एक सेट जमा करना संभव है जो बड़ी संख्या में नमूनों का वर्णन करता है जैसे कि मैं तब एक बॉक्सप्लॉट का उत्पादन कर सकता हूं?
मुझे तुरंत स्पष्ट करना चाहिए कि मैं एक प्रैक्टिसिंग सॉफ्टवेयर डेवलपर हूं, न कि एक सांख्यिकीविद्, और यह कि मेरा कॉलेज स्टैटस क्लास बहुत समय पहले… उस ने कहा, मैं यह जानना चाहूंगा कि क्या वर्णनात्मक आंकड़ों के एक सेट को संचित करने के लिए एक विधि है जो तब …

5
वितरण में अंतर के महत्व का आकलन करना
मेरे पास डेटा के दो समूह हैं। प्रत्येक एक से अधिक चर के विभिन्न वितरण के साथ। मैं यह निर्धारित करने की कोशिश कर रहा हूं कि क्या ये दो समूहों के वितरण सांख्यिकीय रूप से महत्वपूर्ण हैं। मेरे पास दोनों कच्चे रूप में डेटा है और प्रत्येक में आवृत्ति …

1
और कोई अंतर है ?
सहसंबंध गुणांक आमतौर पर एक राजधानी साथ लिखा जाता है लेकिन कभी-कभी नहीं। मुझे आश्चर्य है कि क्या वास्तव में और बीच अंतर है ? क्या सहसंबंध गुणांक की तुलना में कुछ और हो सकता है?RRRr2r2r^2R2R2R^2rrr

3
हमें कोड वेरिएबल डमी कोड की आवश्यकता क्यों है
मुझे यकीन नहीं है कि हमें कोड वेरिएबल डमी कोड की आवश्यकता क्यों है। उदाहरण के लिए, यदि मेरे पास चार संभव मानों के साथ एक श्रेणीगत चर है, तो 0,1,2,3 मैं इसे दो आयामों से बदल सकता हूं। यदि चर का मान 0 था, तो इसके दो आयाम में …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.