सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

2
मिश्रित मॉडल में स्वतंत्रता की डिग्री के लिए केटरवाइट बनाम केनवर्ड-रोजर सन्निकटन
lmerTestपैकेज एक प्रदान करता है anova()स्वतंत्रता (DF) की डिग्री की वैकल्पिक Satterthwaite के (डिफ़ॉल्ट) या Kenward-रोजर की सन्निकटन के साथ रैखिक मिश्रित मॉडल के लिए कार्य करते हैं। इन दोनों दृष्टिकोणों में क्या अंतर है? कब किसे चुनना है?

4
क्रॉस-वेलिडेशन के बाद आप 'परीक्षण' डेटासेट का उपयोग कैसे करते हैं?
कुछ व्याख्यान और ट्यूटोरियल में मैंने देखा है, वे आपके डेटा को तीन भागों में विभाजित करने का सुझाव देते हैं: प्रशिक्षण, सत्यापन और परीक्षण। लेकिन यह स्पष्ट नहीं है कि परीक्षण डेटासेट का उपयोग कैसे किया जाना चाहिए, और न ही यह दृष्टिकोण पूरे डेटा सेट पर क्रॉस-सत्यापन से …

3
प्रतिगमन में रिज नियमितीकरण की व्याख्या
मेरे पास कम से कम वर्गों के संदर्भ में रिज दंड के बारे में कई प्रश्न हैं: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) अभिव्यक्ति से पता चलता है कि X का सहसंयोजक मैट्रिक्स एक विकर्ण मैट्रिक्स की ओर सिकुड़ा हुआ है, जिसका अर्थ है कि (यह मानते हुए कि …

2
क्या यह पीसीए और एलडीए के संयोजन के लिए समझ में आता है?
मान लें कि मेरे पास पर्यवेक्षित सांख्यिकीय वर्गीकरण कार्य के लिए एक डेटासेट है, उदाहरण के लिए, बेयस के क्लासिफायरियर के माध्यम से। इस डेटासेट में 20 विशेषताएं हैं और मैं इसे प्राइमरी कंपोनेंट एनालिसिस (PCA) और / या रैखिक डिस्क्रिमिनेंट एनालिसिस (LDA) जैसी डायमेंशनलिटी रिडक्शन तकनीकों के जरिए 2 …

3
पक्षपाती अधिकतम संभावना अनुमानक के पीछे सहज तर्क
मुझे पक्षपाती अधिकतम संभावना (एमएल) के अनुमानकों पर भ्रम है । पूरी अवधारणा का गणित मेरे लिए बहुत स्पष्ट है, लेकिन मैं इसके पीछे सहज तर्क का पता नहीं लगा सकता। एक निश्चित डेटासेट को देखते हुए, जिसमें एक वितरण से नमूने होते हैं, जो स्वयं एक पैरामीटर का एक …

4
रैंडम फॉरेस्ट से कब बचें?
यादृच्छिक जंगलों को विभिन्न प्रकार के कार्यों में काफी अच्छा प्रदर्शन करने के लिए जाना जाता है और उन्हें सीखने के तरीकों के व्याख्याता के रूप में जाना जाता है । क्या किसी भी प्रकार की समस्याएं या विशिष्ट परिस्थितियां हैं जिनमें किसी को यादृच्छिक जंगल का उपयोग करने से …

7
मशीन सीखने वाले वैज्ञानिक की दैनिक नौकरी की दिनचर्या क्या है?
मैं एक जर्मन विश्वविद्यालय में मास्टर सीएस छात्र हूं जो अब मेरी थीसिस लिख रहा है। मुझे दो महीने में किया जाएगा मुझे बहुत कठिन निर्णय लेना है अगर मुझे पीएचडी जारी रखना चाहिए या उद्योग में नौकरी ढूंढनी चाहिए। पीएचडी करने के मेरे कारण: मैं बहुत जिज्ञासु व्यक्ति हूं …

2
अवरोधन और ढलान के लिए OLS आकलनकर्ताओं के बीच सहसंबंध
एक साधारण प्रतिगमन मॉडल में, y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS आकलनकर्ता ββ^OLS0β^0OLS\hat{\beta}_0^{OLS} और ββ^OLS1β^1OLS\hat{\beta}_1^{OLS} सहसंबंध हैं। दो अनुमानकों के बीच सहसंबंध का सूत्र है (यदि मैंने इसे सही ढंग से प्राप्त किया है): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. प्रशन: सहसंबंध की उपस्थिति के लिए …

3
एक पदानुक्रमित क्लस्टर विश्लेषण के डेंड्रोग्राम की व्याख्या कैसे करें
नीचे R उदाहरण पर विचार करें: plot( hclust(dist(USArrests), "ave") ) वास्तव में y- अक्ष "ऊंचाई" का क्या अर्थ है? नॉर्थ कैरोलिना और कैलिफोर्निया (बल्कि बाईं ओर) को देखते हुए। एरिज़ोना की तुलना में कैलिफ़ोर्निया उत्तरी कैरोलिना के "करीब" है? क्या मैं इसकी व्याख्या कर सकता हूं? हवाई (दाएं) देरी से …

5
मिश्रित रैखिक मॉडल में मल्टीकोलिनरिटी का परीक्षण और परीक्षण कैसे करें?
मैं वर्तमान में कुछ मिश्रित प्रभाव रैखिक मॉडल चला रहा हूं। मैं आर में पैकेज "lme4" का उपयोग कर रहा हूं। मेरे मॉडल फॉर्म लेते हैं: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) अपने मॉडल को चलाने से पहले, मैंने भविष्यवाणियों के बीच संभावित बहुरूपता …

2
भविष्यवाणी के लिए आर prcomp परिणामों का उपयोग कैसे करें?
मेरे पास 800 अवलोकन के साथ एक डेटा.फ्रेम है। 40 चर की, और मेरी भविष्यवाणी के परिणामों को बेहतर बनाने के लिए सिद्धांत घटक विश्लेषण का उपयोग करना चाहेंगे (जो अब तक कुछ 15 हाथ से चुने गए चर पर सपोर्ट वेक्टर मशीन के साथ सबसे अच्छा काम कर रहा …
25 r  pca 

4
आर में lmer / lme मिश्रित मॉडल की मान्यताओं की जाँच करना
मैंने एक दोहराया डिजाइन चलाया, जिसके तहत मैंने तीन अलग-अलग कार्यों में 30 पुरुषों और 30 महिलाओं का परीक्षण किया। मैं यह समझना चाहता हूं कि पुरुषों और महिलाओं का व्यवहार अलग-अलग है और यह कैसे कार्य पर निर्भर करता है। मैंने इसकी जाँच के लिए lmer और lme4 पैकेज …

1
"कर्नेल घनत्व का अनुमान" किस बात का दृढ़ संकल्प है?
मैं कर्नेल घनत्व के आकलन की बेहतर समझ प्राप्त करने की कोशिश कर रहा हूं। विकिपीडिया से परिभाषा का उपयोग करना: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definment fh^(x)=1n∑nमैं=1Kh( x -xi)=1एन एचΣnमैं = १कश्मीर( x -xमैंज)fज^(एक्स)=1nΣमैं=1nकश्मीरज(एक्स-एक्समैं)=1nजΣमैं=1nकश्मीर(एक्स-एक्समैंज) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) आइए को एक आयताकार फ़ंक्शन लेते हैं जो …

5
कुछ मजबूत सहसंबंधों के साथ एक बड़ी पूर्ण-रैंक यादृच्छिक सहसंबंध मैट्रिक्स कैसे उत्पन्न करें?
मैं एक यादृच्छिक सहसंबंध मैट्रिक्स उत्पन्न करना चाहेंगे की आकार में इस तरह के कुछ मामूली मजबूत सहसंबंध वर्तमान देखते हैं कि: एन × एनCC\mathbf Cn×nn×nn \times n वर्ग वास्तविक सममित मैट्रिक्स आकार, उदाहरण के लिए ;n = 100n×nn×nn \times nn=100n=100n=100 सकारात्मक-निश्चित, अर्थात सभी वास्तविकताओं के साथ वास्तविक और सकारात्मक; …

2
कैसे पता करें कि कोई डेटा R में एक पॉइसन डिस्ट्रीब्यूशन को फॉलो करता है?
मैं एक अंडरग्रेजुएट छात्र हूं और मेरी प्रायिकता कक्षा के लिए एक परियोजना है। मूल रूप से, मेरे पास तूफान के बारे में एक डेटासेट है जो मेरे देश को कई वर्षों तक प्रभावित करता है। मेरी प्रायिकता बुक में, (R के साथ प्रोबेबिलिटी एंड स्टैटिस्टिक्स) एक (पूर्ण नहीं) का …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.