सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

5
दुर्लभ घटनाओं लॉजिस्टिक प्रतिगमन से निपटने की रणनीति
मैं एक परिमित आबादी में दुर्लभ घटनाओं का अध्ययन करना चाहूंगा। चूंकि मैं अनिश्चित हूं कि कौन सी रणनीति सबसे उपयुक्त है, मैं इस मामले से संबंधित सुझावों और संदर्भों की सराहना करूंगा, हालांकि मैं अच्छी तरह से जानता हूं कि यह काफी हद तक कवर किया गया है। मैं …

4
एसवीएम में गुठली का अंतर?
क्या कोई मुझे SVM ​​में गुठली के बीच का अंतर बता सकता है: रैखिक बहुपद गाऊसी (आरबीएफ) अवग्रह क्योंकि जैसा कि हम जानते हैं कि कर्नेल का उपयोग हमारे इनपुट स्थान को उच्च आयामीता वाले स्थान में मैप करने के लिए किया जाता है। और उस सुविधा स्थान में, हम …

7
Naive Bayes में, टेस्ट सेट में अज्ञात शब्द होने पर लैप्लस स्मूथिंग से क्यों परेशान होते हैं?
मैं आज Naive Bayes Classification पर पढ़ रहा था। मैं 1 चौरसाई जोड़ने के साथ पैरामीटर अनुमान के शीर्षक के तहत पढ़ता हूं : चलो एक वर्ग (जैसे सकारात्मक या नकारात्मक रूप में) का उल्लेख, और एक टोकन या शब्द का संदर्भ लें।सीसीcwww लिए अधिकतम संभावना अनुमानक isपी( w | …

3
आयामों में दो यादृच्छिक इकाई वैक्टर के स्केलर उत्पादों का वितरण
यदि और (इकाई क्षेत्र पर समान रूप से वितरित में दो स्वतंत्र यादृच्छिक इकाई वैक्टर हैं , तो उनके स्केलर उत्पाद (dot product) का वितरण क्या है ?एक्सएक्स\mathbf{x}yy\mathbf{y}आरडीआरडी\mathbb{R}^Dx ⋅ यएक्स⋅y\mathbf x \cdot \mathbf y मुझे लगता है कि के रूप में वितरण तेजी से बढ़ता है (?) के साथ शून्य …

1
दूरी (मैट्रिक्स) मैट्रिक्स के लिए समानता मैट्रिक्स परिवर्तित
रैंडम वन एल्गोरिथ्म में, ब्रीमन (लेखक) समानता मैट्रिक्स का निर्माण निम्नानुसार करता है: जंगल में प्रत्येक पेड़ के नीचे सभी सीखने के उदाहरण भेजें यदि दो उदाहरणों में समान मैट्रिक्स में एक समान पत्ती वृद्धि के तत्व में 1 से भूमि आती है पेड़ों की संख्या के साथ मैट्रिक्स को …

4
मानक विचलन का उपयोग करते हुए बाहरी लोगों का पता लगाना
यहाँ मेरे प्रश्न के बाद , मैं सोच रहा हूँ कि क्या आउटलेर्स का पता लगाने के लिए मानक विचलन के उपयोग के खिलाफ या इसके बारे में मजबूत विचार हैं (उदाहरण के लिए कोई भी डेटापॉइंट जो 2 से अधिक मानक विचलन है, एक स्पष्ट है)। मुझे पता है …
27 outliers 

2
कश्मीर-गुना क्रॉस-वैरिफिकेशन में भिन्नता का अनुमान है
के-फोल्ड क्रॉस-सत्यापन का उपयोग किसी दिए गए क्लासिफायरियर की सामान्यीकरण क्षमता का अनुमान लगाने के लिए किया जा सकता है। क्या मैं (या मुझे भी) अपने वैरिएशन का एक बेहतर अनुमान प्राप्त करने के लिए सभी सत्यापन रन से पूल किए गए विचरण की गणना कर सकता है? यदि नहीं, …

3
क्या सफ़ेद होना हमेशा अच्छा होता है?
मशीन लर्निंग एल्गोरिदम के लिए एक सामान्य प्री-प्रोसेसिंग कदम डेटा का श्वेतकरण है। ऐसा लगता है कि डेटा को डी-कॉर्लेट करने के बाद से वाइटनिंग करना हमेशा अच्छा होता है, क्योंकि यह मॉडल को सरल बनाता है। कब व्हाइटिंग की सिफारिश नहीं की जाती है? नोट: मैं डेटा के डी-सहसंबंध …

1
सामान्यीकृत आकलन समीकरणों और GLMM के बीच अंतर क्या है?
मैं एक लॉग लिंक का उपयोग करके 3-स्तरीय असंतुलित डेटा पर GEE चला रहा हूं। मिश्रित प्रभावों (GLMM) और लॉगिट लिंक के साथ GLM से यह कैसे भिन्न होता है (निष्कर्ष के रूप में मैं और गुणांक का अर्थ आकर्षित कर सकता हूं)? अधिक विस्तार: अवलोकन एकल बर्नौली परीक्षण हैं। …

3
मुझे सामान्यता के लिए क्या जांचना चाहिए: कच्चा डेटा या अवशेष?
मैंने सीखा है कि मुझे कच्चे डेटा पर नहीं बल्कि उनके अवशेषों के बारे में सामान्यता के लिए परीक्षण करना चाहिए। क्या मुझे अवशिष्टों की गणना करनी चाहिए और फिर शापिरो-विलकस डब्ल्यू परीक्षण करना चाहिए? क्या अवशेषों की गणना इस प्रकार की जाती है: ?एक्समैं- मतलबएक्समैं-मतलबX_i - \text{mean} कृपया मेरे …

2
लूप के लिए चर नाम की एक सूची तैयार करें, फिर उन्हें मान असाइन करें
मुझे आश्चर्य है कि अगर लूप का उपयोग करके चर की एक सूची तैयार करने का एक सरल तरीका है, और इसका मूल्य दें। for(i in 1:3) { noquote(paste("a",i,sep=""))=i } उपरोक्त कोड में, मैं बनाने का प्रयास करें a1, a2, a3, 1, 2, 3 हालांकि, आर एक त्रुटि संदेश देता …
27 r 

5
क्या 99 प्रतिशत या 100 प्रतिशत बच्चे हैं? और क्या वे संख्याओं के समूह हैं, या अलग-अलग संख्याओं के डिवाइडर या संकेत हैं?
क्या 99 प्रतिशत या 100 प्रतिशत बच्चे हैं? और क्या वे संख्याओं, या विभक्त रेखाओं, या अलग-अलग संख्याओं की ओर संकेत करते हैं? मुझे लगता है कि एक ही प्रश्न क्वार्टराइल या किसी भी मात्रात्मक के लिए लागू होगा। मैंने पढ़ा है कि किसी विशेष प्रतिशत (p) पर एक संख्या …
27 quantiles 

2
विचरण और माध्य चुकता त्रुटि के बीच अंतर क्या है?
मुझे आश्चर्य है कि यह पहले नहीं पूछा गया है, लेकिन मैं आँकड़े.स्टैकएक्सचेंज पर सवाल नहीं खोज सकता। यह सामान्य रूप से वितरित नमूने के विचरण की गणना करने का सूत्र है: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} यह एक सरल रेखीय प्रतिगमन में टिप्पणियों की औसत चुकता त्रुटि की गणना करने …
27 variance  error 

3
अगर एक पर्यवेक्षित मशीन लर्निंग मॉडल ओवरफिटिंग है या नहीं तो कैसे जज करें?
क्या कोई मुझे बता सकता है कि कैसे एक पर्यवेक्षित मशीन सीखने का मॉडल ओवरफिटिंग है या नहीं? यदि मेरे पास बाहरी सत्यापन डेटासेट नहीं है, तो मैं जानना चाहता हूं कि क्या मैं ओवरफिटिंग की व्याख्या करने के लिए 10 गुना क्रॉस सत्यापन के आरओसी का उपयोग कर सकता …

4
एक स्थिर परीक्षण और एक इकाई जड़ परीक्षण के बीच अंतर क्या है?
Kwiatkowski-Phillips – Schmidt – Shin (KPSS) परीक्षण और संवर्धित डिकी-फुलर (ADF) परीक्षण में क्या अंतर है? क्या वे एक ही चीज का परीक्षण कर रहे हैं? या क्या हमें उन्हें विभिन्न परिस्थितियों में उपयोग करने की आवश्यकता है?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.