सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

2
मशीन लर्निंग क्लासिफायर के प्रदर्शन की सांख्यिकीय रूप से तुलना कैसे करें?
अनुमानित वर्गीकरण सटीकता के आधार पर, मैं यह परीक्षण करना चाहता हूं कि क्या एक क्लासिफायरियर दूसरे क्लासिफायरियर की तुलना में बेस सेट पर सांख्यिकीय रूप से बेहतर है। प्रत्येक क्लासिफायरियर के लिए, मैं बेस सेट से बेतरतीब ढंग से एक प्रशिक्षण और परीक्षण नमूने का चयन करता हूं, मॉडल …

3
K- गुना बनाम मोंटे कार्लो क्रॉस-सत्यापन
मैं मुख्य रूप से पर्यवेक्षित बहुभिन्नरूपी विश्लेषण तकनीकों पर लागू करने के इरादे से विभिन्न क्रॉस सत्यापन विधियों को सीखने की कोशिश कर रहा हूं। दो मैं पार K- गुना और मोंटे कार्लो क्रॉस-मान्यता तकनीक हैं। मैंने पढ़ा है कि के-गुना मोंटे कार्लो पर एक बदलाव है, लेकिन मुझे यकीन …

2
कर्नेल घनत्व आकलनकर्ताओं के लिए एक बैंडविड्थ चुनना
Univariate कर्नेल घनत्व अनुमानक (KDE) के लिए, मैं गणना के लिए सिल्वरमैन के नियम का उपयोग करता हूं :जजh 0.9 मिनट ( रों घ, मैंक्यू आर / 1.34)× एन- 0.20.9मिनट(रोंघ,मैंक्यूआर/1.34)×n-0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} बहुभिन्नरूपी केडीई (एक सामान्य कर्नेल मान) के लिए मानक नियम क्या हैं।

4
एंड्रयू एनएवी एसवीडी का उपयोग करना पसंद करता है और पीसीए करने के लिए सहसंयोजक मैट्रिक्स का ईआईजी नहीं?
मैं एंड्रयू एनए के कसेरा कोर्स और अन्य सामग्रियों से पीसीए का अध्ययन कर रहा हूं। स्टैनफोर्ड एनएलपी कोर्स cs224n के पहले असाइनमेंट में , और एंड्रयू एनजी से लेक्चर वीडियो में , वे कोविरियन मैट्रिक्स के ईजेन्वेक्टर अपघटन के बजाय एकवचन मूल्य अपघटन करते हैं, और एनजी यहां तक …

4
लॉजिस्टिक रिग्रेशन से लागत समारोह कैसे व्युत्पन्न होता है
मैं कौरसेरा पर मशीन लर्निंग स्टैनफोर्ड कोर्स कर रहा हूं। लॉजिस्टिक रिग्रेशन पर अध्याय में, लागत समारोह यह है: फिर, इसे यहाँ व्युत्पन्न किया गया है: मैंने लागत समारोह के व्युत्पन्न होने की कोशिश की, लेकिन मुझे कुछ पूरी तरह से अलग मिला। व्युत्पन्न कैसे प्राप्त किया जाता है? मध्यस्थ …

3
आर: रैंडम फ़ॉरेस्ट NaN / Inf को "विदेशी फ़ंक्शन कॉल" त्रुटि के बावजूद NaN के डेटासेट में बंद नहीं किया गया [बंद]
बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह क्रॉस मान्य के लिए विषय पर हो । 2 साल पहले बंद हुआ । मैं एक डेटासेट पर एक क्रॉस वेरिफाइड …

1
स्केलेर की वर्गीकरण रिपोर्ट में संख्याओं का क्या मतलब है?
मेरे पास एक उदाहरण है जो मैंने स्केलेर के sklearn.metrics.classification_report प्रलेखन से खींचा है। मुझे समझ में नहीं आता है कि प्रत्येक वर्ग के लिए f1- स्कोर, सटीक और रिकॉल मान क्यों हैं, जहां मुझे विश्वास है कि कक्षा भविष्यवक्ता लेबल है? मुझे लगा कि एफ 1 स्कोर आपको मॉडल …

2
त्रुटि "सिस्टम कम्प्यूटेशनल रूप से विलक्षण है" जब एक चमक
मैं एक glm आकलन चलाने के लिए strongbase पैकेज का उपयोग कर रहा हूं । हालाँकि जब मैं यह करता हूँ, मुझे निम्न त्रुटि मिलती है: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 इसका क्या मतलब / संकेत है? और …

3
AUC एक क्लासिफायरियर के लिए उच्चतर क्यों है जो एक से अधिक सटीक है जो कि अधिक सटीक है?
मेरे दो क्लासिफायर हैं एक: भोले Bayesian नेटवर्क बी: ट्री (एकवचन-जुड़े) बायेसियन नेटवर्क सटीकता और अन्य उपायों के संदर्भ में, A, बी से तुलनात्मक रूप से खराब प्रदर्शन करता है। हालांकि, जब मैं ROC विश्लेषण करने के लिए R संकुल ROCR और AUC का उपयोग करता हूं, तो यह पता …

4
वितरण की गैर-एकरूपता को कैसे मापता है?
मैं एक प्रयोग के लिए एक वितरण की गैर-एकरूपता को मापने के लिए एक मीट्रिक के साथ आने की कोशिश कर रहा हूं। मेरे पास एक यादृच्छिक चर है जिसे ज्यादातर मामलों में समान रूप से वितरित किया जाना चाहिए, और मैं उन डेटा सेटों के उदाहरणों की पहचान करना …

2
क्या सांख्यिकी.कॉम ने गलत उत्तर प्रकाशित किया है?
सांख्यिकी.कॉम ने सप्ताह की एक समस्या प्रकाशित की: आवासीय बीमा धोखाधड़ी की दर 10% है (दस दावों में से एक धोखाधड़ी है)। एक सलाहकार ने दावों की समीक्षा करने और उन्हें धोखाधड़ी या नो-फ्रॉड के रूप में वर्गीकृत करने के लिए एक मशीन लर्निंग सिस्टम का प्रस्ताव दिया है। यह …

2
एसवीएम एल्गोरिथ्म के पीछे सांख्यिकीय मॉडल क्या है?
मैंने सीखा है कि, जब मॉडल-आधारित दृष्टिकोण का उपयोग करके डेटा के साथ व्यवहार किया जाता है, तो पहला कदम एक सांख्यिकीय मॉडल के रूप में डेटा प्रक्रिया को मॉडलिंग करता है। फिर अगला कदम इस सांख्यिकीय मॉडल के आधार पर कुशल / तेज इंट्रेंस / लर्निंग एल्गोरिदम विकसित कर …

4
एक्सट्रैपलेशन वी। इंटरपोलेशन
एक्सट्रपलेशन और इंटरपोलेशन के बीच अंतर क्या है, और इन शब्दों का उपयोग करने का सबसे सटीक तरीका क्या है? उदाहरण के लिए, मैंने एक पेपर में एक बयान देखा है जिसमें प्रक्षेप का उपयोग किया गया है: "प्रक्रिया बिन बिंदुओं के बीच अनुमानित कार्य के आकार को प्रक्षेपित करती …

1
क्या ऑर्डिनल या बाइनरी डेटा के लिए फैक्टर विश्लेषण या पीसीए है?
मैंने मुख्य घटक विश्लेषण (पीसीए), खोजपूर्ण कारक विश्लेषण (ईएफए), और पुष्टिकरण कारक विश्लेषण (सीएफए) को पूरा किया है, डेटा को समान पैमाने (5-स्तरीय प्रतिक्रियाओं: कोई नहीं, थोड़ा, कुछ, ..) के साथ एक निरंतर के रूप में माना जाता है। चर। फिर, लावन का उपयोग करते हुए, मैंने सीएफए को चर …

3
क्या कई गुना है?
आयामी कमी तकनीक जैसे प्रधान घटक विश्लेषण, एलडीए आदि में अक्सर कई गुना शब्द का उपयोग किया जाता है। गैर-तकनीकी शब्द में कई गुना क्या है? यदि एक बिंदु एक क्षेत्र से संबंधित है जिसका आयाम मैं कम करना चाहता हूं, और यदि कोई शोर और और असंबद्ध है, तो …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.