सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
तिरछा वितरण पर आउटलाइंग डिटेक्शन
डेटा प्वाइंट के रूप में ऊपरी या निचले चतुर्थक से 1.5 * IQR से बाहर की एक शास्त्रीय परिभाषा के तहत, गैर-तिरछी वितरण की धारणा है। तिरछे वितरण (एक्सपोनेंशियल, पॉइसन, जियोमेट्रिक, आदि) के लिए मूल फ़ंक्शन के परिवर्तन का विश्लेषण करके एक बाहरी का पता लगाने का सबसे अच्छा तरीका …

2
अपेक्षा अधिकतमकरण एल्गोरिथम को स्थानीय इष्टतम में परिवर्तित करने की गारंटी क्यों दी जाती है?
मैंने EM एल्गोरिथ्म (जैसे बिशप के पैटर्न मान्यता और मशीन लर्निंग से और रोजर और जेरोलामी फर्स्ट कोर्स ऑन मशीन लर्निंग से) के स्पष्टीकरण के एक जोड़े को पढ़ा है। ईएम की व्युत्पत्ति ठीक है, मैं इसे समझता हूं। मैं यह भी समझता हूं कि एल्गोरिथम किसी चीज़ को क्यों …

4
क्या शापिरो-विलक सबसे अच्छा सामान्यता परीक्षण है? यह एंडरसन-डार्लिंग जैसे अन्य परीक्षणों से बेहतर क्यों हो सकता है?
मैंने साहित्य में कहीं पढ़ा है कि शापिरो-विल्क परीक्षण को सबसे अच्छा सामान्यता परीक्षण माना जाता है क्योंकि किसी दिए गए महत्व स्तर, , शून्य परिकल्पना को अस्वीकार करने की संभावना यदि यह झूठी है तो दूसरे के मामले की तुलना में अधिक है सामान्यता परीक्षण।αα\alpha क्या आप कृपया मुझे …


5
एक मिश्रित मॉडल में एक कारक को यादृच्छिक के रूप में मानने से उल्टा क्या है?
मुझे कुछ कारणों से एक मॉडल कारक को यादृच्छिक के रूप में लेबल करने के लाभों को गले लगाने में समस्या है। मेरे लिए यह ऐसा प्रतीत होता है कि लगभग सभी मामलों में सभी कारकों के अनुसार तय किया गया इष्टतम उपचार है। सबसे पहले, फिक्स्ड बनाम रैंडम का …

3
वर्गीकरण प्रदर्शन का मूल्यांकन करने के लिए क्रॉस-सत्यापन या बूटस्ट्रैपिंग?
किसी विशेष डेटा सेट पर एक क्लासिफायरियर के प्रदर्शन का मूल्यांकन करने और अन्य क्लासिफायर के साथ तुलना करने के लिए सबसे उपयुक्त नमूनाकरण विधि क्या है? क्रॉस-सत्यापन मानक अभ्यास प्रतीत होता है, लेकिन मैंने पढ़ा है कि इस तरह के .632 बूटस्ट्रैप एक बेहतर विकल्प हैं। अनुवर्ती के रूप …

2
उत्तरजीविता विश्लेषण में, हम पूरी तरह से पैरामीट्रिक मॉडल के बजाय अर्ध-पैरामीट्रिक मॉडल (कॉक्स आनुपातिक खतरों) का उपयोग क्यों करते हैं?
यह सवाल गणित स्टैक एक्सचेंज से माइग्रेट किया गया था क्योंकि इसका उत्तर क्रॉस वैलिडेट पर दिया जा सकता है। 6 साल पहले पलायन कर गए । मैं कॉक्स आनुपातिक खतरों के मॉडल का अध्ययन कर रहा हूं, और यह प्रश्न अधिकांश ग्रंथों में स्पष्ट है। कॉक्स ने एक आंशिक …

4
सही सकारात्मक, झूठी नकारात्मक दरों को देखते हुए, क्या आप झूठी सकारात्मक, वास्तविक नकारात्मक गणना कर सकते हैं?
मैं के लिए मान हैं True Positive (TP)और False Negative (FN)के रूप में इस प्रकार है: TP = 0.25 FN = 0.75 उन मूल्यों से, हम गणना कर सकते हैं False Positive (FP)और True Negative (TN)?

2
प्रशिक्षण सेट की कितनी बड़ी जरूरत है?
क्या एक सामान्य विधि का उपयोग यह निर्धारित करने के लिए किया जाता है कि न्यूनतम दहलीज सामान्यीकरण सटीकता प्राप्त करने के लिए एक क्लासिफ़ायर (इस मामले में एक एलडीए) को प्रशिक्षित करने के लिए कितने प्रशिक्षण नमूने आवश्यक हैं? मैं पूछ रहा हूं क्योंकि मैं मस्तिष्क-कंप्यूटर इंटरफ़ेस में आमतौर …

3
डेटाबेस से 1d डेटा के विभिन्न समूहों को निर्धारित करें
मेरे पास विभिन्न नोड्स के बीच डेटा ट्रांसफर की एक डेटाबेस तालिका है। यह एक विशाल डेटाबेस (लगभग 40 मिलियन स्थानान्तरण के साथ) है। विशेषताओं में से एक बाइट्स (nbytes) स्थानांतरण की संख्या है जो 0 बाइट्स से 2 टेरा बाइट्स तक होती है। मैं nbytes को क्लस्टर करना चाहूंगा …

2
प्रतिगमन के लिए एक असममित हानि फ़ंक्शन को कैसे डिज़ाइन और कार्यान्वित किया जाए?
संकट प्रतिगमन में आमतौर पर एक नमूना के लिए माध्य चुकता त्रुटि (MSE) की गणना की जाती है : एक भविष्यवक्ता की गुणवत्ता को मापने के लिए ।MSE = 1nΣमैं = १n( जी( x)मैं) - जीˆ( x)मैं) )2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 अभी मैं एक प्रतिगमन समस्या पर …

4
क्या यह सुसाइड काउंट डेटा में मौसमी प्रभावों के परीक्षण के लिए एक उपयुक्त तरीका है?
मेरे पास अमेरिका में एक राज्य के लिए आत्महत्या से संबंधित मौतों के 17 साल (1995 से 2011) के आंकड़े हैं, आत्महत्याओं और महीनों / मौसमों के बारे में बहुत सारी पौराणिक कथाएँ हैं, जिनमें से बहुत विरोधाभासी हैं, और साहित्य की '' ve की समीक्षा की गई, मुझे परिणामों …

1
रैखिक प्रतिगमन भविष्यवाणी अंतराल
यदि मेरे डेटा बिंदुओं में सबसे अच्छा रैखिक सन्निकटन (कम से कम वर्गों का उपयोग करके) लाइन , तो मैं सन्निकटन त्रुटि की गणना कैसे कर सकता हूं? यदि मैं टिप्पणियों और भविष्यवाणियों के बीच अंतर के मानक विचलन की गणना करता हूं , तो क्या मैं बाद में कह …

2
आपको किस क्रम में लीनियर रिग्रेशन डायग्नोस्टिक्स करना चाहिए?
रैखिक प्रतिगमन विश्लेषण में, हम आउटलेर्स का विश्लेषण करते हैं, बहुकोशिकीयता की जांच करते हैं, हेटेरोसेडेसटी का परीक्षण करते हैं। सवाल यह है कि क्या इन्हें लागू करने का कोई आदेश है? मेरा मतलब है, क्या हमें पहले आउटलेर्स का विश्लेषण करना है, और फिर मल्टीकोलिनरिटी की जांच करनी है? …

1
कैसे ढाल वंश के लिए समाप्ति की स्थिति को परिभाषित करने के लिए?
असल में, मैं आपसे पूछना चाहता था कि मैं धीरे-धीरे उतरने की स्थिति को कैसे परिभाषित कर सकता हूं। क्या मैं पुनरावृत्तियों की संख्या के आधार पर इसे रोक सकता हूँ, अर्थात, मान के लिए मान, १०० पुनरावृत्तियों? या क्या मुझे ऐसा इंतजार करना चाहिए कि दो मापदंडों मानों में …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.