सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
चर चयन के लिए लैस्सो का उपयोग करने के बाद इंजेक्शन
मैं अपेक्षाकृत कम आयामी सेटिंग (n >> p) में फीचर चयन के लिए लास्सो का उपयोग कर रहा हूं। एक लास्सो मॉडल फिट करने के बाद, मैं बिना किसी दंड के एक मॉडल को फिट करने के लिए नॉनज़रो गुणांक वाले कोवरिएट का उपयोग करना चाहता हूं। मैं ऐसा कर …

3
तंत्रिका नेटवर्क में नमूने, समय कदम और सुविधाओं के बीच अंतर
मैं LSTM तंत्रिका नेटवर्क पर निम्न ब्लॉग से गुजर रहा हूं: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ लेखक इनपुट वेक्टर X को LSTM के विभिन्न विन्यास के लिए [नमूने, समय के कदम, सुविधाएँ] के रूप में फिर से दिखाता है। लेखक लिखता है दरअसल, अक्षरों के क्रम अलग-अलग सुविधाओं के एक समय के कदम के …

3
SVM से अलग, एल्गोरिदम को फीचर स्केलिंग की क्या आवश्यकता है?
मैं कई एल्गोरिदम के साथ काम कर रहा हूं: रैंडमफॉरस्ट, डिसिजनट्रीज, नाइवेबेज, एसवीएम (कर्नेल = लीनियर और आरबीएफ), केएनएन, एलडीए और एक्सजीबोस्ट। एसवीएम को छोड़कर सभी बहुत तेज थे। यही कारण है कि जब मुझे पता चला कि इसे तेजी से काम करने के लिए फीचर स्केलिंग की जरूरत है। …

3
नेस्टेड क्रॉस सत्यापन में हाइपर पैरामीटर कैसे प्राप्त करें?
मैंने नेस्टेड क्रॉस सत्यापन के लिए निम्नलिखित पोस्ट पढ़ी हैं और अभी भी 100% सुनिश्चित नहीं हूं कि मुझे नेस्टेड क्रॉस सत्यापन के साथ मॉडल चयन के साथ क्या करना है: मॉडल चयन के लिए नेस्टेड क्रॉस सत्यापन मॉडल चयन और क्रॉस-सत्यापन: सही तरीका मेरी उलझन को समझाने के लिए, …

1
नेस्ट क्रॉस-वेलिडेशन के बाद अंतिम मॉडल और ट्यून प्रायिकता थ्रेशोल्ड का निर्माण कैसे करें?
सबसे पहले, एक सवाल है कि पहले से ही विस्तार से चर्चा की गई पोस्ट करने के लिए क्षमा याचना यहाँ , यहाँ , यहाँ , यहाँ , यहाँ, और एक पुराने विषय को फिर से गरम करने के लिए। मुझे पता है @DikranMarsupial ने इस विषय पर पोस्ट और …

2
पी-वैल्यू के वितरण का उच्च संस्करण (तालेब 2016 में एक तर्क)
मैं 2016 में तालेब में किए गए बड़े चित्र के दावे को समझने की कोशिश कर रहा हूं , मानक पी-मूल्यों का मेटा-वितरण । इसमें, Taleb p- मान की अविश्वसनीयता के लिए निम्नलिखित तर्क देता है (जैसा कि मैं इसे समझता हूं): कुछ वितरण एक्स से आने वाले डेटा बिंदुओं …

3
क्या क्रॉस-वैरिफिकेशन ओवरफिटिंग को रोकने के लिए पर्याप्त है?
यदि मेरे पास कोई डेटा है, और मैं क्रॉस सत्यापन के साथ एक वर्गीकरण (इस डेटा पर यादृच्छिक जंगल कहता हूं) (चलो 5-सिलवटों को कहते हैं) चलाते हैं, तो क्या मैं यह निष्कर्ष निकाल सकता हूं कि मेरी विधि में कोई फिटिंग नहीं है?

5
दो स्वतंत्र वर्दी यादृच्छिक चर के बीच अनुपात का वितरण
मान लीजिए कि XXX और YYY मानक समान रूप से [ 0 , 1 ] में वितरित किए गए हैं [0,1][0, 1], और वे स्वतंत्र हैं, Z = Y / X का PDF क्या है Z=Y/XZ = Y / X? कुछ संभाव्यता सिद्धांत पाठ्यपुस्तक का उत्तर है च जेड ( …

3
अर्ध अधिकतम संभावना अनुमान (QMLE) के पीछे विचार और अंतर्ज्ञान
प्रश्न (प्रश्न): अर्ध अधिकतम संभावना अनुमान (QMLE; जिसे छद्म अधिकतम संभावना अनुमान, PMLE भी कहा जाता है) के पीछे विचार और अंतर्ज्ञान क्या है? जब वास्तविक त्रुटि वितरण मान त्रुटि वितरण से मेल नहीं खाता है, तो अनुमानक कार्य क्या करता है? विकिपीडिया साइट QMLE के लिए ठीक (संक्षिप्त, सहज, …

2
सबसे अधिक
जैसा कि इस प्रश्न में कहा गया है , कोविरेंस मैट्रिक्स की अधिकतम रैंक n−1n−1n-1 जहां nnn नमूना आकार है और इसलिए यदि covariance मैट्रिक्स का आयाम नमूना आकार के बराबर है, तो यह विलक्षण होगा। मुझे समझ नहीं आ रहा है कि हम कोविरेन्स मैट्रिक्स की अधिकतम रैंक n …

4
एक P- मान को गलत समझना?
इसलिए मैं पी-वैल्यू की सही व्याख्या करने के तरीके के बारे में बहुत कुछ पढ़ रहा हूं, और जो मैंने पढ़ा है, उससे पी-वैल्यू इस संभावना के बारे में कुछ भी नहीं कहता है कि शून्य परिकल्पना सही है या गलत। हालांकि, जब निम्नलिखित बयान पढ़ रहे हैं: पी - …

1
एक यादृच्छिक जंगल में, बड़ा% IncMSE बेहतर या बदतर है?
एक बार जब मैंने आर में (रिग्रेशन) रैंडम फॉरेस्ट मॉडल बनाया है, तो कॉल rf$importanceमुझे प्रत्येक प्रेडिक्टर चर के लिए दो उपाय प्रदान करता है, %IncMSEऔर IncNodePurity। क्या यह व्याख्या कि छोटे %IncMSEमूल्यों के साथ भविष्यवक्ता चर, बड़े %IncMSEमूल्यों वाले भविष्यवक्ता चर की तुलना में अधिक महत्वपूर्ण है ? कैसे …

2
क्यों वास्तव में मनाया फिशर जानकारी का उपयोग किया जाता है?
मानक अधिकतम संभावना सेटिंग में (iid नमूना घनत्व ) के साथ कुछ वितरण से ) और सही ढंग से फिशर मॉडल के मामले में द्वारा जानकारी दी गई हैY1,…,YnY1,…,YnY_{1}, \ldots, Y_{n}fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] जहां उम्मीद डेटा को उत्पन्न करने वाले वास्तविक घनत्व के संबंध में लिया जाता …

1
अशक्त परिकल्पना के तहत द्विपद परीक्षणों का अनुकरण करते समय पी-मानों का गैर-समान वितरण
मैंने सुना है कि अशक्त परिकल्पना के तहत पी-मूल्य वितरण समान होना चाहिए। हालांकि, MATLAB में द्विपद परीक्षण के सिमुलेशन बहुत अलग-से-समान वितरण के साथ मतलब 0.5 (0.518 इस मामले में) से बड़े हैं: coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j …

1
पाइथन में जेनक नेचुरल ब्रेक्स: ब्रेक की इष्टतम संख्या कैसे पता करें?
मुझे जेनेक्स नैचुरल ब्रेक्स एल्गोरिथम का यह पायथन कार्यान्वयन मिला और मैं इसे अपने विंडोज 7 मशीन पर चला सकता हूं। यह बहुत तेज़ है और यह मेरे जियोडाटा के आकार को देखते हुए कुछ ही समय में टूट जाता है। अपने डेटा के लिए इस क्लस्टरिंग एल्गोरिथ्म का उपयोग …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.