सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

1
पाठ्यपुस्तक MCMC एल्गोरिदम पर कुछ जाने-माने सुधार क्या हैं जो लोग बेइज़ियन अनुमान के लिए उपयोग करते हैं?
जब मैं कुछ समस्या के लिए एक मोंटे कार्लो सिमुलेशन को कोड कर रहा हूं, और मॉडल काफी सरल है, तो मैं एक बहुत ही मूल पाठ्यपुस्तक गिब्स नमूने का उपयोग करता हूं। जब गिब्स नमूने का उपयोग करना संभव नहीं है, तो मैंने पाठ्यपुस्तक मेट्रोपोलिस-हेस्टिंग्स को कोड दिया है …

4
इस मामले में सबसे कम वर्ग समाधान खराब परिणाम क्यों देता है?
बिशप द्वारा "पैटर्न रिकॉग्निशन एंड मशीन लर्निंग" के अध्याय 4 के पेज 4 में एक छवि है, जहां मुझे समझ नहीं आ रहा है कि क्यों यहाँ का लेस्टर वर्ग समाधान खराब परिणाम देता है: पिछला पैराग्राफ इस तथ्य के बारे में था कि निम्न छवि में देखे जाने के …

3
जब आप सहयोगी फ़िल्टरिंग समस्या पर SVD लागू करते हैं तो क्या होता है? दोनों के बीच क्या अंतर है?
सहयोगात्मक फ़िल्टरिंग में, हमारे पास ऐसे मान हैं जो भरे नहीं हैं। मान लीजिए कि किसी उपयोगकर्ता ने फिल्म नहीं देखी है तो हमें वहां एक 'ना' डालना होगा। यदि मैं इस मैट्रिक्स का एक SVD लेने जा रहा हूँ, तो मुझे वहाँ कुछ संख्या डालनी होगी - कहिए 0. …

3
तुलना और विषमता, पी-मान, महत्व स्तर और टाइप I त्रुटि
मैं सोच रहा था कि क्या कोई पी-वैल्यू, महत्व स्तर और टाइप I त्रुटि की परिभाषाओं और उपयोगों के रूप में एक संक्षिप्त रूप दे सकता है। मैं समझता हूं कि पी-मानों को "एक परीक्षण सांख्यिकीय प्राप्त करने की संभावना के रूप में कम से कम चरम पर है जिसे …

3
स्टैकिंग / पहनावा मॉडल कैरेट के साथ
मैं अक्सर अपने आप caretको आर में उपयोग करने वाले कई अलग-अलग पूर्वानुमान मॉडल का प्रशिक्षण लेता हूं। मैं उन सभी को एक ही क्रॉस सत्यापन सिलवटों पर प्रशिक्षित करता हूं, उपयोग करता हूं caret::: createFolds, फिर क्रॉस-वैरिफाइड त्रुटि के आधार पर सर्वश्रेष्ठ मॉडल का चयन करता हूं । हालांकि, …
21 r  caret  ensemble 

3
पीसीए जब नमूनों की संख्या से अधिक है
मैं एक ऐसे परिदृश्य पर आया हूं, जहां मेरे पास 10 लोगों (इसलिए 100 नमूनों) के लिए 10 सिग्नल / व्यक्ति हैं जिसमें 14000 डेटा पॉइंट (आयाम) हैं, जिन्हें मुझे एक क्लासिफायर करने की आवश्यकता है। मैं इस डेटा की गतिशीलता को कम करना चाहूंगा और पीसीए ऐसा करने का …

4
कई प्रतिगमन में भविष्यवाणियों का महत्व: आंशिक
मैं सोच रहा हूं कि एक रैखिक मॉडल में आंशिक और गुणांक के बीच सटीक संबंध क्या है और क्या मुझे कारकों के महत्व और प्रभाव को स्पष्ट करने के लिए केवल एक या दोनों का उपयोग करना चाहिए।R2आर2R^2 जहां तक ​​मुझे पता है, summaryमुझे गुणांक के अनुमान मिलते हैं, …

1
MCMC आधारित प्रतिगमन मॉडल में अवशिष्ट निदान
मैंने हाल ही में बायसीयन फ्रेमवर्क में फिटिंग रिग्रेशन मिक्स्ड मॉडल्स को अपनाया है, जो MCMC कलन विधि (वास्तव में R में MCMCglmm फंक्शन) का उपयोग करता है। मेरा मानना ​​है कि मैंने समझा है कि अनुमान प्रक्रिया (ट्रेस, geweke प्लॉट, ऑटोकॉरेलेशन, पोस्टीरियर डिस्ट्रिब्यूशन ...) के अभिसरण का निदान कैसे …

3
एक गैर सकारात्मक निश्चित सहसंयोजक मैट्रिक्स मुझे अपने डेटा के बारे में क्या बताता है?
मेरे पास कई बहुभिन्नरूपी अवलोकन हैं और सभी चरों पर संभाव्यता घनत्व का मूल्यांकन करना चाहते हैं। यह माना जाता है कि डेटा सामान्य रूप से वितरित किया जाता है। चरों की कम संख्या पर सब कुछ काम करता है जैसा कि मैं उम्मीद करता हूं, लेकिन अधिक संख्या में …

5
डेटा खनन का नया क्रांतिकारी तरीका?
निम्नलिखित अंश श्वार्ज की हेज फंड मार्केट विज्ड्र्स (मई 2012) से है, जो लगातार सफल हेज फंड मैनेजर जाफरे वुड्रिफ के साथ एक साक्षात्कार है: प्रश्न के लिए: "डेटा माइनिंग में लोगों द्वारा किए गए कुछ सबसे खराब त्रुटियां क्या हैं?": बहुत सारे लोग सोचते हैं कि वे ठीक हैं …

2
हम इस संभावना को कैसे सीमित कर सकते हैं कि एक यादृच्छिक चर अधिकतम है?
\newcommand{\P}{\mathbb{P}} मान लीजिए कि हमारे पास NNN स्वतंत्र यादृच्छिक चर हैं X1X1X_1 , ……\ldots , XnXnX_n साथ परिमित साधन μ1≤…≤μNμ1≤…≤μN\mu_1 \leq \ldots \leq \mu_N और variances σ21σ12\sigma_1^2 , ……\ldots , \ _ sigma_N ^ 2σ2NσN2\sigma_N^2 । मैं इस संभावना पर वितरण-मुक्त सीमा की तलाश कर रहा हूं कि कोई भी …

1
मैं दो संकेतों को कैसे संरेखित / सिंक्रनाइज़ कर सकता हूं?
मैं कुछ शोध कर रहा हूं, लेकिन विश्लेषण चरण में फंस गया हूं (मुझे अपने आँकड़े व्याख्यान पर अधिक ध्यान देना चाहिए)। मैंने दो समकालिक संकेत एकत्र किए हैं: प्रवाह की मात्रा और छाती के विस्तार में परिवर्तन के लिए एकीकृत दर। मैं संकेतों की तुलना करना चाहता हूं और …

3
बड़े डेटा के लिए पहला कदम (
मान लें कि आप प्रति दिन अरबों टिप्पणियों की धुन पर एक विशाल डेटा सेट का विश्लेषण कर रहे हैं, जहां प्रत्येक अवलोकन में कुछ हज़ार विरल और संभवतः निरर्थक संख्यात्मक और श्रेणीबद्ध चर हैं। मान लीजिए कि एक प्रतिगमन समस्या है, एक असंतुलित बाइनरी वर्गीकरण समस्या है, और एक …

4
प्रतिगमन विश्लेषण और विचरण के विश्लेषण के बीच अंतर?
यह सवाल गणित स्टैक एक्सचेंज से माइग्रेट किया गया था क्योंकि इसका उत्तर क्रॉस वैलिडेट पर दिया जा सकता है। 7 साल पहले पलायन कर गए । मैं अभी प्रतिगमन विश्लेषण और विचरण के विश्लेषण के बारे में सीख रहा हूं। प्रतिगमन विश्लेषण में आपके पास एक चर निर्धारित होता …
21 regression 

1
क्यों एफ अनुपात के बजाय भिन्नताओं की समानता का लेवेने परीक्षण?
एसपीएसएस स्वतंत्र समूह टी-टेस्ट प्रक्रिया में भिन्नताओं की समरूपता का मूल्यांकन करने के लिए लेवेन परीक्षण का उपयोग करता है। लेवेन परीक्षण दो समूहों के भिन्न अनुपात के सरल एफ अनुपात से बेहतर क्यों है?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.