सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

4
बड़े पर्याप्त नमूना आकार को देखते हुए, एक परीक्षण हमेशा महत्वपूर्ण परिणाम दिखाएगा जब तक कि सही प्रभाव आकार बिल्कुल शून्य न हो। क्यूं कर?
प्रभाव आकार पर विकिपीडिया के लेख में किए गए एक दावे को लेकर मैं उत्सुक हूं । विशेष रूप से: [...] एक गैर-शून्य सांख्यिकीय तुलना हमेशा एक सांख्यिकीय महत्वपूर्ण परिणाम दिखाएगी जब तक कि जनसंख्या प्रभाव का आकार बिल्कुल शून्य न हो मुझे यकीन नहीं है कि इसका क्या मतलब …

1
दिखा रहा है कि 5 विषयों के लिए 100 माप 100 विषयों के लिए 5 मापों की तुलना में बहुत कम जानकारी प्रदान करते हैं
एक सम्मेलन में मैंने निम्नलिखित कथन को सुना: 5 विषयों के लिए 100 माप 100 विषयों के लिए 5 मापों की तुलना में बहुत कम जानकारी प्रदान करते हैं। यह स्पष्ट है कि यह सच है, लेकिन मैं सोच रहा था कि कोई इसे गणितीय रूप से कैसे साबित कर …

1
सामान्यीकृत रैखिक मॉडल (GLM) की अव्यक्त चर व्याख्या
लघु संस्करण: हम जानते हैं कि लॉजिस्टिक रिग्रेशन और प्रोबेट रिग्रेशन को एक निरंतर अव्यक्त चर को शामिल करने के रूप में व्याख्या किया जा सकता है जो अवलोकन से पहले कुछ निश्चित सीमा के अनुसार विवेकाधीन हो जाता है। क्या इसी तरह की अव्यक्त चर व्याख्या, पोइसन प्रतिगमन के …

2
"इकाई-विचरण" रिज प्रतिगमन अनुमानक की सीमा जब
एक अतिरिक्त अवरोध के साथ रिज प्रतिगमन पर विचार करें, जिसमें आवश्यक है कि में यूनिट योग है वर्गों (समकक्ष, इकाई विचरण); यदि आवश्यक हो, तो कोई मान सकता है कि पास इकाई राशि का योग है:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf …

1
t-SNE बनाम MDS
टी-एसएनई ( टी-डिस्ट्रिब्यूटेड स्टोचैस्टिक पड़ोसी एंबेडिंग ) के बारे में कुछ प्रश्न पढ़े हैं , और हाल ही में एमडीएस ( बहुआयामी स्केलिंग ) के बारे में कुछ प्रश्नों का भी दौरा किया । वे अक्सर समान रूप से उपयोग किए जाते हैं, इसलिए ऐसा लग रहा था कि यह …

2
प्रतिबंधित बोल्ट्ज़मन मशीन: इसका उपयोग मशीन सीखने में कैसे किया जाता है?
पृष्ठभूमि: हां, प्रतिबंधित बोल्ट्जमन मशीन (आरबीएम) का उपयोग तंत्रिका नेटवर्क के भार को आरंभ करने के लिए किया जा सकता है। इसके अलावा इसका उपयोग "लेयर-बाय-लेयर" तरीके से एक गहरी विश्वास नेटवर्क बनाने के लिए किया जा सकता है (यानी, -th लेयर को -th लेयर के शीर्ष पर , और …


2
हमें कब / बिन निरंतर स्वतंत्र चर / सुविधाओं का विवेक करना चाहिए और कब नहीं करना चाहिए?
हमें कब / बिन स्वतंत्र चर / सुविधाओं का विवेक करना चाहिए और कब नहीं करना चाहिए? प्रश्न का उत्तर देने का मेरा प्रयास: सामान्य तौर पर, हमें बिन नहीं होना चाहिए, क्योंकि बिनिंग जानकारी खो देगा। बिनिंग वास्तव में मॉडल की स्वतंत्रता की डिग्री बढ़ा रहा है, इसलिए, बिनिंग …

4
क्या मशीन लर्निंग या डीप लर्निंग एल्गोरिदम का उपयोग एमसीएमसी तकनीक की नमूना प्रक्रिया को "बेहतर" करने के लिए किया जा सकता है?
MCMC (मार्कोव चेन मोंटे कार्लो) के बारे में मेरे पास जो थोड़ा ज्ञान है, उसके आधार पर, मैं समझता हूं कि नमूना उपरोक्त तकनीक का एक महत्वपूर्ण हिस्सा है। सबसे अधिक इस्तेमाल किए जाने वाले नमूने के तरीके हैंमिल्टन और मेट्रोपोलिस हैं। क्या अधिक कुशल MCMC नमूना बनाने के लिए …

7
क्या कोई स्वतंत्र और यादृच्छिक के बीच के अंतर को समझाने में मदद कर सकता है?
आंकड़ों में, स्वतंत्र और यादृच्छिक समान विशेषताओं का वर्णन करता है? उनमें क्या अंतर है? हम अक्सर "दो स्वतंत्र यादृच्छिक चर" या "यादृच्छिक नमूना" जैसे विवरण के पार आते हैं। मैं सोच रहा हूं कि उनके बीच सटीक अंतर क्या है। क्या कोई इसे समझा सकता है और कुछ उदाहरण …

4
एक सहसंबंध अंतर्निहित अंतर्निहित धारणाओं और महत्व के प्रतिगमन ढलान परीक्षणों के बीच अंतर
मेरा सवाल एक अलग सवाल की टिप्पणियों में @whuber के साथ चर्चा से बाहर हो गया । विशेष रूप से, @whuber की टिप्पणी इस प्रकार थी: एक कारण यह आपको आश्चर्यचकित कर सकता है कि एक सहसंबंध परीक्षण और एक प्रतिगमन ढलान परीक्षण अंतर्निहित धारणाएं अलग हैं - इसलिए जब …

2
तंत्रिका नेटवर्क को बढ़ावा देना
हाल ही में मैं एडॉबॉस्ट, ग्रेडिएंट बूस्ट जैसे बूस्टिंग एल्गोरिदम सीखने पर काम कर रहा था, और मैंने इस तथ्य को जाना है कि सबसे आम इस्तेमाल किया जाने वाला कमजोर-सीखने वाला पेड़ है। मैं वास्तव में जानना चाहता हूं कि बेस लर्नर के रूप में तंत्रिका नेटवर्क का उपयोग …

5
ओवरफिटिंग: कोई चांदी की गोली?
मेरी समझ यह है कि जब उचित क्रॉस सत्यापन और मॉडल चयन प्रक्रियाओं का पालन किया जाता है, तब भी ओवरफिटिंग तब होगी जब कोई एक मॉडल के लिए पर्याप्त खोज करता है , जब तक कि कोई मॉडल जटिलता, अवधि पर प्रतिबंध नहीं लगाता। इसके अलावा, अक्सर लोग डेटा …

3
लॉजिस्टिक वितरण को "लॉजिस्टिक" क्यों कहा जाता है?
एक सामान्य अर्थ में, लॉजिस्टिक वितरण के बारे में "लॉजिस्टिक" क्या है? केवल शुद्ध गणित की परिभाषा ही नहीं, नाम के लिए व्युत्पत्ति और शब्दगत तर्क क्या है?

3
क्या कर्नेलाइज़्ड SVM के लिए ग्रेडिएंट डिसेंट संभव है (यदि ऐसा है, तो लोग द्विघात प्रोग्रामिंग का उपयोग क्यों करते हैं)?
कर्नेलयुक्त SVM से निपटने के दौरान लोग द्विघात प्रोग्रामिंग तकनीक (जैसे SMO) का उपयोग क्यों करते हैं? ग्रेडिएंट डिसेंट में क्या गलत है? क्या यह गुठली के साथ उपयोग करना असंभव है या क्या यह बहुत धीमा है (और क्यों?)। यहां थोड़ा और संदर्भ दिया गया है: एसवीएम को थोड़ा …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.