सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
K- साधनों के लिए अंतर आँकड़ा एक क्लस्टर का सुझाव क्यों देता है, भले ही स्पष्ट रूप से उनमें से दो हैं?
मैं अपने डेटा को क्लस्टर करने के लिए K- साधनों का उपयोग कर रहा हूं और "इष्टतम" क्लस्टर संख्या का सुझाव देने के लिए रास्ता ढूंढ रहा हूं। एक अच्छा क्लस्टर नंबर खोजने के लिए गैप आँकड़े एक सामान्य तरीका लगता है। किसी कारण से यह इष्टतम क्लस्टर संख्या के …

5
एसवीएम या न्यूरल नेटवर्क का उपयोग करते समय संख्यात्मक चर में श्रेणीबद्ध चर को कैसे पुन: व्यवस्थित करें
एसवीएम या न्यूरल नेटवर्क का उपयोग करने के लिए इसे श्रेणीबद्ध चर को सांख्यिक चर में बदलना (एनकोड करना) है, इस मामले में सामान्य विधि k- वें श्रेणीगत मान के रूप में परिवर्तित होने वाले (0,0, ।।) 0-1 बाइनरी मान का उपयोग करना है। ।, 1,0, ... 0) (1 k- …

3
नमूना आकार बढ़ने पर टी-वितरण अधिक सामान्य क्यों हो जाता है?
विकिपीडिया के अनुसार, मैं समझता हूं कि जब सामान्य रूप से वितरित आबादी से आईआईडी अवलोकन होते हैं तो टी-वितरण टी-मूल्य का नमूना वितरण होता है। हालाँकि, मैं सहज रूप से यह नहीं समझ पा रहा हूँ कि टी-डिस्ट्रीब्यूशन का आकार चर्बी से बदलकर लगभग पूरी तरह से सामान्य क्यों …

2
बेसिकियन नेटवर्क (बीएन) बनाम संरचनात्मक समीकरण मॉडल (SEM)
यहां की शब्दावली एक गड़बड़ है। "संरचनात्मक समीकरण" के बारे में अस्पष्ट है जैसा कि "वास्तुशिल्प पुल" और "बायेसियन नेटवर्क" आंतरिक रूप से बेयसियन नहीं है । इससे भी बेहतर, गॉड-ऑफ-एक्टिविटी जुडीया पर्ल का कहना है कि मॉडल के दो स्कूल लगभग समान हैं। तो, महत्वपूर्ण अंतर क्या हैं? (मेरे …

3
गैर-सामान्य नमूने के नमूना विचरण का असममित वितरण
यह इस प्रश्न द्वारा उत्पन्न समस्या का अधिक सामान्य उपचार है । नमूना विचरण के स्पर्शोन्मुख वितरण को प्राप्त करने के बाद, हम मानक विचलन के लिए इसी वितरण पर आने के लिए डेल्टा विधि को लागू कर सकते हैं। आइडल गैर-सामान्य यादृच्छिक चर { X i } के आकार …

5
व्यवहार में "संभावना का केवल आनुपातिकता के गुणक स्थिर तक परिभाषित किया गया है" क्या करता है?
मैं एक पेपर पढ़ रहा हूं, जहां लेखक बेयर्स प्रमेय के लिए अधिकतम संभावना अनुमान की चर्चा से अग्रणी हैं, शुरुआती लोगों के लिए एक परिचय के रूप में। एक संभावना उदाहरण के रूप में, वे एक द्विपद वितरण के साथ शुरू करते हैं: p(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} और फिर दोनों …

1
क्रमिक लॉजिस्टिक रिग्रेशन की प्लॉट और व्याख्या करें
मेरे पास एक अध्यादेश पर निर्भर चर, सहजता है, जो 1 (आसान नहीं) से लेकर 5 (बहुत आसान) तक है। स्वतंत्र कारकों के मूल्यों में वृद्धि एक बढ़ी हुई सुगमता रेटिंग के साथ जुड़ी हुई है। मेरे दो स्वतंत्र चर ( condAऔर condB) श्रेणीबद्ध हैं, प्रत्येक में 2 स्तर हैं, …

2
एक ब्लैक-बॉक्स के रूप में एक तंत्रिका नेटवर्क का मतलब?
मैं अक्सर लोगों को न्यूरल नेटवर्क के बारे में एक ब्लैक-बॉक्स के रूप में बात करते हुए सुनता हूं जो आपको समझ में नहीं आता है कि यह क्या करता है या उनका क्या मतलब है। मैं वास्तव में समझ नहीं पा रहा हूं कि वे इससे क्या मतलब रखते …

2
आप एक कारक / चर के लिए "नियंत्रण" कैसे करते हैं?
मेरी समझ में, "नियंत्रण" के आंकड़ों में दो अर्थ हो सकते हैं। नियंत्रण समूह: एक प्रयोग में, नियंत्रण समूह के सदस्य को कोई उपचार नहीं दिया जाता है। Ex: प्लेसेबो बनाम ड्रग: आप ड्रग्स एक समूह को देते हैं और दूसरे को नहीं (नियंत्रण), जिसे "नियंत्रित प्रयोग" भी कहा जाता …

4
कैसे lme4 (> 1.0) के साथ लगे एक द्विपद GLMM के फिट का आकलन करें?
मेरे पास एक द्विपद वितरण और एक लॉगिट लिंक फ़ंक्शन के साथ GLMM है और मुझे लगता है कि मॉडल में डेटा का एक महत्वपूर्ण पहलू अच्छी तरह से प्रतिनिधित्व नहीं करता है। इसका परीक्षण करने के लिए, मैं यह जानना चाहूंगा कि लॉगिट स्केल पर एक रैखिक फ़ंक्शन द्वारा …

2
फिशर सूचना मैट्रिक्स सकारात्मक अर्धचालक क्यों है?
चलो θ∈Rnθ∈Rn\theta \in R^{n} । फिशर सूचना मैट्रिक्स के रूप में परिभाषित किया गया है: I(θ)i,j=−E[∂2log(f(X|θ))∂θi∂θj∣∣∣θ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] मैं फिशर सूचना मैट्रिक्स कैसे साबित कर सकता हूं सकारात्मक सकारात्मक है?

6
1 और 0 सहित अनुपात डेटा का बीटा प्रतिगमन
मैं एक मॉडल का उत्पादन करने की कोशिश कर रहा हूं जिसके लिए मेरे पास एक प्रतिक्रिया चर है जो 0 और 1 के बीच का अनुपात है, इसमें काफी कुछ 0 और 1 s शामिल हैं, लेकिन बीच में कई मान भी शामिल हैं। मैं बीटा प्रतिगमन का प्रयास …


2
आर में लॉजिस्टिक विकास घटता फिट करने के लिए सबसे दर्दनाक तरीका क्या है?
यह Google के लिए कुछ अन्य चीजों जितना आसान नहीं है, स्पष्ट होने के लिए, मैं श्रेणीबद्ध चर की भविष्यवाणी करने के लिए प्रतिगमन का उपयोग करने के अर्थ में लॉजिस्टिक प्रतिगमन के बारे में बात नहीं कर रहा हूं। मैं दिए गए डेटा पॉइंट्स को लॉजिस्टिक ग्रोथ कर्व फिट …

2
फीचर इंजीनियरिंग के लिए ट्यूटोरियल
जैसा कि सभी जानते हैं, मशीन लर्निंग के लिए फीचर इंजीनियरिंग बेहद महत्वपूर्ण है, हालांकि मुझे इस क्षेत्र से जुड़ी कुछ सामग्रियां मिलीं। मैंने कागले में कई प्रतियोगिताओं में भाग लिया और विश्वास है कि कुछ मामलों में अच्छे क्लासिफायर की तुलना में अच्छी सुविधाएँ और भी महत्वपूर्ण हो सकती …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.