सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
क्या अनुकूलन तकनीक नमूने की तकनीकों का मानचित्र है?
किसी भी सामान्य नमूने एल्गोरिथ्म से, एक अनुकूलन एल्गोरिथ्म प्राप्त कर सकते हैं। दरअसल, एक मनमाना कार्य को अधिकतम करने के लिए , यह से नमूने खींचने के लिए पर्याप्त है । के लिए , इतने छोटे, इन नमूनों समारोह के वैश्विक अधिकतम (या व्यवहार में स्थानीय मॅक्सिमा) के पास …

4
की स्वतंत्रता के पीछे अंतर्ज्ञान क्या है
मैं उम्मीद कर रहा था कि कोई व्यक्ति यह तर्क देते हुए बता सकता है कि यादृच्छिक चर Y1=X2−X1Y1=X2−X1Y_1=X_2-X_1 और Y2=X1+X2Y2=X1+X2Y_2=X_1+X_2 , XiXiX_i मानक सामान्य वितरण क्यों हैं, सांख्यिकीय रूप से स्वतंत्र हैं। उस तथ्य का प्रमाण एमजीएफ तकनीक से आसानी से प्राप्त होता है, फिर भी मैं इसे बेहद …

3
नकारात्मक-द्विपद जीएलएम बनाम लॉग-ट्रांसफ़ॉर्मिंग काउंट डेटा: बढ़ी हुई टाइप I त्रुटि दर
आप में से कुछ ने इस अच्छे पेपर को पढ़ा होगा: ओ'हारा आरबी, कोटज़ डीजे (2010) गिनती डेटा लॉग-ट्रांसफ़ॉर्म न करें। पारिस्थितिकी और विकास में विधियाँ 1: 118–122। klick । अनुसंधान के अपने क्षेत्र में (इकोटॉक्सीकोलॉजी) हम खराब प्रतिकृति प्रयोगों के साथ काम कर रहे हैं और जीएलएम व्यापक रूप …

1
बाइनरी वर्गीकरण के लिए नुकसान कार्यों के बीच चयन करना
मैं एक समस्या डोमेन में काम करता हूं जहां लोग अक्सर ROC-AUC या AveP (औसत परिशुद्धता) की रिपोर्ट करते हैं। हालाँकि, मुझे हाल ही में ऐसे कागजात मिले हैं जो लॉग नुकसान की बजाय अनुकूलन करते हैं, जबकि अन्य लोग हिंग लॉस की रिपोर्ट करते हैं । जबकि मैं समझता …

3
क्या परिणामों को "अत्यधिक महत्वपूर्ण" के रूप में संदर्भित करना गलत है?
क्यों सांख्यिकीविदों हमें हतोत्साहित करते हैं "परिणाम की चर्चा करते हुए से अत्यधिक जब महत्वपूर्ण" -value अच्छी तरह से पारंपरिक नीचे है α का स्तर 0.05 ?pppαα\alpha0.050.050.05 क्या किसी परिणाम पर भरोसा करना वास्तव में गलत है जिसके पास एक प्रकार I त्रुटि ( ) नहीं होने का 99.9% मौका …

3
सांख्यिकीय प्रक्रिया नियंत्रण के लिए बायेसियन आँकड़े अधिक लोकप्रिय क्यों नहीं हैं?
बार-बार होने वाली बहस के बारे में मेरी समझ यह है कि लगातार आंकड़े: (या होने का दावा) उद्देश्य है या कम से कम निष्पक्ष इसलिए विभिन्न शोधकर्ताओं, विभिन्न मान्यताओं का उपयोग करके अभी भी मात्रात्मक रूप से तुलनीय परिणाम प्राप्त कर सकते हैं जबकि बायेसियन आँकड़े "बेहतर" भविष्यवाणियां करने …

1
प्रिंसिपल कंपोनेंट एनालिसिस का इस्तेमाल करके डेटा को व्हाइट कैसे करें?
मैं अपने डेटा \ mathbf X को रूपांतरित करना चाहता हूं, XX\mathbf Xजैसे कि संस्करण एक होंगे और सहसंयोजक शून्य होंगे (यानी मैं डेटा को सफेद करना चाहता हूं)। इसके अलावा साधन शून्य होना चाहिए। मुझे पता है कि मैं जेड-मानकीकरण और पीसीए-परिवर्तन करके वहां पहुंचूंगा, लेकिन मुझे उन्हें किस …

4
एक छिपे हुए मार्कोव मॉडल का प्रशिक्षण, कई प्रशिक्षण उदाहरण
मैंने इस ट्यूटोरियल http://cs229.stanford.edu/section/cs229-hmm.pdf के अनुसार असतत HMM लागू किया है यह ट्यूटोरियल और अन्य हमेशा एचएमएम द्वारा एक अवलोकन अनुक्रम दिए गए प्रशिक्षण की बात करते हैं। क्या होता है जब मेरे पास कई प्रशिक्षण क्रम होते हैं? क्या मुझे बस उन्हें क्रमिक रूप से चलाना चाहिए, दूसरे के …

9
संदर्भ अनुरोध: सामान्यीकृत रैखिक मॉडल
मैं सामान्यीकृत रैखिक मॉडल पर मध्यवर्ती स्तर की पुस्तक के लिए एक परिचयात्मक की तलाश कर रहा हूं। आदर्श रूप से, मॉडल के पीछे के सिद्धांत के अलावा, मैं चाहता हूं कि यह आर या किसी अन्य प्रोग्रामिंग भाषा में अनुप्रयोगों और उदाहरणों को शामिल करे - मुझे लगता है …

2
गॉसियन के मिश्रण का अनुकूलन सीधे कम्प्यूटेशनल रूप से कठिन क्यों है?
गॉसियंस के मिश्रण की लॉग संभावना पर विचार करें: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} मैं सोच रहा था कि सीधे उस समीकरण को अधिकतम करना क्यों कठिन था? मैं या तो एक स्पष्ट ठोस अंतर्ज्ञान की तलाश कर रहा था कि यह स्पष्ट क्यों होना चाहिए …

1
विशिष्ट विचरण के साथ सामान्य वितरण का वर्ग
साथ एक सामान्य रूप से वितरित यादृच्छिक चर के वर्ग का वितरण क्या है ? मुझे पता है कि मानक सामान्य वितरण को चुकता करने के लिए एक वैध तर्क है , लेकिन गैर-इकाई विचरण के मामले के बारे में क्या?एक्स2एक्स2X^2एक्स∼ एन( 0 , σ2/ 4)एक्स~एन(0,σ2/4)X\sim N(0,\sigma^2/4)χ2( १ ) = …

1
PCA में वास्तव में "प्रमुख घटक" किसे कहा जाता है?
मान लीजिए वेक्टर है कि डिजाइन मैट्रिक्स के साथ डेटा के प्रक्षेपण के विचरण अधिकतम है एक्स ।uuuXXX अब, मैंने उन सामग्रियों को देखा है जो डेटा के मुख्य घटक के रूप में संदर्भ देते हैं , जो कि सबसे बड़ा आइगेनवैल्यू के साथ आइजनवेक्टर भी है।uuu हालाँकि, मैंने यह …

3
लॉजिस्टिक रिग्रेशन के गुणांकों की मानक त्रुटियों की गणना कैसे करें
मैं एक लॉजिस्टिक रिग्रेशन को प्रशिक्षित करने और परीक्षण करने के लिए पायथन के स्किटिट-लर्न का उपयोग कर रहा हूं। scikit-learn स्वतंत्र चर के प्रतिगमन गुणांक को लौटाता है, लेकिन यह गुणांक के मानक त्रुटियों को प्रदान नहीं करता है। मुझे प्रत्येक गुणांक के लिए एक वाल्ड सांख्यिकीय की गणना …

2
पीसीए में कम विचरण घटक, क्या वे वास्तव में सिर्फ शोर हैं? क्या इसके लिए परीक्षण करने का कोई तरीका है?
मैं यह तय करने की कोशिश कर रहा हूं कि पीसीए के एक घटक को बरकरार रखा जाएगा या नहीं। यहाँ या यहाँ जैसे वर्णित और तुलना की गई, eigenvalue के परिमाण के आधार पर, एक गजियन मानदंड हैं । हालाँकि, मेरे आवेदन में मुझे पता है कि बड़े (st) …
18 pca 

1
क्लस्टरिंग एल्गोरिदम जो विरल डेटा मैट्रिक पर काम करते हैं [बंद]
बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह क्रॉस मान्य के लिए विषय पर हो । 5 साल पहले बंद हुआ । मैं क्लस्टरिंग एल्गोरिदम की एक सूची संकलित …
18 r  clustering  sparse 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.