सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
समय श्रृंखला में AIC बनाम क्रॉस सत्यापन: छोटा नमूना मामला
मुझे एक समय श्रृंखला सेटिंग में मॉडल चयन में दिलचस्पी है। संक्षिप्तता के लिए, मान लीजिए कि मैं अलग-अलग लैग ऑर्डर वाले ARMA मॉडल के पूल से एक ARMA मॉडल का चयन करना चाहता हूं। अंतिम आशय पूर्वानुमान है । द्वारा मॉडल चयन किया जा सकता है परिणाम का सत्यापन …

4
यदि मेरा डेटा वितरण सममित है तो कैसे बताएं?
मुझे पता है कि अगर माध्यिका और माध्य लगभग समान हैं तो इसका मतलब है कि एक सममित वितरण है लेकिन इस विशेष मामले में मैं निश्चित नहीं हूं। माध्य और माध्यिका काफी करीब हैं (केवल 0.487 मी / गैल अंतर) जो मुझे यह कहने के लिए प्रेरित करेगा कि …

2
क्यों विल्कस 1938 प्रक्षेपीकृत मॉडल के लिए प्रूफ का काम नहीं करता है?
प्रसिद्ध 1938 के पेपर में (" समग्र परिकल्पनाओं के परीक्षण के लिए संभावना अनुपात का बड़ा-नमूना वितरण ", गणितीय सांख्यिकी के विवरण, 9: 60-62), सैमुअल विल्क्स ने (लॉग संभावना अनुपात) के विषम वितरण का व्युत्पन्न किया। नेस्टेड परिकल्पनाओं के लिए, इस धारणा के तहत कि बड़ी परिकल्पना सही ढंग से …

2
हार्ड मार्जिन एसवीएम का नुकसान क्या है?
लोगों का कहना है कि नरम मार्जिन एसवीएम काज हानि समारोह का उपयोग करते हैं: । हालांकि, वास्तविक उद्देश्य फ़ंक्शन जो नरम मार्जिन SVM को कम करने की कोशिश करता है, वह है \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max …

2
ऑटोक्रेलेशन समय की परिभाषा (प्रभावी नमूना आकार के लिए)
मुझे साहित्य में कमजोर स्थैतिक समय श्रृंखला के स्वतःसंक्रमण समय के लिए दो परिभाषाएँ मिली हैं: τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| जहाँ lag पर है । ρk=Cov[Xt,Xt+h]Var[Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk ऑटोकैरेलेशन समय का एक अनुप्रयोग "प्रभावी नमूना आकार" खोजना है: यदि आपके पास किसी …

3
अधिकतम एन्ट्रापी वितरण की सांख्यिकीय व्याख्या
मैंने विभिन्न सेटिंग्स में कई वितरणों के उपयोग को सही ठहराने के लिए अधिकतम एन्ट्रापी के सिद्धांत का उपयोग किया है; हालाँकि, मुझे अभी तक एक सांख्यिकीय तैयार करने में सक्षम होना है, जैसा कि सूचना-सिद्धांत, अधिकतम एन्ट्रोपी की व्याख्या के विपरीत है। दूसरे शब्दों में, वितरण के सांख्यिकीय गुणों …

6
प्रशिक्षण की तुलना में परीक्षण की सटीकता अधिक है। व्याख्या कैसे करें?
मैंने कई विशेषताओं (1000 से अधिक) के साथ सबसे अधिक 150 उदाहरणों (प्रशिक्षण और परीक्षण में विभाजित) में एक डेटासेट युक्त है। मुझे क्लासिफायर की तुलना करने और चयन के तरीकों को चुनने की आवश्यकता है जो डेटा पर अच्छा प्रदर्शन करते हैं। इसलिए, मैं तीन वर्गीकरण विधियों (J48, NB, …

2
"काल्पनिक" का क्या अर्थ है (आंकड़ों के संदर्भ में)?
जब मैं Google के लिए "fisher" "fiducial" ... मुझे यकीन है कि बहुत सारे हिट मिलते हैं, लेकिन मैंने जिन सभी का अनुसरण किया है वे मेरी समझ से परे हैं। इन सभी हिट्स में एक बात समान प्रतीत होती है: ये सभी रंगे-लिखे ऊन के सांख्यिकीविदों के लिए लिखे …

4
शोधकर्ता एक सत्यापन सेट पर परीक्षण के बजाय 10-गुना क्रॉस सत्यापन का उपयोग क्यों करते हैं?
मैंने भावना वर्गीकरण और संबंधित विषयों के बारे में बहुत सारे शोध पत्र पढ़े हैं। उनमें से अधिकांश प्रशिक्षकों को प्रशिक्षित करने और परीक्षण करने के लिए 10-गुना क्रॉस सत्यापन का उपयोग करते हैं। इसका मतलब है कि कोई अलग परीक्षण / सत्यापन नहीं किया जाता है। ऐसा क्यों है? …

1
असतत डेटा के साथ कोलमोगोरोव-स्मिरनोव: आर में dgof :: ks.test का उचित उपयोग क्या है?
शुरुआती प्रश्न: मैं परीक्षण करना चाहता हूं कि क्या दो असतत डेटा सेट एक ही वितरण से आते हैं। मुझे एक कोलमोगोरोव-स्मिरनोव परीक्षण का सुझाव दिया गया था। कॉनोवर ( प्रैक्टिकल नॉनपैरेमेट्रिक स्टैटिस्टिक्स , 3 डी) का कहना है कि कोलमोगोरोव-स्मिर्नोव टेस्ट का उपयोग इस उद्देश्य के लिए किया जा …

2
बहुभिन्नरूपी प्रतिगमन के लिए यादृच्छिक वन
मुझे इनपुट सुविधाओं और डी वाई आउटपुट के साथ एक बहु-आउटपुट प्रतिगमन समस्या है । आउटपुट में एक जटिल, गैर-रेखीय सहसंबंध संरचना है।dxdxd_xdydyd_y मैं रेजीमेंट करने के लिए यादृच्छिक जंगलों का उपयोग करना चाहता हूं। जहाँ तक मैं बता सकता हूँ, प्रतिगमन के लिए यादृच्छिक वन केवल एक ही आउटपुट …

4
पीसीए के लिए लापता मूल्यों का विचलन
मैंने prcomp()आर में एक पीसीए (प्रमुख घटक विश्लेषण) करने के लिए फ़ंक्शन का उपयोग किया । हालांकि, उस फ़ंक्शन में एक बग है जैसे कि na.actionपैरामीटर काम नहीं करता है। मैंने स्टैकओवरफ्लो पर मदद मांगी ; वहाँ दो उपयोगकर्ताओं ने NAमूल्यों से निपटने के दो अलग-अलग तरीकों की पेशकश की …

3
एआईसी और बीआईसी संख्या व्याख्या
मैं एआईसी (एकेकी सूचना मानदंड) और बीआईसी (बायेसियन सूचना मानदंड) अनुमानों की व्याख्या करने के तरीके के उदाहरणों के लिए देख रहा हूं। क्या BIC के बीच नकारात्मक अंतर की व्याख्या एक मॉडल के दूसरे पर आने वाली बाधाओं के रूप में की जा सकती है? मैं इसे शब्दों में …

1
आर में प्राकृतिक घन स्प्लिट्स में समुद्री मील की स्थापना
मेरे पास कई सहसंबद्ध सुविधाओं के साथ डेटा है, और मैं एक एलडीए चलाने से पहले एक सुचारू आधार फ़ंक्शन के साथ सुविधाओं को कम करके शुरू करना चाहता हूं। मैं फंक्शन के splinesसाथ पैकेज में प्राकृतिक क्यूबिक स्प्लिन का उपयोग करने की कोशिश कर रहा हूं ns। मैं गाँठों …
23 r  splines 

4
सांख्यिकीय कंप्यूटिंग के लिए सी ++ पुस्तकालय
मुझे एक विशेष MCMC एल्गोरिथ्म मिला है जिसे मैं C / C ++ में पोर्ट करना चाहूंगा। महंगे संगणना का अधिकांश भाग पहले से ही साइथन के माध्यम से सी में है, लेकिन मैं चाहता हूं कि पूरे संकलक को संकलित भाषा में लिखा जाए ताकि मैं केवल पायथन / …
23 mcmc  software  c++  computing 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.