सांख्यिकी और बिग डेटा

3

समय श्रृंखला में AIC बनाम क्रॉस सत्यापन: छोटा नमूना मामला

मुझे एक समय श्रृंखला सेटिंग में मॉडल चयन में दिलचस्पी है। संक्षिप्तता के लिए, मान लीजिए कि मैं अलग-अलग लैग ऑर्डर वाले ARMA मॉडल के पूल से एक ARMA मॉडल का चयन करना चाहता हूं। अंतिम आशय पूर्वानुमान है । द्वारा मॉडल चयन किया जा सकता है परिणाम का सत्यापन …

23 time-series forecasting cross-validation model-selection aic

4

यदि मेरा डेटा वितरण सममित है तो कैसे बताएं?

मुझे पता है कि अगर माध्यिका और माध्य लगभग समान हैं तो इसका मतलब है कि एक सममित वितरण है लेकिन इस विशेष मामले में मैं निश्चित नहीं हूं। माध्य और माध्यिका काफी करीब हैं (केवल 0.487 मी / गैल अंतर) जो मुझे यह कहने के लिए प्रेरित करेगा कि …

23 distributions mean skewness median qq-plot

2

क्यों विल्कस 1938 प्रक्षेपीकृत मॉडल के लिए प्रूफ का काम नहीं करता है?

प्रसिद्ध 1938 के पेपर में (" समग्र परिकल्पनाओं के परीक्षण के लिए संभावना अनुपात का बड़ा-नमूना वितरण ", गणितीय सांख्यिकी के विवरण, 9: 60-62), सैमुअल विल्क्स ने (लॉग संभावना अनुपात) के विषम वितरण का व्युत्पन्न किया। नेस्टेड परिकल्पनाओं के लिए, इस धारणा के तहत कि बड़ी परिकल्पना सही ढंग से …

23 hypothesis-testing model-selection likelihood-ratio asymptotics misspecification

2

हार्ड मार्जिन एसवीएम का नुकसान क्या है?

लोगों का कहना है कि नरम मार्जिन एसवीएम काज हानि समारोह का उपयोग करते हैं: । हालांकि, वास्तविक उद्देश्य फ़ंक्शन जो नरम मार्जिन SVM को कम करने की कोशिश करता है, वह है \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max …

23 svm loss-functions

2

ऑटोक्रेलेशन समय की परिभाषा (प्रभावी नमूना आकार के लिए)

मुझे साहित्य में कमजोर स्थैतिक समय श्रृंखला के स्वतःसंक्रमण समय के लिए दो परिभाषाएँ मिली हैं: τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| जहाँ lag पर है । ρk=Cov[Xt,Xt+h]Var[Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk ऑटोकैरेलेशन समय का एक अनुप्रयोग "प्रभावी नमूना आकार" खोजना है: यदि आपके पास किसी …

23 r time-series correlation

3

अधिकतम एन्ट्रापी वितरण की सांख्यिकीय व्याख्या

मैंने विभिन्न सेटिंग्स में कई वितरणों के उपयोग को सही ठहराने के लिए अधिकतम एन्ट्रापी के सिद्धांत का उपयोग किया है; हालाँकि, मुझे अभी तक एक सांख्यिकीय तैयार करने में सक्षम होना है, जैसा कि सूचना-सिद्धांत, अधिकतम एन्ट्रोपी की व्याख्या के विपरीत है। दूसरे शब्दों में, वितरण के सांख्यिकीय गुणों …

23 distributions entropy intuition information-theory maximum-entropy

6

प्रशिक्षण की तुलना में परीक्षण की सटीकता अधिक है। व्याख्या कैसे करें?

मैंने कई विशेषताओं (1000 से अधिक) के साथ सबसे अधिक 150 उदाहरणों (प्रशिक्षण और परीक्षण में विभाजित) में एक डेटासेट युक्त है। मुझे क्लासिफायर की तुलना करने और चयन के तरीकों को चुनने की आवश्यकता है जो डेटा पर अच्छा प्रदर्शन करते हैं। इसलिए, मैं तीन वर्गीकरण विधियों (J48, NB, …

23 classification feature-selection

2

"काल्पनिक" का क्या अर्थ है (आंकड़ों के संदर्भ में)?

जब मैं Google के लिए "fisher" "fiducial" ... मुझे यकीन है कि बहुत सारे हिट मिलते हैं, लेकिन मैंने जिन सभी का अनुसरण किया है वे मेरी समझ से परे हैं। इन सभी हिट्स में एक बात समान प्रतीत होती है: ये सभी रंगे-लिखे ऊन के सांख्यिकीविदों के लिए लिखे …

23 bayesian inference terminology fiducial ronald-fisher

4

शोधकर्ता एक सत्यापन सेट पर परीक्षण के बजाय 10-गुना क्रॉस सत्यापन का उपयोग क्यों करते हैं?

मैंने भावना वर्गीकरण और संबंधित विषयों के बारे में बहुत सारे शोध पत्र पढ़े हैं। उनमें से अधिकांश प्रशिक्षकों को प्रशिक्षित करने और परीक्षण करने के लिए 10-गुना क्रॉस सत्यापन का उपयोग करते हैं। इसका मतलब है कि कोई अलग परीक्षण / सत्यापन नहीं किया जाता है। ऐसा क्यों है? …

23 classification cross-validation

1

असतत डेटा के साथ कोलमोगोरोव-स्मिरनोव: आर में dgof :: ks.test का उचित उपयोग क्या है?

शुरुआती प्रश्न: मैं परीक्षण करना चाहता हूं कि क्या दो असतत डेटा सेट एक ही वितरण से आते हैं। मुझे एक कोलमोगोरोव-स्मिरनोव परीक्षण का सुझाव दिया गया था। कॉनोवर ( प्रैक्टिकल नॉनपैरेमेट्रिक स्टैटिस्टिक्स , 3 डी) का कहना है कि कोलमोगोरोव-स्मिर्नोव टेस्ट का उपयोग इस उद्देश्य के लिए किया जा …

23 r goodness-of-fit discrete-data kolmogorov-smirnov

2

बहुभिन्नरूपी प्रतिगमन के लिए यादृच्छिक वन

मुझे इनपुट सुविधाओं और डी वाई आउटपुट के साथ एक बहु-आउटपुट प्रतिगमन समस्या है । आउटपुट में एक जटिल, गैर-रेखीय सहसंबंध संरचना है।dxdxd_xdydyd_y मैं रेजीमेंट करने के लिए यादृच्छिक जंगलों का उपयोग करना चाहता हूं। जहाँ तक मैं बता सकता हूँ, प्रतिगमन के लिए यादृच्छिक वन केवल एक ही आउटपुट …

23 regression multivariate-analysis random-forest

4

पीसीए के लिए लापता मूल्यों का विचलन

मैंने prcomp()आर में एक पीसीए (प्रमुख घटक विश्लेषण) करने के लिए फ़ंक्शन का उपयोग किया । हालांकि, उस फ़ंक्शन में एक बग है जैसे कि na.actionपैरामीटर काम नहीं करता है। मैंने स्टैकओवरफ्लो पर मदद मांगी ; वहाँ दो उपयोगकर्ताओं ने NAमूल्यों से निपटने के दो अलग-अलग तरीकों की पेशकश की …

23 r pca missing-data data-imputation

3

एआईसी और बीआईसी संख्या व्याख्या

मैं एआईसी (एकेकी सूचना मानदंड) और बीआईसी (बायेसियन सूचना मानदंड) अनुमानों की व्याख्या करने के तरीके के उदाहरणों के लिए देख रहा हूं। क्या BIC के बीच नकारात्मक अंतर की व्याख्या एक मॉडल के दूसरे पर आने वाली बाधाओं के रूप में की जा सकती है? मैं इसे शब्दों में …

23 interpretation aic bic

1

आर में प्राकृतिक घन स्प्लिट्स में समुद्री मील की स्थापना

मेरे पास कई सहसंबद्ध सुविधाओं के साथ डेटा है, और मैं एक एलडीए चलाने से पहले एक सुचारू आधार फ़ंक्शन के साथ सुविधाओं को कम करके शुरू करना चाहता हूं। मैं फंक्शन के splinesसाथ पैकेज में प्राकृतिक क्यूबिक स्प्लिन का उपयोग करने की कोशिश कर रहा हूं ns। मैं गाँठों …

23 r splines

4

सांख्यिकीय कंप्यूटिंग के लिए सी ++ पुस्तकालय

मुझे एक विशेष MCMC एल्गोरिथ्म मिला है जिसे मैं C / C ++ में पोर्ट करना चाहूंगा। महंगे संगणना का अधिकांश भाग पहले से ही साइथन के माध्यम से सी में है, लेकिन मैं चाहता हूं कि पूरे संकलक को संकलित भाषा में लिखा जाए ताकि मैं केवल पायथन / …

23 mcmc software c++ computing