सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

1
मॉडल चयन में विरोधाभास (एआईसी, बीआईसी, समझाने या भविष्यवाणी करने के लिए?)
गैलीट श्मुइली के "टू एक्सप्लेन ऑर प्रेडिक्ट " (2010) को पढ़कर मैं एक स्पष्ट विरोधाभास से हैरान हूँ। तीन परिसर हैं, AIC- बनाम BIC- आधारित मॉडल की पसंद (पृष्ठ 300 का अंत - p। 301 की शुरुआत): सीधे शब्दों में कहें तो AIC को भविष्यवाणी के लिए बनाए गए मॉडल …

4
प्रशिक्षण और परीक्षण सेट में डेटा को विभाजित करना पर्याप्त क्यों नहीं है
मुझे पता है कि क्लासिफायर के प्रदर्शन का उपयोग करने के लिए मुझे डेटा को प्रशिक्षण / परीक्षण सेट में विभाजित करना होगा। लेकिन इसे पढ़ना : जब आकलनकर्ताओं के लिए विभिन्न सेटिंग्स ("हाइपरपरमेटर्स") का मूल्यांकन करते हैं, जैसे कि सी सेटिंग जो मैन्युअल रूप से एक एसवीएम के लिए …

2
एक पॉइसन मॉडल में, एक कोवरिएट या एक ऑफसेट के रूप में समय का उपयोग करने में क्या अंतर है?
मैंने हाल ही में एक पॉसन रिग्रेशन में ऑफसेट के रूप में (जैसे) समय का उपयोग करके समय के साथ मॉडल एक्सपोज़र करने का तरीका खोजा। मैं समझता था कि ऑफसेट गुणांक 1 के साथ सहसंयोजक के रूप में समय के अनुरूप है। मैं एक ऑफसेट के रूप में या …

2
स्वतंत्र घटक विश्लेषण की भावना बनाना
मैंने प्रश्न को मुख्य घटक विश्लेषण की समझ बनाने और देखा है , और अब मेरे पास स्वतंत्र घटक विश्लेषण के लिए एक ही सवाल है। मेरा मतलब है कि मैं आईसीए को समझने के सहज तरीकों के बारे में एक व्यापक सवाल करना चाहता हूं? मैं इसे समझना चाहता …
18 intuition  ica 

1
धोखा शीट एनोवा वर्णमाला सूप और प्रतिगमन समकक्ष
क्या मुझे ANOVA और REGRESSION समकक्ष पर अपने बीयरिंग प्राप्त करने के लिए इस अस्थायी (प्रगति में) प्रयास को पूरा करने में मदद मिल सकती है? मैं इन दोनों पद्धतियों की अवधारणाओं, नामकरण और वाक्य विन्यास को समेटने की कोशिश कर रहा हूं। इस साइट पर उनकी समानता के बारे …

2
अनुभवजन्य पादरियों के साथ क्या समस्या है?
साहित्य में मैं कभी-कभी इस टिप्पणी पर अड़ जाता हूं, कि डेटा पर निर्भर होने वाले खुद को चुनने वाले पुजारी (उदाहरण के लिए ज़ेलर्स जी-पूर्व) की सैद्धांतिक दृष्टिकोण से आलोचना की जा सकती है। यदि समस्या को डेटा से स्वतंत्र नहीं चुना जाता है, तो वास्तव में समस्या कहां …

1
LOOCV फॉर्मूला का प्रमाण
से सांख्यिकीय लर्निंग के लिए एक परिचय जेम्स द्वारा एट अल।, छुट्टी-एक-बाहर पार सत्यापन (LOOCV) अनुमान से परिभाषित किया गया है जहां ।CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 प्रमाण के बिना, समीकरण (5.2) बताता है कि कम से कम वर्गों या बहुपद प्रतिगमन के लिए (चाहे यह केवल एक चर पर …

5
अत्यधिक मूल्य सिद्धांत का उपयोग क्यों करें?
मैं सिविल इंजीनियरिंग से आ रहा हूं, जिसमें हम कुछ घटनाओं के मूल्य की भविष्यवाणी करने के लिए GEV वितरण की तरह एक्सट्रीम वैल्यू थ्योरी का उपयोग करते हैं, जैसे कि सबसे बड़ी हवा की गति , यानी कि हवा की गति का 98.5% कम होगा। मेरा सवाल यह है …

1
हार्टिगन्स के डिप टेस्ट की व्याख्या
मैं अनुभवजन्य रूप से मिले कुछ वितरणों की जैव-विविधता की तीव्रता का एक तरीका खोजना चाहता हूं। मैंने जो पढ़ा है, उसमें से अभी भी कुछ मात्रा में जैव विविधता को निर्धारित करने के बारे में बहस है। मैंने हार्टिगन्स के डुबकी परीक्षण का उपयोग करने के लिए चुना है …
18 r  distributions 

1
क्या स्थिति का एक स्पष्ट सेट है जिसके तहत लसो, रिज, या लोचदार शुद्ध समाधान पथ मोनोटोन हैं?
यह सवाल कि इस लास्सो प्लाट (ग्लमैनेट) से क्या निष्कर्ष निकलता है , लसो अनुमानक के लिए समाधान पथ प्रदर्शित करता है जो कि मोनोटोनिक नहीं है। यही है, कुछ ताबूत सिकुड़ने से पहले निरपेक्ष मूल्य में बढ़ते हैं। मैंने इन मॉडलों को कई अलग-अलग प्रकार के डेटा सेटों पर …

1
K- गुना क्रॉस-सत्यापन से उलझन मैट्रिक्स कैसे रिपोर्ट की जाती है?
मान लीजिए मैं K = 10 सिलवटों के साथ K- गुना क्रॉस-सत्यापन करता हूं। प्रत्येक गुना के लिए एक भ्रम मैट्रिक्स होगा। परिणामों की रिपोर्ट करते समय, क्या मुझे गणना करना चाहिए कि औसत भ्रम मैट्रिक्स क्या है, या बस भ्रम मैट्रीस का योग है?

2
चौरसाई - इसका उपयोग कब करना है और कब नहीं?
विलियम ब्रिग्स के ब्लॉग पर काफी पुरानी पोस्ट है जो डेटा को सुचारू करने और विश्लेषण के माध्यम से उस स्मूथ डेटा को ले जाने के नुकसान को देखती है। प्रमुख तर्क है: यदि, पागलपन के एक पल में, आप सुचारु समय श्रृंखला डेटा करते हैं और आप इसे अन्य …

1
एक पीसीए द्विध्रुव पर तीर की स्थिति
मैं जावास्क्रिप्ट में प्रिंसिपल कंपोनेंट एनालिसिस (PCA) के लिए एक बाइपोलॉट लागू करना चाहता हूँ। मेरा सवाल है, मैं डेटा मैट्रिक्स के सिंगुलर वेक्टर अपघटन (एसवीडी) के तीर के निर्देशांक का निर्धारण कैसे करूं ?U,V,DU,V,DU,V,D यहाँ R द्वारा निर्मित एक उदाहरण biplot है: biplot(prcomp(iris[,1:4])) मैंने इसे बीप्लॉट पर विकिपीडिया लेख …
18 pca  svd  biplot 

2
असममित अशक्त वितरण के साथ दो-पूंछ परीक्षण में पी-मूल्य
मेरी स्थिति इस प्रकार है: मैं चाहता हूँ, एक Monte-Carlo अध्ययन के माध्यम से, तुलना करने के लिए एक अनुमान के अनुसार पैरामीटर के सांख्यिकीय महत्व के लिए दो अलग-अलग परीक्षणों के -values (शून्य है "कोई प्रभाव नहीं - पैरामीटर शून्य है", और निहित विकल्प है " पैरामीटर शून्य नहीं …

5
समय श्रृंखला में परिवर्तन का पता लगाना (R उदाहरण)
मैं समय श्रृंखला के आंकड़ों में बदलाव का पता लगाना चाहूंगा, जिसमें आमतौर पर एक ही आकार होता है। अब तक मैं changepointआर cpt.mean(), cpt.var()और cpt.meanvar()कार्यों के लिए पैकेज के साथ काम कर चुका हूं । cpt.mean()PELT विधि के साथ अच्छी तरह से काम करता है जब डेटा आमतौर पर …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.