सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

5
क्या विशुद्ध रूप से अनुमानित मॉडलिंग करते समय खोजपूर्ण डेटा विश्लेषण महत्वपूर्ण है?
मशीन लर्निंग तकनीक का उपयोग कर एक पूर्वानुमान मॉडल का निर्माण करते समय, खोजपूर्ण डेटा विश्लेषण (EDA) करने का क्या मतलब है? क्या यह ठीक है कि फीचर जेनरेशन पर सीधे कूदें और अपने मॉडल का निर्माण करें? EDA में वर्णनात्मक आंकड़ों का उपयोग कैसे किया जाता है?

1
क्या लॉजिस्टिक रिग्रेशन के लिए नमूना करना 1 और 0 के वास्तविक अनुपात को दर्शाता है?
मान लीजिए मैं लॉजिस्टिक रिग्रेशन मॉडल बनाना चाहता हूं जो पेड़ों की विशेषताओं (फ़े ऊंचाई) के आधार पर पेड़ों पर रहने वाले कुछ जानवरों की प्रजातियों की घटना की संभावना का अनुमान लगा सकता है। हमेशा की तरह, मेरा समय और पैसा सीमित है, इसलिए मैं केवल एक सीमित नमूना …

2
जॉन स्नो कोलेरा समस्या को हल करने के लिए किस सांख्यिकीय मॉडल या एल्गोरिथ्म का उपयोग किया जा सकता है?
मुझे यह जानने में दिलचस्पी है कि जॉन स्नो चोलरा के प्रकोप के आंकड़ों के आधार पर किसी तरह के उपकेंद्र का भौगोलिक अनुमान कैसे विकसित किया जाए। इस तरह की समस्या के समाधान के लिए सांख्यिकीय मॉडलिंग का इस्तेमाल किया जा सकता है, जहां कुएं स्थित हैं, पूर्व ज्ञान …

10
मेकअप डेटा के लिए सर्वश्रेष्ठ शब्द?
मैं एक उदाहरण लिख रहा हूं और कुछ आंकड़े बनाए हैं। मैं चाहता हूं कि यह पाठक के लिए स्पष्ट हो कि यह वास्तविक डेटा नहीं है, लेकिन मैं द्वेष की धारणा भी नहीं देना चाहता, क्योंकि यह सिर्फ एक उदाहरण के रूप में कार्य करता है। इस विशेष डेटा …

4
एक पतनशील मोंटी के साथ मोंटी हॉल समस्या
मोंटी को इस बात की पूरी जानकारी थी कि क्या इसके पीछे डोर का बकरा था (या खाली था)। यह तथ्य प्लेयर को "अनुमान" को दूसरे दरवाजे पर स्विच करके समय के साथ उसकी सफलता दर को दोगुना करने की अनुमति देता है। क्या होगा अगर मोंटी का ज्ञान पूर्ण …

3
क्या विज़ुअलाइज़ेशन के लिए आयामी कमी को "बंद" समस्या माना जाना चाहिए, जो टी-एसएनई द्वारा हल किया गया है?
मैं - एल्गोरिथ्म के बारे में बहुत कुछ पढ़ रहा हूँ आयामीता में कमी। मैं एमएनआईएसटी जैसे "क्लासिक" डेटासेट पर प्रदर्शन से बहुत प्रभावित हूं, जहां यह अंकों के स्पष्ट पृथक्करण को प्राप्त करता है ( मूल लेख देखें ):टीटीt मैंने इसका उपयोग एक तंत्रिका नेटवर्क द्वारा सीखी गई सुविधाओं …

1
नैट सिल्वर ने लूस के बारे में क्या कहा, इसकी व्याख्या
हाल ही में पूछे गए एक प्रश्न में , मुझे बताया गया था कि यह एक बड़ा "नहीं-नहीं" था, जिसमें लोट्स के साथ एक्सट्रपलेशन करना था। लेकिन, फाइवThirtyEight.com पर नैट सिल्वर के सबसे हालिया लेख में उन्होंने चुनावी भविष्यवाणियां करने के लिए शतरंज का इस्तेमाल करने पर चर्चा की। वह …

1
आश्रित टिप्पणियों के लिए पीसीए के गुण
हम आमतौर पर पीसीए को डेटा के लिए एक आयामी कमी तकनीक के रूप में उपयोग करते हैं जहां मामलों को आईआईडी माना जाता है प्रश्न: पीसीए को आश्रित, गैर-आईआईडी डेटा के लिए आवेदन करने में क्या विशिष्ट बारीकियां हैं? पीसीए के अच्छे / उपयोगी गुण जो आईआईडी डेटा के …

4
अनुकूलन एल्गोरिदम को अन्य अनुकूलन समस्याओं के संदर्भ में क्यों परिभाषित किया गया है?
मैं मशीन लर्निंग के लिए ऑप्टिमाइज़ेशन तकनीकों पर कुछ शोध कर रहा हूं, लेकिन मुझे बड़ी हैरानी है कि ऑप्टिमाइज़ेशन एल्गोरिदम की बड़ी संख्या अन्य ऑप्टिमाइज़ेशन समस्याओं के संदर्भ में परिभाषित की गई है। मैं निम्नलिखित में कुछ उदाहरणों का वर्णन करता हूं। उदाहरण के लिए https://arxiv.org/pdf/1511.05133v1.pdf सब कुछ अच्छा …

1
TensorBoard में TensorFlow द्वारा दिए गए हिस्टोग्राम्स की व्याख्या कैसे की जाती है?
मैं हाल ही में टेंसर प्रवाह सीख रहा था और कुछ हिस्टोग्राम प्राप्त कर रहा था, जो मुझे नहीं पता था कि व्याख्या कैसे करें। आमतौर पर मैं बार की ऊंचाई को आवृत्ति (या सापेक्ष आवृत्ति / गणना) के रूप में सोचता हूं। हालाँकि, तथ्य यह है कि एक सामान्य …

1
Keras, काम सीखने की दर कैसे काम करता है?
यदि आप प्रलेखन http://keras.io/optimizers/ को देखते हैं तो क्षय के लिए SGD में एक पैरामीटर है। मुझे पता है कि यह समय के साथ सीखने की दर को कम करता है। हालांकि, मैं यह पता नहीं लगा सकता कि यह कैसे काम करता है। क्या यह एक मूल्य है जो …

2
क्या यह एक निश्चित प्रभाव के लिए एक यादृच्छिक एक के भीतर नेस्टेड होने के लिए समझ में आता है, या आर (एनोव और लमेर) में दोहराया उपायों को कैसे कोडित किया जाए?
मैं lcon / lmer R फॉर्मूले के इस अवलोकन को @conjugateprior द्वारा देख रहा हूं और निम्नलिखित प्रविष्टि द्वारा भ्रमित हो गया हूं : अब मान लें कि A यादृच्छिक है, लेकिन B निश्चित है और B, A के भीतर स्थित है। aov(Y ~ B + Error(A/B), data=d) नीचे मिश्रित …

2
क्या अंतिम (उत्पादन तैयार) मॉडल को संपूर्ण डेटा पर या केवल प्रशिक्षण सेट पर प्रशिक्षित किया जाना चाहिए?
मान लीजिए कि मैंने प्रशिक्षण सेट पर कई मॉडलों को प्रशिक्षित किया, परीक्षण सेट पर क्रॉस सत्यापन सेट और मापा प्रदर्शन का उपयोग करके सबसे अच्छा एक का चयन करें। इसलिए अब मेरे पास एक अंतिम सर्वश्रेष्ठ मॉडल है। क्या मुझे प्रशिक्षण सेट पर प्रशिक्षित अपने सभी उपलब्ध डेटा या …

3
क्या इस वितरण का कोई नाम है?
यह आज मेरे लिए हुआ है कि वितरण को गौसियन और लाप्लास के बीच एक समझौता के रूप में देखा जा सकता है। वितरण, x \ के लिए \ mathbb {R}, p \ में [1,2] और \ बीटा> 0। क्या इस तरह के वितरण का कोई नाम है? और क्या …

6
खोजपूर्ण डेटा विश्लेषण में टेक्सास के शार्पशूटर की गिरावट
मैं प्रकृति में इस लेख को पढ़ रहा था जिसमें डेटा विश्लेषण के संदर्भ में कुछ कमियों को समझाया गया है। मैंने देखा कि टेक्सास के शार्पशूटर की खराबी से बचना विशेष रूप से मुश्किल था: एक संज्ञानात्मक जाल जो डेटा विश्लेषण के दौरान इंतजार करता है, उसे टेक्सास के …
23 eda  fallacy 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.