सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
स्तरीकृत क्रॉस-सत्यापन को समझना
स्तरीकृत क्रॉस-वेलिडेशन और क्रॉस-वैलिडेशन के बीच अंतर क्या है ? विकिपीडिया कहता है: में स्तरीकृत कश्मीर गुना पार सत्यापन , परतों का चयन किया जाता है, ताकि मतलब प्रतिक्रिया मूल्य सभी परतों में लगभग बराबर है। एक द्विबीजपत्री वर्गीकरण के मामले में, इसका मतलब है कि प्रत्येक तह में लगभग …

3
स्वतंत्र चर के लिए परिवर्तन जैसे बॉक्स-कॉक्स?
क्या स्वतंत्र चरों के लिए परिवर्तन जैसा एक बॉक्स-कॉक्स है? यही है, एक परिवर्तन जो चर का अनुकूलन करता है ताकि एक रैखिक मॉडल के लिए अधिक उचित फिट हो सके?xxxy~f(x) यदि हां, तो क्या इसके साथ कोई कार्य करना है R?

3
डेटा API / फ़ीड आर में पैकेज के रूप में उपलब्ध है
संपादित करें: वेब टेक्नोलॉजीज एंड सर्विसेज सीआरएएन कार्य दृश्य में आर में उपलब्ध डेटा स्रोतों और एपीआई की एक अधिक व्यापक सूची है। यदि आप कार्य दृश्य में पैकेज जोड़ना चाहते हैं तो आप जीथब पर एक पुल अनुरोध प्रस्तुत कर सकते हैं। मैं विभिन्न डेटा फीड्स की सूची बना …
53 r  references  dataset 

4
सहसंबद्ध यादृच्छिक संख्या (दिए गए साधन, भिन्नता और सहसंबंध की डिग्री) कैसे उत्पन्न करें?
मुझे खेद है कि अगर यह थोड़ा बहुत बुनियादी लगता है, लेकिन मुझे लगता है कि मैं यहाँ समझ की पुष्टि करने के लिए देख रहा हूँ। मुझे लगता है कि मुझे दो चरणों में ऐसा करना होगा, और मैंने सहसंबंध मैट्रीक को उकसाने की कोशिश की है, लेकिन यह …

10
पायथन का उपयोग कर मशीन लर्निंग
मैं अपने मशीन लर्निंग प्रयोगों को करने के लिए पायथन पुस्तकालयों का उपयोग करने पर विचार कर रहा हूं। इस प्रकार, मैं WEKA पर भरोसा कर रहा था, लेकिन पूरी तरह से बहुत असंतुष्ट रहा हूं। यह मुख्य रूप से है क्योंकि मैंने WEKA को इतनी अच्छी तरह से समर्थित …

6
कुशल ऑनलाइन रैखिक प्रतिगमन
मैं कुछ डेटा का विश्लेषण कर रहा हूं जहां मैं साधारण रैखिक प्रतिगमन करना चाहता हूं, हालांकि यह संभव नहीं है क्योंकि मैं इनपुट डेटा की एक सतत स्ट्रीम के साथ ऑन-लाइन सेटिंग के साथ काम कर रहा हूं (जो मेमोरी के लिए जल्दी से बहुत बड़ा हो जाएगा) और …

9
2d बाइनरी मैट्रिक्स की एन्ट्रापी / सूचना / पैटर्न को मापना
मैं द्वि-आयामी बाइनरी मैट्रिक्स की एन्ट्रापी / सूचना घनत्व / पैटर्न-समानता को मापना चाहता हूं। मुझे स्पष्टीकरण के लिए कुछ तस्वीरें दिखाइए: इस प्रदर्शन में एक उच्च एंट्रॉपी होनी चाहिए: ए) इसमें मध्यम एन्ट्रापी होनी चाहिए: बी) ये चित्र, अंत में, सभी के पास शून्य-एन्ट्रापी होने चाहिए: सी) डी) इ) …

5
प्री-पोस्ट उपचार-नियंत्रण डिजाइनों का विश्लेषण करते समय सबसे अच्छा अभ्यास
निम्नलिखित सामान्य डिजाइन की कल्पना करें: 100 प्रतिभागियों को बेतरतीब ढंग से या तो उपचार या नियंत्रण समूह के लिए आवंटित किया जाता है निर्भर चर संख्यात्मक है और पूर्व-उपचार के बाद मापा जाता है इस तरह के डेटा का विश्लेषण करने के लिए तीन स्पष्ट विकल्प हैं: मिश्रित एनोवा …


5
समय-श्रृंखला मॉडलिंग के लिए राज्य-अंतरिक्ष मॉडल और कलमन फ़िल्टर के नुकसान क्या हैं?
राज्य-अंतरिक्ष मॉडल और केएफ के सभी अच्छे गुणों को देखते हुए, मुझे आश्चर्य है कि - अनुमान के लिए राज्य-अंतरिक्ष मॉडलिंग और कलमन फ़िल्टर (या ईकेएफ, यूकेएफ या कण फिल्टर) का उपयोग करने के क्या नुकसान हैं ? आइए हम कहते हैं कि पारंपरिक पद्धति जैसे एआरआईएमए, वीएआर या एड-हॉक …

7
एक सामान्य समय श्रृंखला की अवधि का पता लगाना
यह पोस्ट टाइम सीरीज़ में बाहरी खोज के लिए एक सामान्य विधि से संबंधित एक और पोस्ट की निरंतरता है । मूल रूप से, इस बिंदु पर मैं बहुत अधिक शोर से प्रभावित एक सामान्य समय श्रृंखला की आवधिकता / मौसम की खोज के लिए एक मजबूत तरीके से दिलचस्पी …

6
घातीय क्षय के साथ एडम अनुकूलक
अधिकांश टेनसफ़्लो कोड में मैंने देखा है कि एडम ऑप्टिमाइज़र का उपयोग 1e-4(यानी 0.0001) के निरंतर सीखने की दर के साथ किया जाता है । कोड आमतौर पर निम्नलिखित दिखता है: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will …

2
रैखिक प्रतिगमन मॉडल में "निरंतर विचरण" होने का क्या मतलब है?
त्रुटि शब्द में "निरंतर विचरण" होने का क्या अर्थ है? जैसा कि मैं इसे देखता हूं, हमारे पास एक आश्रित चर और एक स्वतंत्र चर के साथ एक डेटा है। निरंतर विचलन रैखिक प्रतिगमन की धारणाओं में से एक है। मैं सोच रहा हूं कि होमोसेक्शुअलिटी का क्या मतलब है। …

3
जब हम नहीं करते हैं तो हम रैखिक प्रतिगमन में सामान्य रूप से वितरित त्रुटि शर्तों (और होमोसकेडिसिटी) के बारे में इतना ध्यान क्यों रखते हैं?
मुझे लगता है कि मैं हर बार निराश हो जाता हूं जब मैंने किसी को यह कहते हुए सुना कि अवशिष्टों की गैर-सामान्यता और / या विषमलैंगिकता ओएलएस मान्यताओं का उल्लंघन करती है। करने के लिए अनुमान है एक OLS मॉडल में न तो इन मान्यताओं के मापदंडों गॉस-मार्कोव प्रमेय …

3
मॉडल सत्यापन से पहले या भीतर सुविधा सामान्यीकरण करें?
मशीन लर्निंग में एक सामान्य अच्छा अभ्यास भविष्यवक्ता चर की सामान्यीकरण या डेटा मानकीकरण करना है, यह है, मतलब को बदलने वाले डेटा को केंद्र में रखना और इसे विचरण (या मानक विचलन) द्वारा विभाजित करना सामान्य करना। स्व-नियंत्रण और मेरी समझ के लिए हम दो मुख्य चीजों को प्राप्त …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.