सांख्यिकी और बिग डेटा dataset

3

मैं अक्सर सभी तत्वों से माध्य को हटाकर लोगों को एक डेटासेट के आयाम / सुविधा को शून्य-माध्य बनाते देखता हूं। लेकिन मैंने कभी नहीं समझा कि ऐसा क्यों करना है? प्रीप्रोसेसिंग कदम के रूप में ऐसा करने का क्या प्रभाव है? क्या यह वर्गीकरण प्रदर्शन में सुधार करता है? …

12 data-mining dataset

2

क्यों कुछ लोग अपने कच्चे डेटा पर प्रतिगमन जैसी मॉडल मान्यताओं का परीक्षण करते हैं और अन्य लोग अवशिष्ट पर उनका परीक्षण करते हैं?

मैं प्रयोगात्मक मनोविज्ञान में एक पीएचडी छात्र हूं और मैं अपने कौशल और ज्ञान को बेहतर बनाने के लिए कड़ी मेहनत करता हूं कि मुझे अपने डेटा का विश्लेषण कैसे करना है। मनोविज्ञान में मेरे 5 वें वर्ष तक, मैंने सोचा कि प्रतिगमन-जैसे मॉडल (जैसे, एनोवा) निम्नलिखित बातों को मानते …

12 regression dataset residuals assumptions

4

आर [बंद] में सांख्यिकीय विश्लेषण के लिए बस डेटा स्टोर करने का सबसे अच्छा तरीका

बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह क्रॉस मान्य के लिए विषय पर हो । 6 साल पहले बंद हुआ । मैं कुछ समय से बिना किसी समस्या …

12 r dataset

1

PROC मिश्रित और l / lmer के बीच अंतर R- स्वतंत्रता की डिग्री में

नोट: यह प्रश्न एक रिपॉजिट है, क्योंकि मेरे पिछले प्रश्न को कानूनी कारणों से हटाना पड़ा था। आर में पैकेज lmeसे फ़ंक्शन के साथ एसएएस से PROC MIXED की तुलना करते समय nlme, मैंने कुछ अंतर भ्रामक मतभेदों पर ठोकर खाई। विशेष रूप से, विभिन्न परीक्षणों में स्वतंत्रता की डिग्री …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

सांख्यिकीय उपकरणों के अनुचित उपयोग से महंगा परिणाम के उदाहरण हैं

मुझे संदेह है कि सांख्यिकीय उपकरणों के अधिकांश उपयोगकर्ता सहायक उपयोगकर्ता हैं (ऐसे लोग जिनके पास सांख्यिकी में कोई औपचारिक प्रशिक्षण नहीं है)। यह शोधकर्ताओं और अन्य पेशेवरों के लिए अपने डेटा में सांख्यिकीय तरीकों को लागू करने के लिए बहुत ही लुभावना है क्योंकि उन्होंने इसे "पहले पहले किया" …

12 dataset methodology

2

किसी दिए गए प्रतिक्रिया चर के संबंध में इष्टतम बायनिंग

मैं एक निरंतर प्रतिक्रिया (लक्ष्य) बाइनरी चर के संबंध में और एक पैरामीटर के रूप में अधिकतम अंतराल के साथ निरंतर चर की इष्टतम बीनिंग विधि (विवेक) की तलाश कर रहा हूं। उदाहरण: मेरे पास "ऊंचाई" (अंक निरंतर) और "has_back_pains" (बाइनरी) चर वाले लोगों की टिप्पणियों का एक सेट है। …

12 r dataset optimization discrete-data binning

2

'सुव्यवस्थित डेटा' बनाने के लिए सर्वोत्तम अभ्यास

हैडली विकम ने डेटा हेरफेर के बारे में पिछले साल जेएसएस में "साफ डेटा" ( लिंक ) नामक एक तारकीय लेख लिखा था और विश्लेषण करने के लिए डेटा को "इष्टतम" स्थिति में प्राप्त किया था। हालांकि, मैं सोच रहा था कि एक कार्य सेटिंग में सारणीबद्ध डेटा प्रस्तुत करने …

12 dataset tables

2

क्या परीक्षण और प्रशिक्षण में डेटा को विभाजित करना विशुद्ध रूप से एक "आँकड़े" चीज है?

मैं एक भौतिक विज्ञान का छात्र हूँ जो मशीन लर्निंग / डेटा साइंस का अध्ययन कर रहा है, इसलिए मुझे इस प्रश्न के लिए किसी भी संघर्ष को शुरू करने का मतलब नहीं है :) हालाँकि, किसी भी भौतिकी स्नातक कार्यक्रम का एक बड़ा हिस्सा प्रयोगशालाओं / प्रयोगों को करना …

11 regression machine-learning cross-validation dataset experiment-design

3

डेटा के साथ व्यावहारिक पीसीए ट्यूटोरियल

पीसीए ट्यूटोरियल के लिए इंटरनेट पर खोज करने से हजारों परिणाम (यहां तक कि वीडियो) मिलते हैं। कई ट्यूटोरियल बहुत अच्छे हैं। लेकिन मुझे कोई भी व्यावहारिक उदाहरण नहीं मिल रहा है जहां पीसीए को कुछ डेटा-सेटों का उपयोग करके समझाया जाता है जो मैं प्रदर्शन के लिए उपयोग कर …

11 data-visualization dataset pca data-mining

14

आप एक नाम से कितनी जानकारी प्राप्त कर सकते हैं?

एक नाम: पहला, संभवतः एक मध्य और उपनाम। मुझे सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग करके आप एक नाम से कितनी जानकारी प्राप्त कर सकते हैं, इसके बारे में उत्सुक हूं। मुझे पता है कि आप अमेरिकी जनगणना डेटा: 1) का उपयोग करके निम्न-उच्च संभावना (इनपुट के आधार पर) …

11 dataset data-mining census

3

एक बड़ी बाइनरी डेटासेट को कुछ श्रेणियों में क्लस्टर करने के लिए मुझे किस एल्गोरिथ्म का उपयोग करना चाहिए?

मेरे पास एक बड़ी (650K पंक्तियाँ * 62 कॉलम) बाइनरी डेटा का मैट्रिक्स (केवल 0-1 प्रविष्टियाँ) हैं। मैट्रिक्स ज्यादातर विरल है: लगभग 8% भरा हुआ है। मैं इसे 5 समूहों में बांटना चाहूंगा - 1 से 5 तक नामांकित कहो। मैंने श्रेणीबद्ध क्लस्टरिंग की कोशिश की है और यह आकार …

11 clustering dataset k-means binary-data

3

डेटा प्रीप्रोसेसिंग और आउटलाइयर डिटेक्शन तकनीकों को कवर करने वाली अच्छी किताबें

जैसा कि शीर्षक से पता चलता है, क्या किसी को एक अच्छी तारीख का पता है, जो सामान्य रूप से और विशेष रूप से बाह्य पहचान तकनीकों में डेटा प्रीप्रोसेसिंग को कवर करता है? पुस्तक को केवल उस पर विशेष रूप से ध्यान केंद्रित करने की आवश्यकता नहीं है, लेकिन …

11 dataset data-mining references outliers

4

"डेटा सेट" से वास्तव में क्या अभिप्राय है?

क्या यह केवल डेटा बिंदुओं का एकत्रीकरण है? या यह विभिन्न चर के मूल्यों के साथ व्यवस्थित सारणीबद्ध प्रारूप में विभिन्न तत्वों के लिए डेटा बिंदुओं का प्रतिनिधित्व है? यह कच्चे डेटा से कैसे भिन्न है?

10 dataset terminology definition

1

सांख्यिकीय विश्लेषण के लिए डेटा हैंडलिंग त्रुटियां पहले से ही 'कीमत में' हैं?

ठीक है, निष्पक्ष चेतावनी - यह एक दार्शनिक सवाल है जिसमें कोई संख्या नहीं है। मैं इस बारे में बहुत सोच रहा हूं कि समय के साथ डेटा सेट में कैसे त्रुटि होती है और विश्लेषकों द्वारा इसका इलाज कैसे किया जाना चाहिए - या अगर यह वास्तव में सभी …

10 dataset error

2

क्या प्रकार के डेटा (नाममात्र / क्रमिक / अंतराल / अनुपात) को वास्तव में चर के प्रकार माना जाना चाहिए?

इसलिए उदाहरण के लिए, मैं मानक पाठ पुस्तकों से प्राप्त की जाने वाली परिभाषाएँ हैं चर - जनसंख्या या नमूने की विशेषता। पूर्व। एक परीक्षण पर एक शेयर या ग्रेड की कीमत डेटा - वास्तविक देखे गए मान तो एक दो कॉलम की रिपोर्ट के लिए [नाम | आय] कॉलम …

10 dataset ordinal-data categorical-data ratio

dataset पर टैग किए गए जवाब