सांख्यिकी और बिग डेटा many-categories

6

कई स्तरों के साथ श्रेणीबद्ध चर को ढहाने का राजसी तरीका?

सांख्यिकीय मॉडल में एक इनपुट (भविष्यवक्ता) के रूप में उपयोग करने के उद्देश्य से कुछ श्रेणियों को कुछ श्रेणियों को ढहने (या पूलिंग) के लिए क्या तकनीक उपलब्ध है? कॉलेज के छात्र प्रमुख (एक स्नातक छात्र द्वारा चुना गया अनुशासन) जैसे एक चर पर विचार करें । यह अनियंत्रित और …

58 regression categorical-data dimensionality-reduction feature-construction many-categories

6

कई श्रेणीबद्ध चर के साथ वर्गीकरण में सुधार करें

मैं 200,000+ नमूनों के साथ एक डेटासेट पर काम कर रहा हूं और प्रति नमूने लगभग 50 विशेषताएं: 10 निरंतर चर और अन्य ~ 40 श्रेणीबद्ध चर (देश, भाषा, वैज्ञानिक क्षेत्र आदि) हैं। इन श्रेणीबद्ध चरों के लिए, आपके पास 150 विभिन्न देशों, 50 भाषाओं, 50 वैज्ञानिक क्षेत्रों आदि के …

37 machine-learning classification categorical-data random-forest many-categories

6

पाई चार्ट के साथ समस्याएं

पाई चार्ट के बारे में चर्चा बढ़ती जा रही है। इसके खिलाफ मुख्य तर्क दिए गए हैं: क्षेत्र को लंबाई से कम शक्ति के साथ माना जाता है। पाई चार्ट में बहुत कम डेटा-पॉइंट-टू-पिक्सेल अनुपात है हालांकि, मुझे लगता है कि अनुपातों को चित्रित करते समय वे किसी तरह उपयोगी …

28 data-visualization many-categories pie-chart

7

मशीन लर्निंग मॉडल या सिफ़ारिश प्रणाली में भूगोल या ज़िप कोड का प्रतिनिधित्व कैसे करें?

मैं एक मॉडल का निर्माण कर रहा हूं और मुझे लगता है कि भौगोलिक लक्ष्य मेरे लक्ष्य चर की भविष्यवाणी करने में बहुत अच्छा होने की संभावना है। मेरे पास मेरे प्रत्येक उपयोगकर्ता का ज़िप कोड है। मैं पूरी तरह से इस बात के बारे में निश्चित नहीं हूँ कि …

24 machine-learning feature-construction many-categories

5

R का यादृच्छिकफॉरस्ट 32 से अधिक स्तरों को नहीं संभाल सकता है। वर्कअराउंड क्या है?

आर के यादृच्छिकफॉरस्ट पैकेज 32 से अधिक स्तरों के साथ कारक को संभाल नहीं सकता है। जब इसे 32 से अधिक स्तरों पर दिया जाता है, तो यह एक त्रुटि संदेश देता है: 32 से अधिक श्रेणियों के साथ श्रेणीबद्ध भविष्यवाणियों को संभाल नहीं सकते। लेकिन डेटा मेरे पास कई …

22 r random-forest many-categories

4

जैसे-जैसे पुनरावृत्तियों की संख्या बढ़ती है, धीरे-धीरे बूस्टिंग मशीन की सटीकता कम होती जाती है

मैं caretआर में पैकेज के माध्यम से ढाल बूस्टिंग मशीन एल्गोरिदम का प्रयोग कर रहा हूं । एक छोटे से कॉलेज प्रवेश डेटासेट का उपयोग करते हुए, मैंने निम्नलिखित कोड चलाया: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

मिश्रित प्रभाव मॉडल में सभी संभावनाओं को शामिल किए जाने पर यादृच्छिक प्रभाव बनाम फिक्स्ड प्रभाव

एक मिश्रित प्रभाव मॉडल में एक पैरामीटर का अनुमान लगाने के लिए एक निश्चित प्रभाव का उपयोग करने के लिए सिफारिश की जाती है यदि सभी संभावित स्तर शामिल हैं (जैसे, दोनों पुरुष और महिलाएं)। यह एक चर के लिए खाते में एक यादृच्छिक प्रभाव का उपयोग करने के लिए …

15 mixed-model random-effects-model fixed-effects-model many-categories

2

मशीन सीखने के लिए संख्याओं के लिए श्रेणीगत विशेषताओं को एन्कोड करना

कई मशीन लर्निंग एल्गोरिदम, उदाहरण के लिए तंत्रिका नेटवर्क, संख्याओं से निपटने की उम्मीद करते हैं। इसलिए, जब आपके पास एक श्रेणीबद्ध डेटा होता है, तो आपको इसे परिवर्तित करने की आवश्यकता होती है। उदाहरण के लिए, मेरा मतलब है: कार ब्रांड: ऑडी, बीएमडब्ल्यू, शेवरले ... यूजर आईडी: 1, 25, …

14 machine-learning many-categories

2

क्रमिक या नाममात्र डेटा में श्रेणियों को विलय / कम करने के तरीके?

मैं नाममात्र या क्रमिक डेटा में श्रेणियों की संख्या को कम करने के लिए एक विधि खोजने के लिए संघर्ष कर रहा हूं। उदाहरण के लिए, मान लें कि मैं एक डेटासेट पर एक प्रतिगमन मॉडल बनाना चाहता हूं जिसमें कई नाममात्र और क्रमिक कारक हैं। हालांकि मुझे इस कदम …

14 r categorical-data dimensionality-reduction many-categories

1

PROC मिश्रित और l / lmer के बीच अंतर R- स्वतंत्रता की डिग्री में

नोट: यह प्रश्न एक रिपॉजिट है, क्योंकि मेरे पिछले प्रश्न को कानूनी कारणों से हटाना पड़ा था। आर में पैकेज lmeसे फ़ंक्शन के साथ एसएएस से PROC MIXED की तुलना करते समय nlme, मैंने कुछ अंतर भ्रामक मतभेदों पर ठोकर खाई। विशेष रूप से, विभिन्न परीक्षणों में स्वतंत्रता की डिग्री …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

अनियंत्रित श्रेणीबद्ध भविष्यवक्ता चर के स्तरों की संख्या कम करना

मैं एक क्लासिफायरियर को प्रशिक्षित करना चाहता हूं, एसवीएम या यादृच्छिक वन, या किसी अन्य क्लासिफायरियर को कहना चाहता हूं। डेटासेट में एक विशेषता 1000 स्तरों वाला एक श्रेणीगत चर है। इस चर में स्तरों की संख्या को कम करने का सबसे अच्छा तरीका क्या है। R combine.levels()में Hmisc पैकेज …

11 classification svm random-forest many-categories

3

एक-गर्म एन्कोडिंग बनाम डमी एन्कोडिंग के साथ समस्याएं

मैं इस तथ्य से अवगत हूं कि कश्मीर स्तरों के साथ श्रेणीबद्ध चर को डमी एन्कोडिंग में k-1 चर के साथ एन्कोड किया जाना चाहिए (इसी तरह बहु-मूल्यवान श्रेणीबद्ध चर के लिए)। मैं सोच रहा था कि अलग-अलग रिग्रेशन के तरीकों के लिए डमी एन्कोडिंग के ऊपर एक हॉट-इनकोडिंग (यानी …

11 regression multiple-regression categorical-data many-categories

3

डेटामाइनिंग के लिए कारक स्तरों के संयोजन के लिए आर पैकेज?

आश्चर्य है कि अगर किसी ने आर में एक पैकेज / फ़ंक्शन को चलाया है जो एक कारक के स्तर को मिलाएगा जिसका कारक के सभी स्तरों का अनुपात कुछ सीमा से कम है? विशेष रूप से, डेटा तैयार करने के पहले चरणों में से एक, मैं आचरण करता हूं …

10 r many-categories

1

श्रेणीबद्ध डेटा के लिए दंडित तरीके: एक कारक में स्तरों का संयोजन

दंडित मॉडल का उपयोग उन मॉडलों का अनुमान लगाने के लिए किया जा सकता है जहां मापदंडों की संख्या नमूना आकार के बराबर या उससे अधिक है। यह स्थिति श्रेणीबद्ध या गणना डेटा के बड़े विरल तालिकाओं के लॉग-रैखिक मॉडल में उत्पन्न हो सकती है। इन सेटिंग्स में, अक्सर यह …

10 categorical-data lasso elastic-net log-linear many-categories

many-categories पर टैग किए गए जवाब