सांख्यिकी और बिग डेटा normalization

6

विविधता का एक मजबूत (गैर-पैरामीट्रिक) उपाय गुणांक की तरह - IQR / मंझला, या वैकल्पिक?

डेटा के दिए गए सेट के लिए, प्रसार को अक्सर मानक विचलन के रूप में या IQR (अंतर-चतुर्थक श्रेणी) के रूप में गणना की जाती है। जबकि एक standard deviationसामान्यीकृत (z- स्कोर, आदि) है और इसलिए इसका उपयोग दो अलग-अलग आबादी से प्रसार की तुलना करने के लिए किया जा …

12 nonparametric mathematical-statistics standard-deviation descriptive-statistics normalization

1

आर / एमजीसीवीवी: क्यों टी () और टीआई () टेंसर उत्पाद विभिन्न सतहों का उत्पादन करते हैं?

mgcvके लिए पैकेज Rफिटिंग टेन्सर उत्पाद बातचीत के लिए दो कार्य करता है: te()और ti()। मैं दोनों के बीच श्रम के बुनियादी विभाजन को समझता हूं (गैर-रैखिक बातचीत को फिट करना बनाम इस बातचीत को मुख्य प्रभावों और एक इंटरैक्शन में विघटित करना)। क्या मुझे समझ नहीं आता क्यों है …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

लैस्सो / रिज रिग्रेशन के लिए मानकीकरण बनाम सामान्यीकरण

मुझे पता है कि रिज और लास्सो रिग्रेशन के लिए सुविधाओं का मानकीकरण करना आम बात है, हालांकि, क्या इन रिग्रेशन विधियों के लिए जेड-स्कोर मानकीकरण के विकल्प के रूप में (0,1) पैमाने पर सुविधाओं को सामान्य करने के लिए यह अधिक व्यावहारिक होगा?

11 normalization lasso standardization ridge-regression

4

स्टोकेस्टिक मैट्रिस के लिए स्पार्सिटी-उत्प्रेरण नियमितिकरण

यह अच्छी तरह से जाना जाता है (उदाहरण के लिए संपीड़ित संवेदन के क्षेत्र में) कि मानदंड "स्पार्सिटी-उत्प्रेरण" है, इस अर्थ में कि यदि हम कार्यात्मक (निश्चित मैट्रिक्स और वेक्टर ) बड़ा पर्याप्त के लिए \ lambda> 0 , हम A , \ vec {b} के कई विकल्पों के लिए …

10 regression matrix normalization regularization sparse

1

रेखीय प्रतिगमन श्रेणीगत चर "छिपा हुआ" मान

यह सिर्फ एक उदाहरण है कि मैं कई बार आया हूं, इसलिए मेरे पास कोई नमूना डेटा नहीं है। R में एक रैखिक प्रतिगमन मॉडल चलाना: a.lm = lm(Y ~ x1 + x2) x1एक सतत चर है। x2श्रेणीबद्ध है और इसके तीन मान हैं "उदा", "मध्यम" और "उच्च"। हालाँकि R …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

KNN के साथ किस प्रकार के डेटा को सामान्य बनाना चाहिए?

मुझे पता है कि सामान्यीकरण के दो से अधिक प्रकार हैं। उदाहरण के लिए, 1- एक जेड-स्कोर या टी-स्कोर का उपयोग करके डेटा ट्रांसफ़ॉर्म करना। इसे आमतौर पर मानकीकरण कहा जाता है। 2- 0 और 1 के बीच मान रखने के लिए डेटा को परिवर्तित करना। यदि मुझे सामान्य करने …

9 machine-learning normalization standardization k-nearest-neighbour

1

ReLU न्यूरॉन्स के लिए इनपुट सामान्यीकरण

के अनुसार "कुशल Backprop" LeCun एट अल (1998) से यह सब जानकारी के इतना है कि वे अधिक से अधिक दूसरा व्युत्पन्न की सीमा के भीतर चारों ओर 0 और झूठ केंद्रित कर रहे हैं को सामान्य बनाने में अच्छा अभ्यास है। इसलिए उदाहरण के लिए हम "तन" फ़ंक्शन के …

9 machine-learning neural-networks normalization deep-learning multidimensional-scaling

1

एलडीए को पूर्व-प्रसंस्करण कदम के रूप में उपयोग करते समय मानकीकरण सुविधाएँ

यदि एक बहु-श्रेणी रैखिक डिस्क्रिमिनेन्ट एनालिसिस (या मैं कभी-कभी मल्टीपल डिस्क्रिमिनेन्ट एनालिसिस भी पढ़ता हूं) का उपयोग डायमेंशन में कमी के लिए किया जाता है (या पीसीए के माध्यम से डायमेंशन में कमी के बाद ट्रांसफॉर्मेशन), तो मैं समझता हूं कि सामान्य तौर पर "जेड-स्कोर नॉर्मलाइजेशन" (या मानकीकरण) सुविधाएँ आवश्यक …

9 classification data-transformation normalization standardization discriminant-analysis

2

डेटा सामान्यीकरण से संबंधित भ्रम

मैं एक रेखीय प्रतिगमन मॉडल सीखने की कोशिश कर रहा हूं। हालांकि, मुझे डेटा के सामान्यीकरण से संबंधित कुछ भ्रम है। मैंने फीचर्स / प्रेडिक्टर्स को शून्य माध्य और यूनिट वेरिएशन के लिए सामान्य कर दिया है। क्या मुझे लक्ष्य के लिए ऐसा करने की आवश्यकता है। यदि हां तो …

9 regression multiple-regression normalization

1

गतिशील समय ताना और सामान्यीकरण

मैं "क्वेरी" और "टेम्प्लेट" वक्र से मिलान करने के लिए डायनेमिक टाइम वारिंग का उपयोग कर रहा हूं और इस प्रकार अब तक उचित सफलता पा रहा हूं, लेकिन मेरे पास कुछ बुनियादी प्रश्न हैं: मैं यह आंकलन करके "मैच" कर रहा हूं कि क्या DTW का परिणाम कुछ सीमा …

9 time-series normalization functional-data-analysis

1

मुझे अपना एक्सेलेरोमीटर सेंसर डेटा कैसे सामान्य करना चाहिए?

मैं कई विषयों द्वारा पहने गए कई सेंसर के साथ एकत्र किए गए एक्सेलेरोमीटर डेटा के एक बड़े सेट के साथ काम कर रहा हूं। दुर्भाग्य से, यहां किसी को भी उपकरणों की तकनीकी विशेषताओं का पता नहीं लगता है और मुझे नहीं लगता कि उन्हें कभी पुनर्गठित किया गया …

9 normalization signal-processing

2

मिश्रित मॉडल के लिए पैरामीट्रिक, सेमीपैरेट्रिक और नॉनपैमेट्रिक बूटस्ट्रैपिंग

निम्नलिखित आलेख इस लेख से लिए गए हैं । मैं बूटस्ट्रैप करने के लिए नौसिखिया हूं और R bootपैकेज के साथ रैखिक मिश्रित मॉडल के लिए पैरामीट्रिक, सेमीपैरेट्रिक और नॉनपैमेट्रिक बूटस्ट्रैपिंग बूटस्ट्रैपिंग को लागू करने की कोशिश कर रहा हूं । आर कोड यहाँ मेरा Rकोड है: library(SASmixed) library(lme4) library(boot) …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

1

बिंदु प्रक्रियाओं के लिए क्वाड्रेट्स का निर्माण कैसे करें जो आवृत्ति में बहुत भिन्न होते हैं?

मैं कई बिंदु प्रक्रियाओं (या एक चिह्नित बिंदु प्रक्रिया) पर चतुष्कोण गणना विश्लेषण करना चाहता हूं, फिर कुछ आयामी कमी तकनीकों को लागू करना है। ये चिह्न समान रूप से वितरित नहीं होते हैं, अर्थात, कुछ निशान अक्सर दिखाई दे रहे हैं, और कुछ बहुत दुर्लभ हैं। इस प्रकार, मैं …

9 multivariate-analysis normalization ecology point-process

normalization पर टैग किए गए जवाब