सांख्यिकी और बिग डेटा scikit-learn

2

स्किटिट-लर्न बूटस्ट्रैप फ़ंक्शन टेस्ट सेट को फिर से क्यों करता है?

मॉडल मूल्यांकन के लिए बूटस्ट्रैपिंग का उपयोग करते समय, मैंने हमेशा सोचा कि आउट-ऑफ-बैग नमूने सीधे परीक्षण सेट के रूप में उपयोग किए जाते थे। हालाँकि, ऐसा प्रतीत नहीं होता है कि हटाए गए डरावने-सीखने केBootstrap दृष्टिकोण के लिए मामला है , जो आउट-ऑफ-द-बैग डेटा सब्मिट से ड्राइंग से परीक्षण …

15 cross-validation bootstrap random-forest scikit-learn bagging

2

नेस्टेड क्रॉस-मान्यता का उपयोग

मॉडल चयन पर Scikit जानें के पृष्ठ में नेस्टेड क्रॉस-मान्यता के उपयोग का उल्लेख है: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) दो क्रॉस-वेलिडेशन लूप्स समानांतर में किए जाते हैं: एक ग्रिडड्रेससीवी अनुमानक द्वारा गामा सेट करने के लिए और दूसरा एक क्रॉस_वेल_स्कोर द्वारा अनुमानक के …

14 machine-learning cross-validation scikit-learn

2

लॉजिस्टिक रिग्रेशन में निर्णय थ्रेशोल्ड एक हाइपरपरमीटर है?

मॉडल से उत्पन्न वर्ग सदस्यता संभावनाओं पर एक सीमा का उपयोग करके (द्विआधारी) लॉजिस्टिक प्रतिगमन से अनुमानित कक्षाएं निर्धारित की जाती हैं। जैसा कि मैं इसे समझता हूं, आमतौर पर 0.5 का उपयोग डिफ़ॉल्ट रूप से किया जाता है। लेकिन अलग-अलग होने से भविष्यवाणी के वर्गीकरण में बदलाव आएगा। क्या …

13 machine-learning logistic scikit-learn hyperparameter

2

KMEANS में k की संख्या का अनुमान लगाने के लिए BIC का उपयोग करना

मैं वर्तमान में अपने खिलौना डेटा सेट (inc iris (:) के लिए BIC की गणना करने की कोशिश कर रहा हूं। मैं यहां दिखाए गए अनुसार परिणाम को पुन: उत्पन्न करना चाहता हूं (चित्र 5)। यह पेपर भी BIC फॉर्मूलों के लिए मेरा स्रोत है। मुझे इसके साथ 2 समस्याएं …

13 python k-means scikit-learn bic

1

LogisticRegressionCV में गैर-अभिसरण कैसे ठीक करें

मैं डेटा के एक सेट पर क्रॉसवालाइडेशन के साथ लॉजिस्टिक रिग्रेशन करने के लिए स्किकिट-लर्न का उपयोग कर रहा हूं (लगभग 14 पैरामीटर> 7000 सामान्य टिप्पणियों के साथ)। मेरे पास एक लक्षित क्लासिफायर है, जिसका मूल्य 1 या 0 है। मेरे पास समस्या यह है कि इस्तेमाल किए गए सॉल्वर …

13 logistic cross-validation scikit-learn

2

पायथन, गामा, या ट्वीडेई वितरण का उपयोग करके त्रुटि वितरण के लिए परिवार के रूप में पाइथन / स्किकिट-जीएल में जीएलएम का मूल्यांकन करना संभव है?

कुछ पायथन और स्केलेर को सीखने की कोशिश कर रहा हूं, लेकिन मेरे काम के लिए मुझे ऐसे प्रतिगमन चलाने की आवश्यकता है जो पॉइसन, गामा और विशेष रूप से ट्वीडे परिवारों से त्रुटि वितरण का उपयोग करते हैं। मुझे उनके बारे में प्रलेखन में कुछ भी नहीं दिखता है, …

13 generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

5

बहुत बड़ी संख्या में डेटा बिंदुओं में मानों की प्रतिरूपण कैसे करें?

मेरे पास एक बहुत बड़ा डेटासेट है और लगभग 5% यादृच्छिक मूल्य गायब हैं। ये चर एक दूसरे के साथ सहसंबद्ध हैं। निम्नलिखित उदाहरण R डाटासेट केवल एक खिलौना उदाहरण है जिसमें डमी सहसंबद्ध डेटा है। set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

PCA और TruncatedSVD के scikit-learn कार्यान्वयन के बीच अंतर

मैं बीजगणितीय / सटीक स्तर पर प्रधान घटक विश्लेषण और एकवचन मूल्य अपघटन के बीच के संबंध को समझता हूं। मेरा प्रश्न स्कोर-लर्न कार्यान्वयन के बारे में है । प्रलेखन कहता है: " [ट्रंचकेटेडएसवीडी] पीसीए के समान है, लेकिन एक कोवरियन मैट्रिक्स के बजाय सीधे नमूना वैक्टर पर संचालित होता …

12 pca scikit-learn svd scipy

1

स्किकिट भविष्यवाणी_प्रोबा आउटपुट व्याख्या

मैं अजगर में स्किटिट-लर्न लाइब्रेरी के साथ काम कर रहा हूं। नीचे दिए गए कोड में, मैं संभावना का अनुमान लगा रहा हूं लेकिन मुझे नहीं पता कि आउटपुट कैसे पढ़ा जाए। परीक्षण डेटा from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) …

12 python scikit-learn

2

स्किट-लर्न में और विचरण स्कोर के बीच अंतर क्या है ?

मैं अजगर स्किट-लर्न मैनुअल में रिग्रेशन मेट्रिक्स के बारे में पढ़ रहा था और भले ही उनमें से हर एक का अपना सूत्र हो, मैं सहजता से नहीं बता सकता कि और विचरण स्कोर में क्या अंतर है और इसलिए जब एक या दूसरे का मूल्यांकन करना हो मेरे मॉडल।R2R2R^2

12 regression variance scikit-learn r-squared model-evaluation

1

कर्नेल अनुमोदन के लिए Nystroem विधि

मैं निम्न-श्रेणी कर्नेल aproximation के लिए Nyström विधि के बारे में पढ़ रहा हूं। इस पद्धति को स्किकिट-लर्न [1] में लागू किया गया है, जो कि डेटा सैंपल को कर्नेल फीचर मैपिंग के निम्न-श्रेणी के सन्निकटन के रूप में पेश करता है। मेरे ज्ञान के सर्वश्रेष्ठ के लिए, एक प्रशिक्षण …

12 scikit-learn dimensionality-reduction kernel-trick nonlinear

1

K का एक बड़ा विकल्प मेरा क्रॉस सत्यापन स्कोर कम क्यों है?

के साथ चारों ओर खेलने के बोस्टन आवास डेटासेट और RandomForestRegressor(w / डिफ़ॉल्ट पैरामीटर) में scikit-जानने के लिए, मैं कुछ अजीब देखा: मतलब पार सत्यापन स्कोर में कमी आई के रूप में मैं 10 मेरे पार सत्यापन रणनीति के रूप में था इस प्रकार से परे परतों की संख्या में …

11 machine-learning cross-validation random-forest sample-size scikit-learn

1

आर में स्किटिट-लर्न पायथन और ग्लमेनेट में इलास्टिकनेट के बीच अंतर

क्या किसी ने यह सत्यापित करने की कोशिश की है कि ElasticNetपायथन glmnetमें आर -ए- नेट के साथ एक लोचदार नेट मॉडल फिट करना और उसी डेटा सेट पर आर में समान अंकगणितीय परिणाम उत्पन्न करता है? मैं मापदंडों के कई संयोजनों के साथ प्रयोग कर रहा हूं (चूंकि दोनों …

11 machine-learning scikit-learn glmnet elastic-net

2

R के glmnet और Python के scikit-learn के उपयोग से रिज रिग्रेशन में क्या अंतर हैं?

मैं जेम्स, विटेन, हस्ती, तिब्शीरानी (2013) द्वारा 'ए इंट्रोडक्शन टू स्टैटिस्टिकल लर्निंग विद एप्लीकेशंस इन आर' पुस्तक में रिज रिग्रेशन / लास्सो पर §6.6 के माध्यम से जा रहा हूं । विशेष रूप से, मैं RidgeR पैकेज 'ISLR' से 'Hitters' डेटासेट पर स्किकिट-लर्न मॉडल लागू करने की कोशिश कर रहा …

11 r machine-learning scikit-learn regression

1

ची स्क्वायर टेस्ट किस तरह की सुविधा के लिए इस्तेमाल किया जा सकता है?

यहाँ मैं दूसरों के बारे में पूछ रहा हूँ कि आमतौर पर पर्यवेक्षित शिक्षण में फ़ीचर चयन रिट परिणाम के लिए ची स्क्वेड टेस्ट का उपयोग करने के लिए अन्य क्या करते हैं। अगर मैं सही तरीके से समझूं, तो क्या वे प्रत्येक सुविधा और परिणाम के बीच स्वतंत्रता का …

11 hypothesis-testing chi-squared feature-selection independence scikit-learn

scikit-learn पर टैग किए गए जवाब