डेटा साइंस sampling

4

शोर गर्भनिरोधक अनुमान (NCE) नुकसान की सहज व्याख्या?

मैंने इन दो स्रोतों से एनसीई (उम्मीदवार के नमूने का एक रूप) के बारे में पढ़ा: टेंसरफ्लो राइटअप मूल पेपर क्या कोई मेरी मदद कर सकता है: एनसीई कैसे काम करता है की एक सरल व्याख्या (मुझे उपरोक्त मुश्किलों को समझने और समझने में मदद मिली, इसलिए कुछ सहज ज्ञान …

32 deep-learning tensorflow word-embeddings sampling loss-function

2

train_test_split () त्रुटि: नमूने के असंगत संख्याओं के साथ इनपुट चर मिले

पायथन के लिए काफी नया लेकिन कुछ वर्गीकरण डेटा के आधार पर मेरा पहला आरएफ मॉडल तैयार करना। मैंने सभी लेबल को int64 संख्यात्मक डेटा में परिवर्तित कर दिया है और एक्स और वाई में एक संख्यात्मक सरणी के रूप में लोड किया है, लेकिन जब मैं मॉडल को प्रशिक्षित …

21 python scikit-learn sampling

1

क्या स्तरीकृत नमूनाकरण आवश्यक है (यादृच्छिक वन, पायथन)?

मैं अपने असंतुलित डेटासेट पर एक यादृच्छिक वन मॉडल (लक्ष्य चर बाइनरी क्लास था) चलाने के लिए पायथन का उपयोग करता हूं। प्रशिक्षण और परीक्षण डेटासेट को विभाजित करते समय, मैंने संघर्ष किया कि क्या स्तरीकृत नमूने का उपयोग किया जाना चाहिए (जैसे दिखाए गए कोड) या नहीं। अब तक, …

14 machine-learning python random-forest sampling training

1

रैंडम फ़ॉरेस्ट का उपयोग करके नमूना करने के लिए कितनी सुविधाएँ

विकिपीडिया पृष्ठ जो उद्धरण "सांख्यिकीय लर्निंग के तत्वों" का कहना है: आमतौर पर, साथ श्रेणीबद्ध समस्यायें के लिए सुविधाओं, ⌊ √ppp सुविधाओं प्रत्येक विभाजन में उपयोग किया जाता है।⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor मैं समझता हूं कि यह एक बहुत अच्छा शिक्षित अनुमान है और संभवतः अनुभवजन्य साक्ष्य द्वारा इसकी पुष्टि की गई …

14 statistics random-forest optimization evaluation sampling

3

असंतुलित वर्ग के साथ, क्या मुझे अपने सत्यापन / परीक्षण डेटासेट पर नमूने के तहत उपयोग करना है?

मैं मशीन सीखने की शुरुआत कर रहा हूं और मैं एक स्थिति का सामना कर रहा हूं। IPinYou डेटासेट के साथ मैं रियल टाइम बिडिंग समस्या पर काम कर रहा हूं और मैं एक क्लिक भविष्यवाणी करने की कोशिश कर रहा हूं। बात यह है कि, जैसा कि आप जानते …

14 machine-learning dataset sampling

2

हमें डेटा असंतुलन को संभालने की आवश्यकता क्यों है?

मुझे यह जानना चाहिए कि हमें डेटा असंतुलन से निपटने की आवश्यकता क्यों है। मुझे पता है कि इस समस्या से निपटने के लिए और विभिन्न तरीकों से कैसे निपटना है जो नमूना या डाउन सैंपलिंग द्वारा या स्मोट का उपयोग करके है। उदाहरण के लिए, यदि मुझे 100 में …

12 classification dataset sampling class-imbalance

1

मुझे कितने LSTM सेल का उपयोग करना चाहिए?

क्या LSTM कोशिकाओं की न्यूनतम, अधिकतम और "उचित" राशि से संबंधित अंगूठे (या वास्तविक नियम) के कोई नियम हैं जिनका मुझे उपयोग करना चाहिए? विशेष रूप से मैं कर रहा हूँ से संबंधित BasicLSTMCell TensorFlow और से num_unitsसंपत्ति। कृपया मान लें कि मेरे पास एक वर्गीकरण समस्या है जिसे परिभाषित …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

क्या अजगर के लिए कोई अच्छा आउट-ऑफ-द-बॉक्स भाषा मॉडल है?

मैं एक एप्लिकेशन का प्रोटोटाइप बना रहा हूं और मुझे कुछ उत्पन्न वाक्यों के प्रति एकरूपता की गणना करने के लिए एक भाषा मॉडल की आवश्यकता है। क्या अजगर में कोई प्रशिक्षित भाषा मॉडल है जिसका मैं आसानी से उपयोग कर सकता हूं? जैसे कुछ सरल model = LanguageModel('en') p1 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

3

हमें एक डेटासेट को असंतुलित कब मानना चाहिए?

मैं ऐसी स्थिति का सामना कर रहा हूं, जहां एक डेटासेट में सकारात्मक और नकारात्मक उदाहरणों की संख्या असंतुलित है। मेरा प्रश्न यह है कि क्या अंगूठे के कोई नियम हैं जो हमें बताते हैं कि जब हम डेटासेट में किसी प्रकार का संतुलन बनाने के लिए बड़ी श्रेणी को …

10 classification dataset sampling class-imbalance

2

क्रॉस-मान्यता: K- गुना बनाम दोहराया यादृच्छिक उप-नमूना

मुझे आश्चर्य है कि वर्गीकरण समस्या के लिए किस प्रकार का मॉडल क्रॉस-वेलिडेशन: के-गुना या रैंडम सब-सैंपलिंग (बूटस्ट्रैप नमूनाकरण)? मेरा सबसे अच्छा अनुमान प्रशिक्षण के लिए डेटा सेट के 2/3 (जो ~ 1000 आइटम हैं) और सत्यापन के लिए 1/3 का उपयोग करना है। इस मामले में के-गुना केवल तीन …

10 cross-validation sampling

sampling पर टैग किए गए जवाब