डेटा साइंस

1

रैंडम फ़ॉरेस्ट का उपयोग करके नमूना करने के लिए कितनी सुविधाएँ

विकिपीडिया पृष्ठ जो उद्धरण "सांख्यिकीय लर्निंग के तत्वों" का कहना है: आमतौर पर, साथ श्रेणीबद्ध समस्यायें के लिए सुविधाओं, ⌊ √ppp सुविधाओं प्रत्येक विभाजन में उपयोग किया जाता है।⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor मैं समझता हूं कि यह एक बहुत अच्छा शिक्षित अनुमान है और संभवतः अनुभवजन्य साक्ष्य द्वारा इसकी पुष्टि की गई …

14 statistics random-forest optimization evaluation sampling

1

कई बार श्रृंखला का उपयोग करते हुए आर.एन.एन.

मैं इनपुट के रूप में समय श्रृंखला का उपयोग करके एक तंत्रिका नेटवर्क बनाने की कोशिश कर रहा हूं, ताकि प्रत्येक श्रृंखला के प्रकार के आधार पर इसे प्रशिक्षित किया जा सके। मैंने पढ़ा कि RNN का उपयोग करके आप इनपुट को बैचों में विभाजित कर सकते हैं और समय …

14 time-series rnn

1

नैवे बेस क्लासिफायर गणना में एक शून्य कारक को कैसे संभालना है?

यदि मेरे पास एक प्रशिक्षण डेटा सेट है और मैं इस पर एक Naive Bayes Classifier को प्रशिक्षित करता हूं और मेरे पास एक विशेषता मान है जिसमें संभाव्यता शून्य है। यदि मैं बाद में नए डेटा पर वर्गीकरण की भविष्यवाणी करना चाहता हूं तो मैं इसे कैसे संभाल सकता …

14 classification naive-bayes-classifier

1

पायथन में एक मानचित्र पर हीटमैप

मोड एनालिटिक्स में एक अच्छा हीटमैप फीचर ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ) है। लेकिन यह नक्शे की तुलना करने के लिए अनुकूल नहीं है (केवल एक प्रति रिपोर्ट)। वे जो अनुमति देते हैं वह एक लिपटे अजगर नोटबुक में आसानी से खींचा जाने वाला डेटा है। और फिर अजगर में किसी भी …

14 python visualization geospatial

5

क्या आधुनिक आर और / या पायथन लाइब्रेरी SQL को अप्रचलित बनाते हैं?

मैं एक ऐसे कार्यालय में काम करता हूँ जहाँ SQL सर्वर डेटा प्रोसेसिंग से लेकर सफाई तक की हर चीज़ की रीढ़ है। मेरे सहकर्मी आने वाले डेटा को व्यवस्थित रूप से संसाधित करने के लिए जटिल कार्यों और संग्रहीत प्रक्रियाओं को लिखने में माहिर हैं ताकि इसे मानकीकृत किया …

14 python r data-cleaning data sql

1

अधिकतम पूलिंग परतों के माध्यम से वापस प्रसार

मेरे पास इस सवाल का एक छोटा सा उप-प्रश्न है । मैं समझता हूं कि जब अधिकतम पूलिंग परत के माध्यम से बैक-प्रोपगेटिंग किया जाता है, तो ग्रेडर को इस तरह से वापस रूट किया जाता है कि पिछली परत में न्यूरॉन जिसे अधिकतम के रूप में चुना गया था, …

14 machine-learning neural-network convnet backpropagation

3

Doc2vec (gensim) - मैं अनदेखे वाक्यों के लेबल का पता कैसे लगा सकता हूँ?

https://radimrehurek.com/gensim/models/doc2vec.html उदाहरण के लिए, अगर हमने doc2vec के साथ प्रशिक्षण लिया है "आआआआआआआआआआआआआआआआ", "लेबल 1" "BbbbbbBBBBBbbbb" - "लेबल 2" क्या हम Doc2vec का उपयोग करके "aaaaAAAAaaaaAA" लेबल 1 लगा सकते हैं? मुझे पता है कि Doc2vec शब्द वैक्टर और लेबल वैक्टर को प्रशिक्षित कर सकता है। इस वैक्टर का उपयोग …

14 gensim

1

डायनामिक (डायनामिक) बेय्स नेटवर्क और HMM में क्या अंतर है?

मैंने पढ़ा है कि एचएमएम, पार्टिकल फिल्टर और कलमन फ़िल्टर डायनेमिक बेय नेटवर्क के विशेष मामले हैं। हालाँकि, मैं केवल HMM को जानता हूं और मुझे डायनेमिक बेयर्स नेटवर्क में अंतर नहीं दिखता है। क्या कोई समझा सकता है? यह अच्छा होगा यदि आपका उत्तर निम्नलिखित के समान हो, लेकिन …

14 bayesian-networks pgm

3

असंतुलित वर्ग के साथ, क्या मुझे अपने सत्यापन / परीक्षण डेटासेट पर नमूने के तहत उपयोग करना है?

मैं मशीन सीखने की शुरुआत कर रहा हूं और मैं एक स्थिति का सामना कर रहा हूं। IPinYou डेटासेट के साथ मैं रियल टाइम बिडिंग समस्या पर काम कर रहा हूं और मैं एक क्लिक भविष्यवाणी करने की कोशिश कर रहा हूं। बात यह है कि, जैसा कि आप जानते …

14 machine-learning dataset sampling

2

उच्च-आयामी डेटा: उपयोगी तकनीकें क्या हैं?

आयामीता के विभिन्न अभिशापों के कारण , उच्च गति के डेटा पर कई सामान्य पूर्वानुमान तकनीकों की सटीकता और गति कम हो जाती है। सबसे अधिक उपयोगी तकनीकों / चाल / सांख्यिकी में से कुछ क्या हैं जो उच्च-आयामी डेटा से प्रभावी ढंग से निपटने में मदद करती हैं? उदाहरण …

14 machine-learning statistics dimensionality-reduction

2

ए / बी परीक्षण के परिणामों का विश्लेषण जो सामान्य रूप से वितरित नहीं होते हैं, स्वतंत्र टी-टेस्ट का उपयोग करते हुए

मेरे पास ए / बी परीक्षण (एक नियंत्रण समूह, एक सुविधा समूह) से परिणामों का एक सेट है जो एक सामान्य वितरण के लायक नहीं है। वास्तव में वितरण लन्दौ वितरण के अधिक निकट है। मेरा मानना है कि स्वतंत्र टी-परीक्षण के लिए आवश्यक है कि नमूने कम से कम …

14 dataset statistics ab-test

3

पी-वैल्यू भ्रामक कब हैं?

वे डेटा स्थितियाँ क्या हैं जिनके लिए हमें देखना चाहिए, जहाँ पी-वैल्यू सांख्यिकीय महत्व तय करने का सबसे अच्छा तरीका नहीं हो सकता है? क्या विशिष्ट समस्या प्रकार हैं जो इस श्रेणी में आते हैं?

14 bigdata statistics

3

सीएनएन के लिए छवि का आकार परिवर्तन और पैडिंग

मैं छवि पहचान के लिए एक सीएनएन को प्रशिक्षित करना चाहता हूं। प्रशिक्षण के लिए छवियों का आकार निश्चित नहीं है। मैं उदाहरण के लिए CNN के लिए इनपुट आकार 50x100 (ऊंचाई x चौड़ाई) होना चाहता हूं। जब मैं इनपुट आकार के लिए कुछ छोटे आकार की छवियों (उदाहरण के …

14 machine-learning image-classification preprocessing image-recognition

1

निर्णय वृक्ष: पत्ती-वार (सर्वोत्तम-प्रथम) और स्तर-वार वृक्ष पार

अंक 1: जिस तरह से पेड़ का विस्तार किया गया है, उसके बारे में लाइट जीबीएम के विवरण से मैं भ्रमित हूं । वे कहते हैं: अधिकांश निर्णय ट्री लर्निंग एल्गोरिदम पेड़ को स्तर (गहराई) द्वारा विकसित करते हैं, जैसे कि निम्नलिखित छवि: प्रश्न 1 : इस तरह से "सबसे …

14 decision-trees xgboost

3

LSTMs स्टैकिंग के लाभ?

मैं सोच रहा हूँ कि LSTMs को ढेर करना किन परिस्थितियों में फायदेमंद है?

14 machine-learning neural-network deep-learning lstm