डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

5
दस्तावेजों के बीच की दूरी की गणना के कुछ मानक तरीके क्या हैं?
जब मैं "दस्तावेज़" कहता हूं, तो मेरे पास विकिपीडिया लेखों और समाचारों जैसे वेब पेज हैं। मैं उत्तरार्द्ध के लिए मजबूत वरीयता के साथ वेनिला लेक्सिकल डिस्टेंस मेट्रिक्स या अत्याधुनिक सिमेंटिक डिस्टेंस मेट्रिक्स देने वाले उत्तर पसंद करता हूं।

7
डेटा को साफ़ करने के लिए संगठित प्रक्रियाएँ
R का उपयोग करके डेटा साइंस के साथ मेरी सीमित डबलिंग से, मुझे एहसास हुआ कि खराब डेटा को साफ करना विश्लेषण के लिए डेटा तैयार करने का एक बहुत महत्वपूर्ण हिस्सा है। क्या इसे संसाधित करने से पहले डेटा को साफ करने के लिए कोई सर्वोत्तम अभ्यास या प्रक्रियाएं …
34 r  data-cleaning 

5
पांडा के साथ विश्लेषण के लिए एक 20GB फ़ाइल खोलना
मैं वर्तमान में मशीन सीखने के उद्देश्यों के लिए पांडा और अजगर के साथ एक फ़ाइल खोलने की कोशिश कर रहा हूं, यह मेरे लिए एक डेटाफ़्रेम में उन सभी के लिए आदर्श होगा। अब फ़ाइल 18 जीबी बड़ी है और मेरी रैम 32 जीबी है लेकिन मुझे मेमोरी एरर …

3
केर में मल्टी जी.पी.यू.
आप कई जीपीयू पर प्रशिक्षण के विभाजन के लिए केरस लाइब्रेरी (या टेंसरफ़्लो) में कैसे प्रोग्राम कर सकते हैं? मान लीजिए कि आप Amazon ec2 उदाहरण में हैं, जिसमें 8 GPU हैं और आप उन सभी का उपयोग तेजी से प्रशिक्षित करने के लिए करना चाहेंगे, लेकिन आपका कोड केवल …

4
शोर गर्भनिरोधक अनुमान (NCE) नुकसान की सहज व्याख्या?
मैंने इन दो स्रोतों से एनसीई (उम्मीदवार के नमूने का एक रूप) के बारे में पढ़ा: टेंसरफ्लो राइटअप मूल पेपर क्या कोई मेरी मदद कर सकता है: एनसीई कैसे काम करता है की एक सरल व्याख्या (मुझे उपरोक्त मुश्किलों को समझने और समझने में मदद मिली, इसलिए कुछ सहज ज्ञान …

5
Apache Spark vs Hadoop के लिए उपयोग के मामले क्या हैं
Hadoop 2.0 और YARN Hadoop के साथ माना जाता है कि अब केवल मैप-कम समाधानों से बंधा हुआ नहीं है। उस प्रगति के साथ, अपाचे स्पार्क बनाम हडोप के लिए एचडीएस के ऊपर बैठने पर विचार करने के लिए उपयोग के मामले क्या हैं? मैंने स्पार्क के लिए परिचय प्रलेखन …

1
पेपर: लेयर नॉर्मलाइज़ेशन, रिकरेंट बैच नॉर्मलाइज़ेशन (2016) और बैच नॉर्मलाइज़्ड आरएनएन (2015) में क्या अंतर है?
तो, हाल ही में एक लेयर नॉर्मलाइज़ेशन पेपर है। केरस पर इसका कार्यान्वयन भी है । लेकिन मुझे याद है कि रिकरेंट बैच नॉर्मलाइजेशन (कोइजमैन, 2016) और बैच नॉर्मलाइज्ड रिकरंट न्यूरल नेटवर्क्स (लॉरेंट, 2015) शीर्षक वाले पेपर हैं । उन तीनों में क्या अंतर है? यह संबंधित कार्य खंड है …

1
बहु-श्रेणी वर्गीकरण के लिए सबसे अच्छा केरस मॉडल क्या है?
मैं अनुसंधान, पर काम कर रहा हूँ, जहां तीन घटना विजेता के वर्गीकृत एक की जरूरत = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 मेरा वर्तमान …

5
डीप लर्निंग बनाम ग्रेडिएंट बूस्टिंग: कब क्या उपयोग करना है?
मुझे एक बड़े डेटासेट के साथ एक बड़ी डेटा समस्या है (उदाहरण के लिए 50 मिलियन पंक्तियाँ और 200 कॉलम लें)। डेटासेट में लगभग 100 संख्यात्मक कॉलम और 100 श्रेणीबद्ध कॉलम और एक प्रतिक्रिया स्तंभ होता है जो बाइनरी क्लास समस्या का प्रतिनिधित्व करता है। प्रत्येक श्रेणीबद्ध कॉलम की कार्डिनैलिटी …

5
Q फ़ंक्शन क्या है और सुदृढीकरण सीखने में V फ़ंक्शन क्या है?
यह मुझे लगता है कि फ़ंक्शन को फ़ंक्शन द्वारा आसानी से व्यक्त किया जा सकता है और इस प्रकार फ़ंक्शन मेरे लिए बहुत ही अच्छा लगता है। हालांकि, मैं सुदृढीकरण सीखने के लिए नया हूं इसलिए मुझे लगता है कि मुझे कुछ गलत लगा।वीVVक्यूQQवीVV परिभाषाएं Q- और V- अधिगम मार्कोव …

3
सॉफ्टमैक्स क्लासिफायर में, सामान्यीकरण करने के लिए एक्सप फंक्शन का उपयोग क्यों करें?
मानक सामान्यीकरण के विपरीत सॉफ्टमैक्स का उपयोग क्यों करें? इस प्रश्न के शीर्ष उत्तर के टिप्पणी क्षेत्र में, @Kilian Batzner ने 2 प्रश्न उठाए, जो मुझे बहुत भ्रमित करते हैं। ऐसा लगता है कि कोई भी संख्यात्मक लाभ के अलावा कोई स्पष्टीकरण नहीं देता है। मुझे क्रॉस-एन्ट्रॉपी लॉस का उपयोग …

7
मशीन सीखने के कार्यों के लिए डेटा को फेरबदल क्यों किया जाना चाहिए
मशीन सीखने के कार्यों में डेटा को फेरबदल करना और इसे सामान्य करना सामान्य है। सामान्यीकरण का उद्देश्य स्पष्ट है (समान श्रेणी के फ़ीचर मान होने के लिए)। लेकिन, बहुत संघर्ष करने के बाद, मुझे डेटा में फेरबदल का कोई मूल्यवान कारण नहीं मिला। मैंने इस पोस्ट को यहाँ चर्चा …

2
ग्राउंड ट्रुथ क्या है
मशीन लर्निंग के संदर्भ में , मैंने देखा है कि ग्राउंड ट्रुथ शब्द का काफी इस्तेमाल हुआ है। मैंने बहुत खोज की है और विकिपीडिया में निम्नलिखित परिभाषा पाई है : मशीन लर्निंग में, शब्द "जमीनी सच्चाई" से तात्पर्य पर्यवेक्षित शिक्षण तकनीकों के प्रशिक्षण सेट के वर्गीकरण की सटीकता से …

5
पंडों के डेटाफ़्रेम में सूचियों की सूची में परिवर्तित करें
मैं उन सूचियों की एक सूची को बदलने की कोशिश कर रहा हूं जो निम्न प्रकार से पंडों के डेटाफ्रेम में दिखाई देती हैं [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', …
30 pandas 

1
स्केगन ग्रैडिएंटबॉस्टिंग क्लैसिफायर की तुलना में एक्सगबोस्ट इतना तेज क्यों है?
मैं 100 न्यूमेरिक फीचर्स के साथ 50k उदाहरणों पर एक ढाल बढ़ाने वाले मॉडल को प्रशिक्षित करने की कोशिश कर रहा हूं। XGBClassifierमेरी मशीन पर 43 सेकंड के भीतर 500 पेड़ लगाता है, जबकि GradientBoostingClassifier1 मिनट और 2 सेकंड में केवल 10 पेड़ (!) को संभालता है :( मैंने 500 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.