डेटा साइंस

1

क्या आपको R का उपयोग करके निर्णय पेड़ों का निर्माण करते समय डेटा को सामान्य करना होगा?

इसलिए, इस सप्ताह सेट किए गए हमारे डेटा में 14 विशेषताएँ हैं और प्रत्येक कॉलम में बहुत भिन्न मूल्य हैं। एक कॉलम में 1 से नीचे मान होता है जबकि दूसरे कॉलम में ऐसे मान होते हैं जो तीन से चार पूरे अंकों तक जाते हैं। हमने पिछले सप्ताह सामान्यीकरण …

10 r beginner

2

एक स्थानीयता संवेदनशील हैप को प्रवर्तित करना

मैं एक cosine स्थानीयता संवेदनशील हैश बनाने की कोशिश कर रहा हूँ ताकि मैं हर संभव जोड़ी की तुलना किए बिना आइटम के समान जोड़े पा सकता हूं। मेरे पास यह मूल रूप से काम कर रहा है, लेकिन मेरे डेटा में अधिकांश जोड़े -0.2 से +0.2 रेंज में ब्रह्मांडीय …

10 machine-learning

3

क्या ऑन्कोलॉजी और सिमेंटिक वेब मर चुके हैं? [बन्द है]

बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 3 साल पहले …

10 knowledge-base

2

वेक्टर ऑपरेशन के आधार पर स्टोकेस्टिक ग्रेडिएंट वंश?

चलो मान लेते हैं कि मैं एन सैंपल वाले डेटासेट का उपयोग करके स्टोचैस्टिक ग्रेडिएंट डिसेंट रिग्रेस एल्गोरिथ्म को प्रशिक्षित करना चाहता हूं। चूंकि डेटासेट का आकार तय हो चुका है, इसलिए मैं डेटा T का पुनः उपयोग करूंगा। प्रत्येक पुनरावृत्ति या "युग" में, मैं प्रत्येक प्रशिक्षण नमूने का उपयोग …

10 python gradient-descent regression

2

स्कैच क्लासीफायर को वर्गीकृत करने में कितना समय लगता है?

मैं 1 मिलियन लेबल वाले दस्तावेज़ों से मिलकर पाठ वर्गीकरण के लिए scikit रैखिक समर्थन वेक्टर मशीन (SVM) क्लासिफायरियर का उपयोग करने की योजना बना रहा हूं। मैं क्या करने की योजना बना रहा हूं, जब कोई उपयोगकर्ता किसी कीवर्ड में प्रवेश करता है, तो क्लासिफायर पहले इसे एक श्रेणी …

10 machine-learning classification python scikit-learn

4

आप देशांतर और अक्षांश निर्देशांकों को देखते हुए एक अनुकूलित वॉक सूची कैसे बनाते हैं?

मैं एक राजनीतिक अभियान पर काम कर रहा हूं, जहां अगले कुछ हफ्तों में दर्जनों स्वयंसेवक द्वार-दस्तक प्रचार करेंगे। एक नाम, पते और लंबे समय तक / निर्देशांक वाली सूची को देखते हुए, अनुकूलित वॉक सूची बनाने के लिए क्या एल्गोरिदम का उपयोग किया जा सकता है।

10 algorithms

3

नेटवर्क विश्लेषण क्लासिक डेटासेट

मशीन सीखने के वर्गीकरण / प्रतिगमन कार्यों के लिए कई क्लासिक डेटासेट हैं। सबसे लोकप्रिय हैं: आइरिस फूल डेटा सेट ; टाइटैनिक डेटा सेट ; मोटर ट्रेंड कारें ; आदि। लेकिन क्या कोई नेटवर्क विश्लेषण / ग्राफ सिद्धांत के लिए समान डेटासेट जानता है? अधिक ठोस - मैं सोने के …

10 dataset graphs

2

क्रॉस-मान्यता: K- गुना बनाम दोहराया यादृच्छिक उप-नमूना

मुझे आश्चर्य है कि वर्गीकरण समस्या के लिए किस प्रकार का मॉडल क्रॉस-वेलिडेशन: के-गुना या रैंडम सब-सैंपलिंग (बूटस्ट्रैप नमूनाकरण)? मेरा सबसे अच्छा अनुमान प्रशिक्षण के लिए डेटा सेट के 2/3 (जो ~ 1000 आइटम हैं) और सत्यापन के लिए 1/3 का उपयोग करना है। इस मामले में के-गुना केवल तीन …

10 cross-validation sampling

2

तंत्रिका नेटवर्क डिबगिंग

मैंने scipy.optimize.minimize (Conjugate gradient) अनुकूलन फ़ंक्शन का उपयोग करके अजगर में एक कृत्रिम तंत्रिका नेटवर्क बनाया है। मैंने ग्रेडिएंट चेकिंग, डबल चेक सबकुछ आदि को लागू किया है और मुझे पूरा यकीन है कि यह सही तरीके से काम कर रहा है। मैंने इसे कुछ बार चलाया है और यह …

10 machine-learning python neural-network

4

डेटा विश्लेषण को डीबग कैसे करें?

मैं निम्नलिखित समस्या में आया हूं, कि मैं समेट रहा हूं बल्कि विशिष्ट है। मेरे पास कुछ बड़े आंकड़े हैं, कहते हैं, कुछ मिलियन पंक्तियाँ। मैं इस पर कुछ गैर-तुच्छ विश्लेषण चलाता हूं, जैसे एक SQL क्वेरी जिसमें कई उप-प्रश्न शामिल हैं। मुझे कुछ परिणाम मिलता है, उदाहरण के लिए, …

10 data-mining sql experiments

1

ElasticSearch में संग्रहीत ग्राहक डेटा को क्लस्टर करना

मेरे पास ग्राहक प्रोफ़ाइलों का एक समूह है, जिसमें संग्रहीत किया गया है elasticsearchक्लस्टर। इन प्रोफाइल का उपयोग अब हमारी ईमेल सदस्यता के लिए लक्षित समूहों के निर्माण के लिए किया जाता है। लक्ष्य समूह अब मैन्युअल रूप से elasticsearch मुखर खोज क्षमताओं (जैसे एक कार और 3 बच्चों के …

10 data-mining clustering

1

सिफारिश में निहित डेटा से कैसे निपटना चाहिए

एक सिफारिश प्रणाली इस बात का एक लॉग रखती है कि किसी विशेष उपयोगकर्ता को क्या सिफारिशें दी गई हैं और क्या वह उपयोगकर्ता सिफारिश को स्वीकार करता है। यह पसंद है user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 जहां 1 का …

10 recommender-system

5

स्टॉपवर्ड्स की एक अच्छी सूची कैसे बनाएं

मैं कुछ संकेतों की तलाश कर रहा हूं कि स्टॉपवार्ड की सूची को कैसे क्यूरेट किया जाए। क्या कोई जानता है / क्या कोई प्रीप्रोसेसिंग और फ़िल्टरिंग के लिए डेटासेट सूचियों को स्वयं डेटासेट से निकालने के लिए एक अच्छी विधि सुझा सकता है? आँकड़े: चर की लंबाई (खोजकर्ता और …

9 data-mining nlp information-retrieval language-model

1

ग्रेडिएंट बूस्टिंग लाइब्रेरी के लिए डिस्ट्रीब्यूटेड का क्या मतलब है?

मैं XGBoost प्रलेखन की जाँच कर रहा हूँ और यह कहा गया है कि XGBoost एक अनुकूलित वितरित ग्रेडिएंट बूस्टिंग लाइब्रेरी है। वितरित करने का क्या मतलब है? आपका दिन शुभ हो

9 xgboost distributed boosting

4

SGDClassifier: एक पूर्व अज्ञात लेबल के साथ ऑनलाइन लर्निंग / आंशिक_फिट

मेरे प्रशिक्षण सेट में लगभग 50k प्रविष्टियाँ हैं जिनके साथ मैं एक प्रारंभिक शिक्षा करता हूँ। साप्ताहिक आधार पर, ~ 5k प्रविष्टियाँ जोड़ी जाती हैं; लेकिन एक ही राशि "गायब हो जाती है" (जैसा कि यह उपयोगकर्ता डेटा है जिसे कुछ समय बाद हटाना होगा)। इसलिए मैं ऑनलाइन सीखने का …

9 multiclass-classification online-learning