डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

1
क्या आपको R का उपयोग करके निर्णय पेड़ों का निर्माण करते समय डेटा को सामान्य करना होगा?
इसलिए, इस सप्ताह सेट किए गए हमारे डेटा में 14 विशेषताएँ हैं और प्रत्येक कॉलम में बहुत भिन्न मूल्य हैं। एक कॉलम में 1 से नीचे मान होता है जबकि दूसरे कॉलम में ऐसे मान होते हैं जो तीन से चार पूरे अंकों तक जाते हैं। हमने पिछले सप्ताह सामान्यीकरण …
10 r  beginner 

2
एक स्थानीयता संवेदनशील हैप को प्रवर्तित करना
मैं एक cosine स्थानीयता संवेदनशील हैश बनाने की कोशिश कर रहा हूँ ताकि मैं हर संभव जोड़ी की तुलना किए बिना आइटम के समान जोड़े पा सकता हूं। मेरे पास यह मूल रूप से काम कर रहा है, लेकिन मेरे डेटा में अधिकांश जोड़े -0.2 से +0.2 रेंज में ब्रह्मांडीय …

3
क्या ऑन्कोलॉजी और सिमेंटिक वेब मर चुके हैं? [बन्द है]
बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 3 साल पहले …

2
वेक्टर ऑपरेशन के आधार पर स्टोकेस्टिक ग्रेडिएंट वंश?
चलो मान लेते हैं कि मैं एन सैंपल वाले डेटासेट का उपयोग करके स्टोचैस्टिक ग्रेडिएंट डिसेंट रिग्रेस एल्गोरिथ्म को प्रशिक्षित करना चाहता हूं। चूंकि डेटासेट का आकार तय हो चुका है, इसलिए मैं डेटा T का पुनः उपयोग करूंगा। प्रत्येक पुनरावृत्ति या "युग" में, मैं प्रत्येक प्रशिक्षण नमूने का उपयोग …

2
स्कैच क्लासीफायर को वर्गीकृत करने में कितना समय लगता है?
मैं 1 मिलियन लेबल वाले दस्तावेज़ों से मिलकर पाठ वर्गीकरण के लिए scikit रैखिक समर्थन वेक्टर मशीन (SVM) क्लासिफायरियर का उपयोग करने की योजना बना रहा हूं। मैं क्या करने की योजना बना रहा हूं, जब कोई उपयोगकर्ता किसी कीवर्ड में प्रवेश करता है, तो क्लासिफायर पहले इसे एक श्रेणी …

4
आप देशांतर और अक्षांश निर्देशांकों को देखते हुए एक अनुकूलित वॉक सूची कैसे बनाते हैं?
मैं एक राजनीतिक अभियान पर काम कर रहा हूं, जहां अगले कुछ हफ्तों में दर्जनों स्वयंसेवक द्वार-दस्तक प्रचार करेंगे। एक नाम, पते और लंबे समय तक / निर्देशांक वाली सूची को देखते हुए, अनुकूलित वॉक सूची बनाने के लिए क्या एल्गोरिदम का उपयोग किया जा सकता है।
10 algorithms 

3
नेटवर्क विश्लेषण क्लासिक डेटासेट
मशीन सीखने के वर्गीकरण / प्रतिगमन कार्यों के लिए कई क्लासिक डेटासेट हैं। सबसे लोकप्रिय हैं: आइरिस फूल डेटा सेट ; टाइटैनिक डेटा सेट ; मोटर ट्रेंड कारें ; आदि। लेकिन क्या कोई नेटवर्क विश्लेषण / ग्राफ सिद्धांत के लिए समान डेटासेट जानता है? अधिक ठोस - मैं सोने के …
10 dataset  graphs 

2
क्रॉस-मान्यता: K- गुना बनाम दोहराया यादृच्छिक उप-नमूना
मुझे आश्चर्य है कि वर्गीकरण समस्या के लिए किस प्रकार का मॉडल क्रॉस-वेलिडेशन: के-गुना या रैंडम सब-सैंपलिंग (बूटस्ट्रैप नमूनाकरण)? मेरा सबसे अच्छा अनुमान प्रशिक्षण के लिए डेटा सेट के 2/3 (जो ~ 1000 आइटम हैं) और सत्यापन के लिए 1/3 का उपयोग करना है। इस मामले में के-गुना केवल तीन …

2
तंत्रिका नेटवर्क डिबगिंग
मैंने scipy.optimize.minimize (Conjugate gradient) अनुकूलन फ़ंक्शन का उपयोग करके अजगर में एक कृत्रिम तंत्रिका नेटवर्क बनाया है। मैंने ग्रेडिएंट चेकिंग, डबल चेक सबकुछ आदि को लागू किया है और मुझे पूरा यकीन है कि यह सही तरीके से काम कर रहा है। मैंने इसे कुछ बार चलाया है और यह …

4
डेटा विश्लेषण को डीबग कैसे करें?
मैं निम्नलिखित समस्या में आया हूं, कि मैं समेट रहा हूं बल्कि विशिष्ट है। मेरे पास कुछ बड़े आंकड़े हैं, कहते हैं, कुछ मिलियन पंक्तियाँ। मैं इस पर कुछ गैर-तुच्छ विश्लेषण चलाता हूं, जैसे एक SQL क्वेरी जिसमें कई उप-प्रश्न शामिल हैं। मुझे कुछ परिणाम मिलता है, उदाहरण के लिए, …

1
ElasticSearch में संग्रहीत ग्राहक डेटा को क्लस्टर करना
मेरे पास ग्राहक प्रोफ़ाइलों का एक समूह है, जिसमें संग्रहीत किया गया है elasticsearchक्लस्टर। इन प्रोफाइल का उपयोग अब हमारी ईमेल सदस्यता के लिए लक्षित समूहों के निर्माण के लिए किया जाता है। लक्ष्य समूह अब मैन्युअल रूप से elasticsearch मुखर खोज क्षमताओं (जैसे एक कार और 3 बच्चों के …

1
सिफारिश में निहित डेटा से कैसे निपटना चाहिए
एक सिफारिश प्रणाली इस बात का एक लॉग रखती है कि किसी विशेष उपयोगकर्ता को क्या सिफारिशें दी गई हैं और क्या वह उपयोगकर्ता सिफारिश को स्वीकार करता है। यह पसंद है user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 जहां 1 का …

5
स्टॉपवर्ड्स की एक अच्छी सूची कैसे बनाएं
मैं कुछ संकेतों की तलाश कर रहा हूं कि स्टॉपवार्ड की सूची को कैसे क्यूरेट किया जाए। क्या कोई जानता है / क्या कोई प्रीप्रोसेसिंग और फ़िल्टरिंग के लिए डेटासेट सूचियों को स्वयं डेटासेट से निकालने के लिए एक अच्छी विधि सुझा सकता है? आँकड़े: चर की लंबाई (खोजकर्ता और …

1
ग्रेडिएंट बूस्टिंग लाइब्रेरी के लिए डिस्ट्रीब्यूटेड का क्या मतलब है?
मैं XGBoost प्रलेखन की जाँच कर रहा हूँ और यह कहा गया है कि XGBoost एक अनुकूलित वितरित ग्रेडिएंट बूस्टिंग लाइब्रेरी है। वितरित करने का क्या मतलब है? आपका दिन शुभ हो

4
SGDClassifier: एक पूर्व अज्ञात लेबल के साथ ऑनलाइन लर्निंग / आंशिक_फिट
मेरे प्रशिक्षण सेट में लगभग 50k प्रविष्टियाँ हैं जिनके साथ मैं एक प्रारंभिक शिक्षा करता हूँ। साप्ताहिक आधार पर, ~ 5k प्रविष्टियाँ जोड़ी जाती हैं; लेकिन एक ही राशि "गायब हो जाती है" (जैसा कि यह उपयोगकर्ता डेटा है जिसे कुछ समय बाद हटाना होगा)। इसलिए मैं ऑनलाइन सीखने का …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.