डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

3
अपरिष्कृत पाठ वर्गीकरण
मैं अज्ञात संरचना के वेब साइटों को असंरचित पाठ दस्तावेजों को वर्गीकृत करने जा रहा हूं। जिन कक्षाओं को मैं वर्गीकृत कर रहा हूं, उनकी संख्या सीमित है (इस बिंदु पर, मेरा मानना ​​है कि तीन से अधिक नहीं है)। क्या किसी के पास सुझाव है कि मैं कैसे आरंभ …

3
दावों के आंकड़ों में पिछली स्थितियों से अगली चिकित्सा स्थिति की भविष्यवाणी करना
मैं वर्तमान में स्वास्थ्य बीमा दावों के डेटा के एक बड़े सेट के साथ काम कर रहा हूं जिसमें कुछ प्रयोगशाला और फार्मेसी दावे शामिल हैं। डेटा सेट में सबसे सुसंगत जानकारी, हालांकि, निदान (ICD-9CM) और प्रक्रिया कोड (CPT, HCSPCS, ICD-9CM) से बनी है। मेरे लक्ष्य हैं: क्रोनिक किडनी रोग …

3
विभिन्न नमूना आकार के साथ अलग-अलग क्लासिफायर का प्रदर्शन मापना
वर्तमान में मैं पाठ से निकाले गए विभिन्न संस्थाओं पर कई अलग-अलग क्लासिफायर का उपयोग कर रहा हूं, और सटीक / रिकॉल का उपयोग करके सारांश के रूप में याद कर रहा हूं कि प्रत्येक अलग-अलग क्लासिफायर किसी दिए गए डेटासेट में कैसा प्रदर्शन करता है। मुझे आश्चर्य हो रहा …

1
वैश्विक और सार्वभौमिक संपीड़न विधियों के बीच अंतर क्या है?
मैं समझता हूं कि संपीड़न विधियों को दो मुख्य सेटों में विभाजित किया जा सकता है: वैश्विक स्थानीय पहला सेट काम करता है, भले ही डेटा संसाधित किया जा रहा हो, अर्थात, वे डेटा की किसी भी विशेषता पर निर्भर नहीं होते हैं, और इस प्रकार डेटासेट के किसी भी …

3
क्या Amazon RedShift ~ 1XTB डेटा के लिए Hadoop की जगह लेती है?
Hadoop और इसके इको-सिस्टम के आसपास बहुत प्रचार है। हालाँकि, व्यवहार में, जहाँ कई डेटा सेट टेराबाइट रेंज में हैं, क्या अमेज़ॅन RedShift का उपयोग बड़े डेटा सेटों को क्वेरी करने के लिए करना अधिक उचित नहीं है , बजाय समय और प्रयास के एक Hadoop क्लस्टर बनाने में? इसके …

2
वरीयता मिलान एल्गोरिथ्म
इस साइड प्रोजेक्ट में मैं वहां काम कर रहा हूं जहां मुझे निम्नलिखित समस्या के समाधान की आवश्यकता है। मेरे पास लोगों (ग्राहकों) के दो समूह हैं। समूह Aखरीदने का इरादा रखता है और समूह Bएक निर्धारित उत्पाद बेचने का इरादा रखता है X। उत्पाद में विशेषताओं की एक श्रृंखला …

9
मशीन-लर्निंग एप्लिकेशन सीखने में कुछ आसान क्या हैं? [बन्द है]
बंद हो गया । यह सवाल राय आधारित है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि इस पोस्ट को संपादित करके तथ्यों और उद्धरणों के साथ उत्तर दिया जा सके । 5 साल पहले बंद हुआ …

2
स्टॉर्म और हडोप (MapReduce) के बीच व्यापार
डेटा प्रसंस्करण के लिए Hadoop क्लस्टर में तूफान और MapReduce के बीच चयन करते समय क्या कोई कृपया मुझे उस ट्रेड-ऑफ के बारे में बता सकता है? जाहिर है, एक तरफ से, कि Hadoop (एक Hadoop क्लस्टर में MapReduce के माध्यम से प्रसंस्करण) एक बैच प्रसंस्करण प्रणाली है, और तूफान …

3
EC2 का उपयोग करते समय उदाहरण बनाम कोर
जिसे अक्सर "मध्यम डेटा" प्रोजेक्ट कहा जा सकता था, उस पर काम करते हुए, मैं अपने कोड (ज्यादातर मॉडलिंग और पाइथन में भविष्यवाणी) के लिए 4 से 32 कोर तक कहीं भी एक ही सिस्टम पर समानांतर करने में सक्षम रहा हूं। अब मैं EC2 (शायद StarCluster / IPython के …
12 parallel  clusters  aws 

2
क्या एक तंत्रिका नेटवर्क
प्रसिद्ध Tensorflow Fizz Buzz मजाक और XOr समस्या के बारे में मैं सोचने लगा, अगर यह एक तंत्रिका नेटवर्क को डिजाइन करना संभव है जो y= एक्स2y=x2y = x^2 फ़ंक्शन को लागू करता है? एक संख्या के कुछ प्रतिनिधित्व को देखते हुए (जैसे कि द्विआधारी रूप में एक वेक्टर के …

3
क्या तंत्रिका-नेटवर्क डिजाइन करने के लिए एक अंगूठे का नियम है?
मुझे पता है कि एक तंत्रिका-नेटवर्क वास्तुकला ज्यादातर समस्या और इनपुट / आउटपुट के प्रकारों पर आधारित है, लेकिन फिर भी - एक का निर्माण शुरू करते समय हमेशा एक "वर्ग एक" होता है। तो मेरा सवाल है - MxN का इनपुट डेटासेट दिया गया है (M रिकॉर्ड्स की संख्या, …

1
प्रतिगमन के लिए उच्च-कार्डिनैलिटी श्रेणीबद्ध विशेषताओं के साथ फ़ीचर महत्व (संख्यात्मक डिपेंडेंट चर)
मैं एक रिग्रेशन समस्या के लिए कुछ अनुभवजन्य सुविधा चयन करने के लिए रैंडम फ़ॉरेस्ट से फीचर इंपोर्टेंस का उपयोग करने की कोशिश कर रहा था, जहां सभी सुविधाएँ श्रेणीबद्ध हैं और उनमें से कई के कई स्तर हैं (100-1000 के आदेश पर)। यह देखते हुए कि एक-गर्म एन्कोडिंग प्रत्येक …

1
गहरी शिक्षा में वर्ग छवियों का कारण
वीजीजी, रेसनेट आदि जैसे अधिकांश उन्नत गहन शिक्षण मॉडल में इनपुट के रूप में चौकोर चित्रों की आवश्यकता होती है, आमतौर पर पिक्सेल आकार के ।224 x 224224x224224x224 वहाँ एक कारण है कि इनपुट, बराबर आकार के हो गया है या मैं कहना के साथ एक convnet मॉडल का निर्माण …

4
मॉडल को कैसे पता चले कि ओवरफिटिंग शुरू हो गई है?
मुझे आशा है कि निम्नलिखित अंश मेरे प्रश्न को समझने में एक अंतर्दृष्टि प्रदान करेंगे। ये http://neuralnetworksanddeeplearning.com/chap3.html से हैं फिर धीरे-धीरे सीखना धीमा हो जाता है। अंत में, 280 के आसपास की वर्गीकरण सटीकता में बहुत सुधार होना बंद हो जाता है। बाद के युगों में केवल युग के अंत …

3
पंडों में बड़े पैमाने पर श्रेणीबद्ध कॉलम बदलें (एक-गर्म एन्कोडिंग नहीं)
मेरे पास पंडों की डेटाफ्रेम टन के साथ श्रेणीबद्ध कॉलम हैं, जो मैं स्किकिट-लर्न के साथ निर्णय पेड़ में उपयोग करने की योजना बना रहा हूं। मुझे उन्हें संख्यात्मक मूल्यों (एक गर्म वैक्टर नहीं) में बदलने की आवश्यकता है। मैं इसे scikit से LabelEncoder से सीख सकता हूं। समस्या यह …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.