डेटा साइंस

3

मैं अज्ञात संरचना के वेब साइटों को असंरचित पाठ दस्तावेजों को वर्गीकृत करने जा रहा हूं। जिन कक्षाओं को मैं वर्गीकृत कर रहा हूं, उनकी संख्या सीमित है (इस बिंदु पर, मेरा मानना है कि तीन से अधिक नहीं है)। क्या किसी के पास सुझाव है कि मैं कैसे आरंभ …

12 machine-learning classification text-mining beginner

3

दावों के आंकड़ों में पिछली स्थितियों से अगली चिकित्सा स्थिति की भविष्यवाणी करना

मैं वर्तमान में स्वास्थ्य बीमा दावों के डेटा के एक बड़े सेट के साथ काम कर रहा हूं जिसमें कुछ प्रयोगशाला और फार्मेसी दावे शामिल हैं। डेटा सेट में सबसे सुसंगत जानकारी, हालांकि, निदान (ICD-9CM) और प्रक्रिया कोड (CPT, HCSPCS, ICD-9CM) से बनी है। मेरे लक्ष्य हैं: क्रोनिक किडनी रोग …

12 machine-learning r

3

विभिन्न नमूना आकार के साथ अलग-अलग क्लासिफायर का प्रदर्शन मापना

वर्तमान में मैं पाठ से निकाले गए विभिन्न संस्थाओं पर कई अलग-अलग क्लासिफायर का उपयोग कर रहा हूं, और सटीक / रिकॉल का उपयोग करके सारांश के रूप में याद कर रहा हूं कि प्रत्येक अलग-अलग क्लासिफायर किसी दिए गए डेटासेट में कैसा प्रदर्शन करता है। मुझे आश्चर्य हो रहा …

12 classification performance

1

वैश्विक और सार्वभौमिक संपीड़न विधियों के बीच अंतर क्या है?

मैं समझता हूं कि संपीड़न विधियों को दो मुख्य सेटों में विभाजित किया जा सकता है: वैश्विक स्थानीय पहला सेट काम करता है, भले ही डेटा संसाधित किया जा रहा हो, अर्थात, वे डेटा की किसी भी विशेषता पर निर्भर नहीं होते हैं, और इस प्रकार डेटासेट के किसी भी …

12 classification algorithms encoding

3

क्या Amazon RedShift ~ 1XTB डेटा के लिए Hadoop की जगह लेती है?

Hadoop और इसके इको-सिस्टम के आसपास बहुत प्रचार है। हालाँकि, व्यवहार में, जहाँ कई डेटा सेट टेराबाइट रेंज में हैं, क्या अमेज़ॅन RedShift का उपयोग बड़े डेटा सेटों को क्वेरी करने के लिए करना अधिक उचित नहीं है , बजाय समय और प्रयास के एक Hadoop क्लस्टर बनाने में? इसके …

12 apache-hadoop map-reduce aws

2

वरीयता मिलान एल्गोरिथ्म

इस साइड प्रोजेक्ट में मैं वहां काम कर रहा हूं जहां मुझे निम्नलिखित समस्या के समाधान की आवश्यकता है। मेरे पास लोगों (ग्राहकों) के दो समूह हैं। समूह Aखरीदने का इरादा रखता है और समूह Bएक निर्धारित उत्पाद बेचने का इरादा रखता है X। उत्पाद में विशेषताओं की एक श्रृंखला …

12 bigdata text-mining recommender-system

9

मशीन-लर्निंग एप्लिकेशन सीखने में कुछ आसान क्या हैं? [बन्द है]

बंद हो गया । यह सवाल राय आधारित है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि इस पोस्ट को संपादित करके तथ्यों और उद्धरणों के साथ उत्तर दिया जा सके । 5 साल पहले बंद हुआ …

12 machine-learning

2

स्टॉर्म और हडोप (MapReduce) के बीच व्यापार

डेटा प्रसंस्करण के लिए Hadoop क्लस्टर में तूफान और MapReduce के बीच चयन करते समय क्या कोई कृपया मुझे उस ट्रेड-ऑफ के बारे में बता सकता है? जाहिर है, एक तरफ से, कि Hadoop (एक Hadoop क्लस्टर में MapReduce के माध्यम से प्रसंस्करण) एक बैच प्रसंस्करण प्रणाली है, और तूफान …

12 bigdata efficiency apache-hadoop distributed

3

EC2 का उपयोग करते समय उदाहरण बनाम कोर

जिसे अक्सर "मध्यम डेटा" प्रोजेक्ट कहा जा सकता था, उस पर काम करते हुए, मैं अपने कोड (ज्यादातर मॉडलिंग और पाइथन में भविष्यवाणी) के लिए 4 से 32 कोर तक कहीं भी एक ही सिस्टम पर समानांतर करने में सक्षम रहा हूं। अब मैं EC2 (शायद StarCluster / IPython के …

12 parallel clusters aws

2

क्या एक तंत्रिका नेटवर्क

प्रसिद्ध Tensorflow Fizz Buzz मजाक और XOr समस्या के बारे में मैं सोचने लगा, अगर यह एक तंत्रिका नेटवर्क को डिजाइन करना संभव है जो y= एक्स2y=x2y = x^2 फ़ंक्शन को लागू करता है? एक संख्या के कुछ प्रतिनिधित्व को देखते हुए (जैसे कि द्विआधारी रूप में एक वेक्टर के …

12 machine-learning neural-network

3

क्या तंत्रिका-नेटवर्क डिजाइन करने के लिए एक अंगूठे का नियम है?

मुझे पता है कि एक तंत्रिका-नेटवर्क वास्तुकला ज्यादातर समस्या और इनपुट / आउटपुट के प्रकारों पर आधारित है, लेकिन फिर भी - एक का निर्माण शुरू करते समय हमेशा एक "वर्ग एक" होता है। तो मेरा सवाल है - MxN का इनपुट डेटासेट दिया गया है (M रिकॉर्ड्स की संख्या, …

12 neural-network

1

प्रतिगमन के लिए उच्च-कार्डिनैलिटी श्रेणीबद्ध विशेषताओं के साथ फ़ीचर महत्व (संख्यात्मक डिपेंडेंट चर)

मैं एक रिग्रेशन समस्या के लिए कुछ अनुभवजन्य सुविधा चयन करने के लिए रैंडम फ़ॉरेस्ट से फीचर इंपोर्टेंस का उपयोग करने की कोशिश कर रहा था, जहां सभी सुविधाएँ श्रेणीबद्ध हैं और उनमें से कई के कई स्तर हैं (100-1000 के आदेश पर)। यह देखते हुए कि एक-गर्म एन्कोडिंग प्रत्येक …

12 scikit-learn feature-selection random-forest xgboost categorical-data

1

गहरी शिक्षा में वर्ग छवियों का कारण

वीजीजी, रेसनेट आदि जैसे अधिकांश उन्नत गहन शिक्षण मॉडल में इनपुट के रूप में चौकोर चित्रों की आवश्यकता होती है, आमतौर पर पिक्सेल आकार के ।224 x 224224x224224x224 वहाँ एक कारण है कि इनपुट, बराबर आकार के हो गया है या मैं कहना के साथ एक convnet मॉडल का निर्माण …

12 deep-learning image-classification image-recognition

4

मॉडल को कैसे पता चले कि ओवरफिटिंग शुरू हो गई है?

मुझे आशा है कि निम्नलिखित अंश मेरे प्रश्न को समझने में एक अंतर्दृष्टि प्रदान करेंगे। ये http://neuralnetworksanddeeplearning.com/chap3.html से हैं फिर धीरे-धीरे सीखना धीमा हो जाता है। अंत में, 280 के आसपास की वर्गीकरण सटीकता में बहुत सुधार होना बंद हो जाता है। बाद के युगों में केवल युग के अंत …

12 neural-network overfitting

3

पंडों में बड़े पैमाने पर श्रेणीबद्ध कॉलम बदलें (एक-गर्म एन्कोडिंग नहीं)

मेरे पास पंडों की डेटाफ्रेम टन के साथ श्रेणीबद्ध कॉलम हैं, जो मैं स्किकिट-लर्न के साथ निर्णय पेड़ में उपयोग करने की योजना बना रहा हूं। मुझे उन्हें संख्यात्मक मूल्यों (एक गर्म वैक्टर नहीं) में बदलने की आवश्यकता है। मैं इसे scikit से LabelEncoder से सीख सकता हूं। समस्या यह …

12 scikit-learn pandas categorical-data labels