स्कैच क्लासीफायर को वर्गीकृत करने में कितना समय लगता है?

10

मैं 1 मिलियन लेबल वाले दस्तावेज़ों से मिलकर पाठ वर्गीकरण के लिए scikit रैखिक समर्थन वेक्टर मशीन (SVM) क्लासिफायरियर का उपयोग करने की योजना बना रहा हूं। मैं क्या करने की योजना बना रहा हूं, जब कोई उपयोगकर्ता किसी कीवर्ड में प्रवेश करता है, तो क्लासिफायर पहले इसे एक श्रेणी में वर्गीकृत करेगा, और फिर बाद की सूचना पुनर्प्राप्ति क्वेरी उस श्रेणी श्रेणी के दस्तावेजों के भीतर होगी। मेरे कुछ प्रश्न हैं:

मैं कैसे पुष्टि करूं कि वर्गीकरण में अधिक समय नहीं लगेगा? मैं नहीं चाहता कि उपयोगकर्ताओं को बेहतर परिणाम प्राप्त करने के लिए एक वर्गीकरण के इंतजार में समय बिताना पड़े।
क्या वेबसाइटों / वेब अनुप्रयोगों के लिए पायथन की स्कैबिट लाइब्रेरी का उपयोग इसके लिए उपयुक्त है?
क्या कोई जानता है कि उपयोगकर्ता के प्रश्नों पर अमेजन या फ्लिपकार्ट कैसे वर्गीकरण करते हैं, या क्या वे पूरी तरह से अलग तर्क का उपयोग करते हैं?

— user3498
स्रोत

आप पहले से सभी कीवर्ड्स को वर्गीकृत कर सकते हैं और फिर इंडेक्स से श्रेणी को खींच सकते हैं।

— फिस्ट

@ शब्द एक शब्द क्वेरी के लिए एक उत्तर की तरह लगता है। लेकिन अगर खोज क्वेरी में अधिक शब्द शामिल हैं .. या शब्दों के संयोजन .. मुझे सभी संयोजनों के लिए सूचकांक बनाना है !!!

— user3498

1

SVC तेज़ है, इसलिए यदि आप इसे मध्यम-लोड वाले एप्लिकेशन में क्वेरी वर्गीकरण के लिए उपयोग करना चाहते हैं, तो यह काम करेगा। लेकिन एक एकल (या यहां तक कि कई शब्दों) द्वारा वर्गीकरण ज्यादातर मामलों में एक बुरा विचार है। उदाहरण के लिए अस्पष्ट शब्द लें: क्या होगा यदि कुछ शब्द संभावनाओं में बहुत कम अंतर के साथ 2 श्रेणियों के हैं? क्या आप खोज से थोड़ी कम संभावित श्रेणी को फेंकने जा रहे हैं? खोज के दौरान रैंकिंग सूत्र में एक अतिरिक्त शब्द जो आप चाहते हैं, वह है, कम संभावित श्रेणियों को अस्वीकार नहीं करना।

— 13

3

यह देखने के लिए एकमात्र विश्वसनीय तरीका है कि इसे कितनी देर तक कोड करना है और इसे एक शॉट देना है। प्रशिक्षण में अधिक समय लगेगा, फिर आप बाद में उपयोग करने के लिए अपने मॉडल (अचार) को बचा सकते हैं।

— user1269942
स्रोत

3

मैं यहाँ एक बड़ी समस्या नहीं देख रहा हूँ। इसलिए, मैं उत्पादन-स्तर के दृष्टिकोण से आपके सभी सवालों के जवाब देने की कोशिश करूंगा:

मैं कैसे पुष्टि करूं कि वर्गीकरण में अधिक समय नहीं लगेगा?

आपके पास मौजूद कॉर्पस डेटा का एक उपसमूह लें (आप इसे बेतरतीब ढंग से कर सकते हैं, नमूने की कोई आवश्यकता नहीं है), और उस पर अपने एल्गोरिथ्म का परीक्षण करें, और वे इसे समग्र डेटासेट के लिए अनुमानित / सामान्य करते हैं।

(एसवीएम तुलनात्मक रूप से तेज़ है। फिर भी, उपरोक्त प्रक्रिया को केवल सुनिश्चित करने के लिए करें।)

और उत्पादन को आगे बढ़ाने से पहले विकास के माहौल में इसका परीक्षण करें।

क्या वेबसाइटों / वेब अनुप्रयोगों के लिए पायथन की स्कैबिट लाइब्रेरी का उपयोग इसके लिए उपयुक्त है?

हाँ , यह है। यह पहले से ही वहाँ बाहर कंपनियों का एक अच्छा हिस्सा द्वारा इस्तेमाल किया जा रहा है ।

अमेज़ॅन और फ्लिपकार्ट के बारे में तीसरे प्रश्न का उत्तर उनकी टीमों के बाहर के किसी व्यक्ति द्वारा नहीं दिया जा सकता है।

इसके अलावा, मैं आपको अपने मॉडलों के प्रशिक्षण के लिए मैप्रेड्यूस तकनीकों का उपयोग करने की सलाह दूंगा। और जैसा कि पहले ही सलाह दी गई है, अपने मॉडलों को अचार करें ताकि आपको उन्हें हर अनुरोध के साथ प्रशिक्षित करने की आवश्यकता न हो।

— Dawny33
स्रोत