फिल्म रेटिंग भविष्यवाणी के लिए वर्गीकरण मॉडल


11

मैं डेटा माइनिंग में कुछ नया हूं, और मैं फिल्म रेटिंग भविष्यवाणी के लिए एक वर्गीकरण मॉडल पर काम कर रहा हूं।

मैंने IMDB से डेटा सेट एकत्र किए हैं, और मैं अपने मॉडल के लिए एक निर्णय पेड़ और निकटतम पड़ोसी दृष्टिकोण का उपयोग करने की योजना बना रहा हूं। मैं जानना चाहता हूं कि कौन से स्वतंत्र रूप से उपलब्ध डेटा माइनिंग टूल उस कार्यक्षमता को प्रदान कर सकता है जिसकी मुझे आवश्यकता है।

जवाबों:


5

हेन,

उपलब्ध कार्यक्षमता के साथ बहुत सारे उपकरण और कार्य हैं।

कौन सा चुनना है यह निर्भर करता है कि आप अपने काम के लिए एक गुई का उपयोग करना चाहते हैं या यदि आप इसे किसी अन्य कार्यक्रम में एम्बेड करना चाहते हैं।

स्टैंडअलोन डेटा माइनिंग टूल्स (जावा इंटरफेस के साथ WEKA जैसे ओहर्स हैं):

  • तेजी से खान
  • संतरा
  • R के लिए खड़खड़ गुइ
  • KNIME

पाठ आधारित:

  • जीएनयू आर

libs:

  • पायथन के लिए स्किट
  • हाडोप पर महावत

यदि आप एक प्रोग्रामिंग लैंग्वेज को अच्छी तरह से जानते हैं तो मैं उस भाषा के लिए एक लिब का उपयोग करूंगा या आर को आजमाऊंगा। यदि नहीं, तो आप गिनी के साथ किसी एक उपकरण को आजमा सकते हैं।

R में एक पेड़ का उदाहरण:

# we are using the iris dataset
data(iris)

# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)

# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)

# Plot the tree
plot(fit)
text(fit)

जैसा कि आर के साथ विश्लेषण में सुझाव दिया गया है कि आपको अपने आप को कोड करने की आवश्यकता है, लेकिन आपको अधिकांश वर्गीकरण कार्यों के लिए एक पैकेज मिलेगा जो बॉक्स से बाहर काम करेगा। यहां मशीन लर्निंग टास्क व्यू का अवलोकन किया जा सकता है

RapidMinder के साथ आरंभ करने के लिए आपको Youtube पर एक नज़र डालनी चाहिए। निर्णय पेड़ों के लिए भी कुछ पेंचकस हैं।


1
मैं नीचा दिखाना चाहूंगा, लेकिन आप नए हैं, इसलिए: आप केवल प्रदर्शन के बिना उपकरणों के एक सेट (बल्कि सामान्य उत्तर) को सूचीबद्ध करते हैं कि यह ओपी के विशिष्ट कार्य के लिए उपयुक्त क्यों है। मैं और अधिक विवरण प्रदान करने का सुझाव देता हूं, अन्यथा आपके उत्तर को आँकड़े.स्टैकएक्सचेंज . com/questions/2007/… द्वारा प्रतिस्थापित किया जा सकता है । कोई अपराध नहीं, कृपया इसे एक दोस्ताना सलाह के रूप में लें :)
कोमल

@ ऑस्टेफ़ेन: सम्मानपूर्वक, 4 अपवोट्स और 0 डाउनवोट्स की ऑडिज़ेन रसीद अन्यथा कहती है। मेरा मानना ​​है कि उन्होंने इस सवाल का अच्छी तरह से उत्तर दिया है। यह पूछा गया कि "कौन सा स्वतंत्र रूप से उपलब्ध डेटा खनन उपकरण कार्यात्मकता प्रदान कर सकता है जिसकी मुझे आवश्यकता है," और उत्तर ने कहा कि और अधिक। बहुत अधिक, वास्तव में, आपके द्वारा जुड़े धागे के किसी भी उत्तर की तुलना में।
रोलैंडो 2

1
@ rolando2 मैंने टिप्पणी को जोड़ा इससे पहले कि ऑडीजन ने इसे संपादित किया और मैंने पहले ही संपादित अवसरों को बढ़ा दिया है।)।
14

@ ऑस्टेन: मैं सही खड़ा हूँ!
rolando2

5

वीका एक फ्री और ओपन-सोर्स मशीन-लर्निंग सूट ऑफ टूल्स है। यदि आप चाहते हैं तो उनके पास आपके जावा कोड से कॉल करने के लिए एक जीयूआई और साथ ही एक एपीआई है।

उनके पास कई निर्णय एल्गोरिदम सहित कई वर्गीकरण एल्गोरिदम हैं। ये यूआई में उपलब्ध हैं। निकटतम पड़ोसी थोड़े अधिक पेचीदा हैं और ऐसा लगता है कि आपको सीधे एपीआई का उपयोग करना होगा

मुझे लगता है कि रैपिड माइनर शायद इस प्रकार का समर्थन करता है, लेकिन मैंने पहले इस तरह के उद्देश्यों के लिए इसका इस्तेमाल नहीं किया है।

आप R पर भी विचार कर सकते हैं , लेकिन इसके लिए आपको अपने हाथों को थोड़ा गंदा करना पड़ सकता है।

ध्यान दें कि नेटफ्लिक्स ने मूवी रेटिंग वर्गीकरण में एक टन का काम किया है। कई साल पहले उन्होंने समूह को $ 1 मिलियन का पुरस्कार दिया जो उनके वर्गीकरण को सबसे बेहतर बना सकता था। आपको यह पढ़ने में रुचि हो सकती है कि विभिन्न टीमों ने उस समस्या से कैसे संपर्क किया।


धन्यवाद माइकल, मैंने निर्णय वृक्ष एल्गोरिदम के लिए वीका की कोशिश की है, लेकिन मैंने पाया कि अधिकांश निर्णय पेड़ एल्गोरिदम के लिए संख्यात्मक मानों का समर्थन नहीं किया जाता है। मेरे डेटा सेट में, मेरे पास संख्यात्मक मान हैं जैसे कि रेटिंग (क्लास लेबल), बजट, निर्देशक आईडी, अभिनेता आईडी इत्यादि। तो मैं उन संख्यात्मक मूल्यों को कैसे संभाल सकता हूं? (मुझे यकीन नहीं है कि मुझे अपने प्रश्न के लिए एक नया सूत्र खोलना चाहिए)। क्या आपके पास किसी अन्य उपयुक्त एल्गोरिदम पर कोई सुझाव है?
के हेन

2
@ के हेइन 1) मैं डीटी के बजाय रैंडम फॉरेस्ट (आरएफ) का उपयोग करने का सुझाव देता हूं। उदाहरण के लिए देखें आंकड़े ।stackexchange.com/questions/10001/… । 2) संख्यात्मक चर: आरएफ संख्यात्मक और असतत लेबल दोनों को संभाल सकता है, आपको दोनों तरीकों की कोशिश करनी चाहिए; संचालक_निधि, एक्टर_ड एक संख्यात्मक विशेषता नहीं है, यह या तो एक बूलियन है (अभिनेता ने भाग लिया?) या नाममात्र (मुख्य अभिनेता); बजट को डिस्क्राइब किया जा सकता है या आरएफ उन्हें संभाल सकता है। इस मामले में एल्गोरिथ्म इष्टतम विभाजन बिंदु के लिए खोज करता है। मैं चारों ओर खेलने और बाद में अधिक विशिष्ट प्रश्नों के साथ आने का सुझाव देता हूं;)
स्टेफेन

@ ऑस्टीफ़न धन्यवाद स्टीफ़न! मैं RF के साथ कोशिश करूँगा, लेकिन आपकी टिप्पणी के संबंध में मेरे पास अभी भी कुछ सवाल हैं। यदि मैं बूलियन के रूप में अभिनेता_िद लेना चाहता हूं, तो प्रत्येक अद्वितीय अभिनेता_ के लिए, मेरे पास एक बूलियन विशेषता है जैसे कि isActor1Particated (अभिनेता के लिए = 1) कहो? यदि मैं अभिनेता_ को नाममात्र की विशेषता में बदलना चाहता हूं, तो मुझे इसे कैसे आगे बढ़ाना चाहिए? यदि आप कुछ विवरण उपलब्ध करा सकते हैं तो मैं बहुत आभारी रहूंगा क्योंकि मैं डेटा खनन क्षेत्र में वास्तव में नया हूं।
के हेइन

1
@ नाममात्र सुझाव के पीछे मेरा विचार यह था कि फर्स्ट_एक्टर, सेकंड_एक्टर आदि जैसे फ़ीचर बनाकर अभिनेताओं को सबसे महत्वपूर्ण तक सीमित रखा जाए: चर लंबाई (एक्टर्स, डायरेक्टर्स, कीवर्ड्स) की जानकारी से कैसे निपटा जाए यह एक विषय है। एक अलग सवाल।
स्टीफन

@ हाइन जब आप "वैरिएबल लेंथ की जानकारी से निपटने के लिए कैसे करें" सवाल पूछते हैं, तो कृपया इसे यहाँ लिंक करें :-)
डैरेन कुक

1

हो सकता है ... WEKA? http://www.cs.waikato.ac.nz/ml/weka/


1
(-1): हालांकि वीका वास्तव में एक डेटा माइनिंग टूल है जिसमें वास्तव में एनएन और डीटी का कार्यान्वयन है, इसका उत्तर इतना सामान्य है कि यह एक टन प्रश्नों का उत्तर हो सकता है। अगर आपको लगता है कि Weka रेटिंग के विशेष कार्य के लिए उपयुक्त है, जो अत्यंत उच्च गति वाले विरल डेटा दिए गए हैं, तो आप एक उदाहरण (या उदाहरण के लिए लिंक) क्यों नहीं दिखाते हैं। कोई अपराध नहीं, कृपया इसे एक अनुकूल सुझाव के रूप में लें।
स्टेफेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.