टेक्स्ट क्लासिफायर ट्रेनिंग डेटासेट का सुझाव दें


9

टेक्स्ट क्लासिफायर ट्रेन करने के लिए मैं कौन से स्वतंत्र रूप से उपलब्ध डेटासेट का उपयोग कर सकता हूं?

हम उसके लिए सबसे अधिक संबंधित सामग्री की सिफारिश करके अपने उपयोगकर्ताओं के जुड़ाव को बढ़ाने की कोशिश कर रहे हैं, इसलिए हमने सोचा कि यदि हम अपनी सामग्री को शब्दों के पूर्वनिर्धारित बैग के आधार पर वर्गीकृत करते हैं, तो हम पहले से ही वर्गीकृत पदों की यादृच्छिक संख्या पर उनकी प्रतिक्रिया प्राप्त करके उन्हें आकर्षक सामग्री की सिफारिश कर सकते हैं। इससे पहले।

हम इस जानकारी का उपयोग उसके लिए उन वर्गों के साथ दालों के लिए अनुशंसित कर सकते हैं। लेकिन हमने पाया कि यदि हम अपनी सामग्री से संबंधित शब्दों के पूर्वनिर्धारित बैग का उपयोग नहीं करते हैं, तो फीचर वेक्टर शून्य से भरा होगा, श्रेणियां भी हमारी सामग्री के लिए प्रासंगिक नहीं हो सकती हैं। इसलिए उन कारणों के लिए हमने एक और समाधान की कोशिश की जो हमारी सामग्री को वर्गीकृत नहीं करेगा।

धन्यवाद :)


1
मुझे लगता है कि किसी को डेटासेट की सिफारिश करने से पहले आपकी समस्या के बारे में अधिक जानकारी आवश्यक है।
नील स्लेटर

3
किस लिए? स्पैम फ़िल्टरिंग? भावनाओं का विश्लेषण? एक स्पष्ट उद्देश्य के बिना एक डेटासेट का सुझाव देना बहुत मुश्किल है।
lsdr

@lsdr जवाबों को देखते हुए, ऐसा लगता है कि प्रश्न को अधिक विवरण की आवश्यकता नहीं है।
अमीर अली अकबरी

@AmirAliAkbari मुझे लगता है कि वे एक संपादन के बाद आए थे। मैंने अपने करीबी वोट को वैसे भी वापस ले लिया।
रुबेंस

इस प्रश्न के लिए एक और अधिक उपयुक्त जगह है opendata.stackexchange.com
sheldonkreger

जवाबों:


14

पाठ वर्गीकरण के लिए कुछ मानक डेटासेट 20-समाचार समूह, रायटर (8 और 52 वर्ग के साथ) और वेबकेब हैं। आप उन सभी को यहां पा सकते हैं ।


धन्यवाद :), मैंने पहले ही इसका दौरा किया था, लेकिन मैंने पाया कि यह वर्गीकरण कमजोर है, पर्याप्त नहीं है या यह मेरी सामग्री से संबंधित नहीं हो सकता है
अब्देलमवाला

7

पाठ वर्गीकरण शोध (लिंक नीचे) के लिए सबसे व्यापक रूप से उपयोग किए जाने वाले परीक्षण संग्रह में से एक। मैंने कई बार उपयोग किया है। अपनी खोज का आनंद लें :)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ या http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization.Collection


5

यहाँ के साथ खेलने के लिए यूसी इरविन द्वारा मुक्त किए गए डेटासेट का एक गुच्छा है । उन डेटासेट्स में, कुछ दर्जन टेक्स्टुअल डेटासेट हैं, जो आपके काम के साथ लोगों की मदद कर सकते हैं।

वे सामान्य डेटासेट हैं, इसलिए आपके उद्देश्य के आधार पर उन्हें आपके मॉडल को प्रशिक्षित करने के लिए केवल डेटा के रूप में उपयोग नहीं किया जाना चाहिए, या अन्यथा आपका मॉडल - जबकि यह काम कर सकता है - गुणवत्ता परिणाम नहीं देगा।


1

उपरोक्त सुझावों के अलावा, एक अत्यंत उपयोगी पीडीएफ है - बेंचमार्किंग टेक्स्ट कलेक्शंस फॉर क्लासिफिकेशन एंड क्लस्टरिंग टास्क जिसमें विभिन्न डेटासेट्स के साथ-साथ बेंचमार्क के साथ हमारे मॉडल का परीक्षण करना है। इसमें 20ng कलेक्शन, रायटर और उपरोक्त सुझाए गए कई डेटासेट शामिल हैं। मुझे उम्मीद है यह मदद करेगा!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.