टेक्स्ट क्लासिफायर ट्रेनिंग डेटासेट का सुझाव दें

9

टेक्स्ट क्लासिफायर ट्रेन करने के लिए मैं कौन से स्वतंत्र रूप से उपलब्ध डेटासेट का उपयोग कर सकता हूं?

हम उसके लिए सबसे अधिक संबंधित सामग्री की सिफारिश करके अपने उपयोगकर्ताओं के जुड़ाव को बढ़ाने की कोशिश कर रहे हैं, इसलिए हमने सोचा कि यदि हम अपनी सामग्री को शब्दों के पूर्वनिर्धारित बैग के आधार पर वर्गीकृत करते हैं, तो हम पहले से ही वर्गीकृत पदों की यादृच्छिक संख्या पर उनकी प्रतिक्रिया प्राप्त करके उन्हें आकर्षक सामग्री की सिफारिश कर सकते हैं। इससे पहले।

हम इस जानकारी का उपयोग उसके लिए उन वर्गों के साथ दालों के लिए अनुशंसित कर सकते हैं। लेकिन हमने पाया कि यदि हम अपनी सामग्री से संबंधित शब्दों के पूर्वनिर्धारित बैग का उपयोग नहीं करते हैं, तो फीचर वेक्टर शून्य से भरा होगा, श्रेणियां भी हमारी सामग्री के लिए प्रासंगिक नहीं हो सकती हैं। इसलिए उन कारणों के लिए हमने एक और समाधान की कोशिश की जो हमारी सामग्री को वर्गीकृत नहीं करेगा।

धन्यवाद :)

— Abdelmawla
स्रोत

1

मुझे लगता है कि किसी को डेटासेट की सिफारिश करने से पहले आपकी समस्या के बारे में अधिक जानकारी आवश्यक है।

— नील स्लेटर

3

किस लिए? स्पैम फ़िल्टरिंग? भावनाओं का विश्लेषण? एक स्पष्ट उद्देश्य के बिना एक डेटासेट का सुझाव देना बहुत मुश्किल है।

— lsdr

@lsdr जवाबों को देखते हुए, ऐसा लगता है कि प्रश्न को अधिक विवरण की आवश्यकता नहीं है।

— अमीर अली अकबरी

@AmirAliAkbari मुझे लगता है कि वे एक संपादन के बाद आए थे। मैंने अपने करीबी वोट को वैसे भी वापस ले लिया।

— रुबेंस

इस प्रश्न के लिए एक और अधिक उपयुक्त जगह है opendata.stackexchange.com

— sheldonkreger

14

पाठ वर्गीकरण के लिए कुछ मानक डेटासेट 20-समाचार समूह, रायटर (8 और 52 वर्ग के साथ) और वेबकेब हैं। आप उन सभी को यहां पा सकते हैं ।

— देबाशीष
स्रोत

धन्यवाद :), मैंने पहले ही इसका दौरा किया था, लेकिन मैंने पाया कि यह वर्गीकरण कमजोर है, पर्याप्त नहीं है या यह मेरी सामग्री से संबंधित नहीं हो सकता है

— अब्देलमवाला

7

पाठ वर्गीकरण शोध (लिंक नीचे) के लिए सबसे व्यापक रूप से उपयोग किए जाने वाले परीक्षण संग्रह में से एक। मैंने कई बार उपयोग किया है। अपनी खोज का आनंद लें :)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ या http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization.Collection

— हम्माम
स्रोत

5

यहाँ के साथ खेलने के लिए यूसी इरविन द्वारा मुक्त किए गए डेटासेट का एक गुच्छा है । उन डेटासेट्स में, कुछ दर्जन टेक्स्टुअल डेटासेट हैं, जो आपके काम के साथ लोगों की मदद कर सकते हैं।

वे सामान्य डेटासेट हैं, इसलिए आपके उद्देश्य के आधार पर उन्हें आपके मॉडल को प्रशिक्षित करने के लिए केवल डेटा के रूप में उपयोग नहीं किया जाना चाहिए, या अन्यथा आपका मॉडल - जबकि यह काम कर सकता है - गुणवत्ता परिणाम नहीं देगा।

— lsdr
स्रोत

1

उपरोक्त सुझावों के अलावा, एक अत्यंत उपयोगी पीडीएफ है - बेंचमार्किंग टेक्स्ट कलेक्शंस फॉर क्लासिफिकेशन एंड क्लस्टरिंग टास्क जिसमें विभिन्न डेटासेट्स के साथ-साथ बेंचमार्क के साथ हमारे मॉडल का परीक्षण करना है। इसमें 20ng कलेक्शन, रायटर और उपरोक्त सुझाए गए कई डेटासेट शामिल हैं। मुझे उम्मीद है यह मदद करेगा!

— हेमा वर्षा
स्रोत