एक बड़े पाठ कॉर्पस को कहां खोजें? [बन्द है]


16

मैं डाउनलोड करने के लिए बड़े (> 1000) टेक्स्ट कॉर्पस की तलाश कर रहा हूं। अधिमानतः विश्व समाचार या किसी प्रकार की रिपोर्ट के साथ । मैंने केवल एक पेटेंट के साथ पाया है। कोई सुझाव?


यह धागा विषय से हटकर प्रतीत होता है। Meta.stats.stackexchange.com/questions/1032/… देखें ।
व्हिबर

यह प्रश्न ऑफ़-टॉपिक प्रतीत होता है क्योंकि यह सांख्यिकीय विश्लेषण करने के बजाय एक डेटा सेट खोजने के बारे में है
पीटर फ्लोम - मोनिका

2
खैर यह अजीब है, क्योंकि यह प्रश्नोत्तर वास्तव में उपयोगी है।
सिधेशो बॉब

@ गुगाका, कृपया इस तरह के मामूली संपादन के लिए ऐसे पुराने पदों को न टकराएं, विशेष रूप से एक पद जो बंद है। यह सच है कि हमारी शैली की प्राथमिकता "धन्यवाद" नहीं है, लेकिन इस मामूली चीज के लिए, हम इसे छोड़ देंगे।
गुंग - को पुनः स्थापित मोनिका

जवाबों:


9

क्या विकिलीक्स के ग्रंथ आपके अनुरूप नहीं हैं?


लेकिन यह कैसे मैं .txt में उन्हें डाउनलोड कर सकते हैं
दिमितार Vouldjeff

6

विकिन्यूज़ के बारे में क्या ? यहाँ नवीनतम डेटाबेस डंप है जो मुझे मिल सकता है: http://dumps.wikimedia.org/enwikinews/20111120/

आप शायद "सभी पृष्ठ, वर्तमान संस्करण केवल" चाहते हैं - संस्करण।


यह अब काम नहीं करता है।
vy32

डंप लिंक अब काम नहीं करता। क्षेत्र के
हिसाब से

6

रायटर पाठ कॉर्पस क्षेत्र में एक क्लासिक है, और यहां पाया जा सकता है


यह सबसे दिलचस्प (या विविध) कॉर्पस नहीं है। लाइसेंस विकिलीक्स (सार्वजनिक डोमेन यूएस दस्तावेज़) या विकिन्यूज़ के सापेक्ष भी प्रतिबंधात्मक है।
13'14

@ariddell मैं सहमत हूं, लेकिन इसका उपयोग आमतौर पर परिचयात्मक एनएलपी उदाहरणों में किया जाता है, और इसके बड़े सीखने में उपयोगी होने के लिए लेकिन एक छोटे लैपटॉप पर विश्लेषण करने के लिए पर्याप्त छोटा है।
अमीरीमोर्रिस


1

यदि पुनरावृत्ति कोई समस्या नहीं है, तो आप कोशिश कर सकते हैं

http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version

और आपके बजट के आधार पर इन्फोचिप में कई अन्य समान समान डेटासेट हैं।

सादर, एंडी


यह अब काम नहीं करता है
vy32

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.