मैं डाउनलोड करने के लिए बड़े (> 1000) टेक्स्ट कॉर्पस की तलाश कर रहा हूं। अधिमानतः विश्व समाचार या किसी प्रकार की रिपोर्ट के साथ । मैंने केवल एक पेटेंट के साथ पाया है। कोई सुझाव?
मैं डाउनलोड करने के लिए बड़े (> 1000) टेक्स्ट कॉर्पस की तलाश कर रहा हूं। अधिमानतः विश्व समाचार या किसी प्रकार की रिपोर्ट के साथ । मैंने केवल एक पेटेंट के साथ पाया है। कोई सुझाव?
जवाबों:
क्या विकिलीक्स के ग्रंथ आपके अनुरूप नहीं हैं?
विकिन्यूज़ के बारे में क्या ? यहाँ नवीनतम डेटाबेस डंप है जो मुझे मिल सकता है: http://dumps.wikimedia.org/enwikinews/20111120/
आप शायद "सभी पृष्ठ, वर्तमान संस्करण केवल" चाहते हैं - संस्करण।
http://endb-consolidated.aihit.com/datasets.htm में टेक्स्ट विवरण के साथ 10K कंपनियां शामिल हैं
यदि पुनरावृत्ति कोई समस्या नहीं है, तो आप कोशिश कर सकते हैं
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
और आपके बजट के आधार पर इन्फोचिप में कई अन्य समान समान डेटासेट हैं।
सादर, एंडी
यदि आप एन-ग्राम पूर्व-निर्मित चाहते हैं, तो आप Google पुस्तकें संग्रह आज़मा सकते हैं: