आप विकिपीडिया के डेटा डंप का उपयोग कर सकते हैं । के लिए अंग्रेजी विकिपीडिया XML डेटा डंप है कि मौजूदा संशोधन शामिल केवल 31 जीबी के बारे में है तो मैं कहना चाहता हूँ यह अपने अनुसंधान के लिए एक अच्छी शुरुआत होगी। डेटा डंप बहुत बड़ा है, इसलिए आपको एक्सएक्सएक्स से एसएएक्स पार्सर के ग्रंथों को निकालने पर विचार करना चाहिए। विकीएक्सएमएलजे विकिपीडिया के लिए एक उपयोगी जावा एपीआई है।
और फिर, ज़ाहिर है, हमेशा स्टैक एक्सचेंज डेटा डंप होता है । नवीनतम एक सितंबर, 2011 तक लेकिन, तो शायद के रूप में सामान्यीकृत नहीं के रूप में आप चाहते हैं चाहते हैं सभी सार्वजनिक गैर बीटा स्टैक एक्सचेंज साइटों और इसी मेटा साइटों को शामिल स्वाभाविक रूप से स्टैक एक्सचेंज पदों प्रत्येक साइट की गुंजाइश पर केंद्रित कर रहे हैं,। मेटा पोस्ट कुछ अधिक सामान्य हैं, लेकिन आप विकिपीडिया के अतिरिक्त उन पर विचार कर सकते हैं।
मुझे नहीं लगता कि आपको कुछ भी बेहतर मिलेगा, खासकर सादे पाठ में। डेटा हब के माध्यम से कई खुले डेटा सेट उपलब्ध हैं , लेकिन मुझे लगता है कि अंग्रेज़ी विकिपीडिया डेटा डंप जो आप देख रहे हैं, उसके बहुत करीब है।