मुझे नमूना पाठ का विविध सेट कहां मिल सकता है? [बन्द है]


14

मैं एक सॉफ्टवेयर प्रोजेक्ट में उपयोग के लिए अंग्रेजी भाषा में उपयोग किए जाने वाले चरित्र या शब्द अनुक्रमों पर आंकड़े इकट्ठा करने की कोशिश कर रहा हूं।

मुझे विषयों के विविध सेट को कवर करने वाले अंग्रेजी सादे पाठ की एक बड़ी राशि (कई जीबी अच्छी होगी) कहां से मिल सकती है?


3
किसी तरह मुझे लगता है कि आप इन चित्रों का
यानिक्स

@ यानिस रिज़ोस ये कमाल के हैं: डी।
JSideris

@Yannis Rizos ओह वे सुंदर हैं ...
sevenseacat

@YannisRizos यह कुछ साल पहले बंद कर दिया गया था। मैं अंत में प्रश्न को संपादित करने के लिए चारों ओर हो गया ताकि यह क्यूए प्रारूप के लिए थोड़ा अधिक विशिष्ट और बेहतर हो। क्या अब मैं इसे अन-बंद करवा सकता हूं? (आप इस धागे पर एकमात्र व्यक्ति हैं जो अभी भी एक मध्यस्थ है)।
जेएसडेरिस

जवाबों:


19

आप विकिपीडिया के डेटा डंप का उपयोग कर सकते हैं । के लिए अंग्रेजी विकिपीडिया XML डेटा डंप है कि मौजूदा संशोधन शामिल केवल 31 जीबी के बारे में है तो मैं कहना चाहता हूँ यह अपने अनुसंधान के लिए एक अच्छी शुरुआत होगी। डेटा डंप बहुत बड़ा है, इसलिए आपको एक्सएक्सएक्स से एसएएक्स पार्सर के ग्रंथों को निकालने पर विचार करना चाहिए। विकीएक्सएमएलजे विकिपीडिया के लिए एक उपयोगी जावा एपीआई है।

और फिर, ज़ाहिर है, हमेशा स्टैक एक्सचेंज डेटा डंप होता हैनवीनतम एक सितंबर, 2011 तक लेकिन, तो शायद के रूप में सामान्यीकृत नहीं के रूप में आप चाहते हैं चाहते हैं सभी सार्वजनिक गैर बीटा स्टैक एक्सचेंज साइटों और इसी मेटा साइटों को शामिल स्वाभाविक रूप से स्टैक एक्सचेंज पदों प्रत्येक साइट की गुंजाइश पर केंद्रित कर रहे हैं,। मेटा पोस्ट कुछ अधिक सामान्य हैं, लेकिन आप विकिपीडिया के अतिरिक्त उन पर विचार कर सकते हैं।

मुझे नहीं लगता कि आपको कुछ भी बेहतर मिलेगा, खासकर सादे पाठ में। डेटा हब के माध्यम से कई खुले डेटा सेट उपलब्ध हैं , लेकिन मुझे लगता है कि अंग्रेज़ी विकिपीडिया डेटा डंप जो आप देख रहे हैं, उसके बहुत करीब है।


1
वे कुछ शांत संसाधन हैं।
हंज़ोलो

स्टैक वाले, जबकि व्यापक, प्रवचन के एक बहुत ही संकीर्ण क्षेत्र (आवश्यकता के अनुसार) को कवर करने जा रहे हैं, इसलिए वे अच्छी तरह से सामान्यीकरण नहीं कर सकते हैं।
जॉन्सका

हे भगवान, ये फाइलें बहुत बड़ी हैं! जैसे ही मैं उन्हें खोलने का एक तरीका ढूंढ सकता हूं और सभी एक्सएमएल बकवास को फ़िल्टर कर सकता हूं, यह बहुत अच्छा काम करना चाहिए। धन्यवाद!
JSideris

1
@ बिज़र्क ग्लैड मैं मदद कर सकता था। जब आप काम पूरा कर लें, तो आपको अपने शोध के लिंक के साथ प्रश्न को अद्यतन करना चाहिए।
यानिस

5

Google के पास डेटा सेट का एक संग्रह है जिसका उपयोग वे एन-ग्राम संभावनाएँ निर्धारित करने के लिए करते हैं। उनके बिगराम (2-ग्राम) डेटासेट की जांच करने से आपको एक अच्छी तस्वीर मिलनी चाहिए। वहाँ कई अन्य कोरपी हैं जिनके लिए ये विश्लेषण पहले ही किए जा चुके हैं।


3
मैं बस वही लिख रहा था ।
jcmeloni

@jcmeloni महान दिमाग!
जोंस्का

5

प्रोजेक्ट गुटेनबर्ग में अंग्रेजी में ग्रंथों का एक बड़ा समूह है, पहले से ही पाठ रूप में।

प्रोजेक्ट गुटेनबर्ग 42,000 से अधिक मुफ्त ई-बुक्स प्रदान करता है: मुफ्त epub किताबें, मुफ्त किंडल किताबें, उन्हें डाउनलोड करें या उन्हें ऑनलाइन पढ़ें।

हम उच्च गुणवत्ता वाली ई-बुक्स ले जाते हैं: हमारी सभी ई-बुक्स को पहले से ही फाइड पब्लिशर्स द्वारा प्रकाशित किया गया था। हमने हजारों स्वयंसेवकों की मदद से डिजीटल और परिश्रम से उन्हें प्रमाणित किया ...


1
मैंने प्रोजेक्ट गुटेनबर्ग के बारे में सोचा था लेकिन मुझे एक केंद्रित डेटा डंप नहीं मिला। और एक पुस्तक को शामिल करने के लिए, यह कॉपीराइट समाप्त होना चाहिए, और आमतौर पर इसका मतलब है कि पुस्तकों के पहले प्रकाशन के बाद से 50 से 70 साल बीत चुके हैं। इसलिए मुझे नहीं लगता कि डेटा सेट के रूप में, प्रोजेक्ट गुटेनबर्ग आज के रूप में भाषा का प्रतिनिधि है।
यानिस

1
यदि आप कुछ ऐसा चाहते हैं जो "भाषा का प्रतिनिधि है जैसा कि आज उपयोग किया जाता है", YouTube टिप्पणियों का प्रयास करें। दुखद लेकिन सत्य।
जोर्ग डब्ल्यू मित्तग

@ JörgWMittag - ouch। क्या वास्तव में मुझे परेशान करता है कि आप कितने गलत हैं।
माइकल कोहेन

@ Jörg W Mittag यह संभव है, लेकिन तब youtube के लिए विशिष्ट कुछ शब्द बहुत बार सामने आएंगे, जैसे: YO OU UT TU UB BE, या इससे भी बदतर: FA AK KE AN ND GA AY
JSideris

1

आंकड़ों के लिए, आप शायद "अंग्रेजी भाषा में बिग्राम फ्रीक्वेंसी" देख रहे हैं। नज़र डालिए : विकी-बिगराम आँकड़े

एक बड़े पाठ को खोजने के लिए, ध्यान दें कि आवृत्ति पाठ के प्रकार के लिए पक्षपाती होगी। उदाहरण के लिए, यदि आप पतों का विश्लेषण करते हैं तो आपको समाचार पत्रों की कहानियों के विश्लेषण से अलग परिणाम मिलेंगे। यदि आप केवल परीक्षण करना चाहते हैं, तो आप किसी भी पुस्तक की पीडीएफ फाइल का उपयोग कर सकते हैं (बेहतर गणित नहीं हो। या प्रोग्रामिंग या चिकित्सा पुस्तक) और इसे पाठ में परिवर्तित करें और फिर अपने परीक्षण चलाएं। आप अखबार के वेब पेजों को टेक्स्ट में बदल सकते हैं और उन पर काम कर सकते हैं।


2
हाँ, मुझे एहसास है कि परिणाम पक्षपाती होने जा रहे हैं। मुझे एक ऐसे संसाधन की आवश्यकता है जो अधिक से अधिक विषयों को कवर करे। मैंने ई-पुस्तकों का एक गुच्छा डाउनलोड करने पर विचार किया, मुख्य समस्या उन सभी को पाठ में परिवर्तित कर रही है। लेकिन कुछ बीघे आँकड़ों को देखने के लिए यह दुख नहीं होगा (मुझे नहीं पता था कि 2-अक्षर संयोजन कहा जाता था)।
JSideris

आपकी टिप्पणी के लिये धन्यवाद। आप फ़ाइल का उपयोग करके पीडीएफ को टेक्स्ट में बदल सकते हैं -> अडोबी पीडीएफ रीडर में टेक्स्ट के रूप में सेव करें। यह लिंक मान का भी हो सकता है: data-compression.com/english.html
NoChance

@EmmadKareem ओपी कई जीबी पाठ के लिए पूछ रहा है। क्या आप गंभीरता से सुझाव दे रहे हैं कि वह पीडीएफ से पाठ निकालने के लिए एडोब रीडर का उपयोग करें?
यानि

@YannisRizos, मैंने नहीं देखा कि कई जीबी एक अनिवार्य आवश्यकता थी। यदि यह मामला है, तो बेहतर उपकरण हैं जो इस उद्देश्य के लिए उपयोग किए जा सकते हैं। इस पर ध्यान दिलाने के लिए धन्यवाद।
NoChance
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.