मुझे नमूना पाठ का विविध सेट कहां मिल सकता है? [बन्द है]

14

जैसा कि वर्तमान में खड़ा है, यह प्रश्न हमारे प्रश्नोत्तर प्रारूप के लिए एक अच्छा फिट नहीं है। हम तथ्यों, संदर्भों या विशेषज्ञता के आधार पर उत्तर देने की अपेक्षा करते हैं, लेकिन इस सवाल पर बहस, बहस, मतदान या विस्तारित चर्चा की संभावना होगी। यदि आपको लगता है कि इस प्रश्न को बेहतर बनाया जा सकता है और संभवतः फिर से खोला जा सकता है, तो मार्गदर्शन के लिए सहायता केंद्र पर जाएं ।

6 साल पहले बंद हुआ ।

मैं एक सॉफ्टवेयर प्रोजेक्ट में उपयोग के लिए अंग्रेजी भाषा में उपयोग किए जाने वाले चरित्र या शब्द अनुक्रमों पर आंकड़े इकट्ठा करने की कोशिश कर रहा हूं।

मुझे विषयों के विविध सेट को कवर करने वाले अंग्रेजी सादे पाठ की एक बड़ी राशि (कई जीबी अच्छी होगी) कहां से मिल सकती है?

research statistics

— JSideris
स्रोत

3

किसी तरह मुझे लगता है कि आप इन चित्रों का

— यानिक्स

@ यानिस रिज़ोस ये कमाल के हैं: डी।

— JSideris

@Yannis Rizos ओह वे सुंदर हैं ...

— sevenseacat

@YannisRizos यह कुछ साल पहले बंद कर दिया गया था। मैं अंत में प्रश्न को संपादित करने के लिए चारों ओर हो गया ताकि यह क्यूए प्रारूप के लिए थोड़ा अधिक विशिष्ट और बेहतर हो। क्या अब मैं इसे अन-बंद करवा सकता हूं? (आप इस धागे पर एकमात्र व्यक्ति हैं जो अभी भी एक मध्यस्थ है)।

— जेएसडेरिस

19

आप विकिपीडिया के डेटा डंप का उपयोग कर सकते हैं । के लिए अंग्रेजी विकिपीडिया XML डेटा डंप है कि मौजूदा संशोधन शामिल केवल 31 जीबी के बारे में है तो मैं कहना चाहता हूँ यह अपने अनुसंधान के लिए एक अच्छी शुरुआत होगी। डेटा डंप बहुत बड़ा है, इसलिए आपको एक्सएक्सएक्स से एसएएक्स पार्सर के ग्रंथों को निकालने पर विचार करना चाहिए। विकीएक्सएमएलजे विकिपीडिया के लिए एक उपयोगी जावा एपीआई है।

और फिर, ज़ाहिर है, हमेशा स्टैक एक्सचेंज डेटा डंप होता है । नवीनतम एक सितंबर, 2011 तक लेकिन, तो शायद के रूप में सामान्यीकृत नहीं के रूप में आप चाहते हैं चाहते हैं सभी सार्वजनिक गैर बीटा स्टैक एक्सचेंज साइटों और इसी मेटा साइटों को शामिल स्वाभाविक रूप से स्टैक एक्सचेंज पदों प्रत्येक साइट की गुंजाइश पर केंद्रित कर रहे हैं,। मेटा पोस्ट कुछ अधिक सामान्य हैं, लेकिन आप विकिपीडिया के अतिरिक्त उन पर विचार कर सकते हैं।

मुझे नहीं लगता कि आपको कुछ भी बेहतर मिलेगा, खासकर सादे पाठ में। डेटा हब के माध्यम से कई खुले डेटा सेट उपलब्ध हैं , लेकिन मुझे लगता है कि अंग्रेज़ी विकिपीडिया डेटा डंप जो आप देख रहे हैं, उसके बहुत करीब है।

— yannis
स्रोत

1

वे कुछ शांत संसाधन हैं।

— हंज़ोलो

स्टैक वाले, जबकि व्यापक, प्रवचन के एक बहुत ही संकीर्ण क्षेत्र (आवश्यकता के अनुसार) को कवर करने जा रहे हैं, इसलिए वे अच्छी तरह से सामान्यीकरण नहीं कर सकते हैं।

— जॉन्सका

हे भगवान, ये फाइलें बहुत बड़ी हैं! जैसे ही मैं उन्हें खोलने का एक तरीका ढूंढ सकता हूं और सभी एक्सएमएल बकवास को फ़िल्टर कर सकता हूं, यह बहुत अच्छा काम करना चाहिए। धन्यवाद!

— JSideris

1

@ बिज़र्क ग्लैड मैं मदद कर सकता था। जब आप काम पूरा कर लें, तो आपको अपने शोध के लिंक के साथ प्रश्न को अद्यतन करना चाहिए।

— यानिस

5

Google के पास डेटा सेट का एक संग्रह है जिसका उपयोग वे एन-ग्राम संभावनाएँ निर्धारित करने के लिए करते हैं। उनके बिगराम (2-ग्राम) डेटासेट की जांच करने से आपको एक अच्छी तस्वीर मिलनी चाहिए। वहाँ कई अन्य कोरपी हैं जिनके लिए ये विश्लेषण पहले ही किए जा चुके हैं।

— jonsca
स्रोत

3

मैं बस वही लिख रहा था ।

— jcmeloni

@jcmeloni महान दिमाग!

— जोंस्का

5

प्रोजेक्ट गुटेनबर्ग में अंग्रेजी में ग्रंथों का एक बड़ा समूह है, पहले से ही पाठ रूप में।

प्रोजेक्ट गुटेनबर्ग 42,000 से अधिक मुफ्त ई-बुक्स प्रदान करता है: मुफ्त epub किताबें, मुफ्त किंडल किताबें, उन्हें डाउनलोड करें या उन्हें ऑनलाइन पढ़ें।

हम उच्च गुणवत्ता वाली ई-बुक्स ले जाते हैं: हमारी सभी ई-बुक्स को पहले से ही फाइड पब्लिशर्स द्वारा प्रकाशित किया गया था। हमने हजारों स्वयंसेवकों की मदद से डिजीटल और परिश्रम से उन्हें प्रमाणित किया ...

— माइकल कोहेन
स्रोत

1

मैंने प्रोजेक्ट गुटेनबर्ग के बारे में सोचा था लेकिन मुझे एक केंद्रित डेटा डंप नहीं मिला। और एक पुस्तक को शामिल करने के लिए, यह कॉपीराइट समाप्त होना चाहिए, और आमतौर पर इसका मतलब है कि पुस्तकों के पहले प्रकाशन के बाद से 50 से 70 साल बीत चुके हैं। इसलिए मुझे नहीं लगता कि डेटा सेट के रूप में, प्रोजेक्ट गुटेनबर्ग आज के रूप में भाषा का प्रतिनिधि है।

— यानिस

1

यदि आप कुछ ऐसा चाहते हैं जो "भाषा का प्रतिनिधि है जैसा कि आज उपयोग किया जाता है", YouTube टिप्पणियों का प्रयास करें। दुखद लेकिन सत्य।

— जोर्ग डब्ल्यू मित्तग

@ JörgWMittag - ouch। क्या वास्तव में मुझे परेशान करता है कि आप कितने गलत हैं।

— माइकल कोहेन

@ Jörg W Mittag यह संभव है, लेकिन तब youtube के लिए विशिष्ट कुछ शब्द बहुत बार सामने आएंगे, जैसे: YO OU UT TU UB BE, या इससे भी बदतर: FA AK KE AN ND GA AY

— JSideris

1

आंकड़ों के लिए, आप शायद "अंग्रेजी भाषा में बिग्राम फ्रीक्वेंसी" देख रहे हैं। नज़र डालिए : विकी-बिगराम आँकड़े

एक बड़े पाठ को खोजने के लिए, ध्यान दें कि आवृत्ति पाठ के प्रकार के लिए पक्षपाती होगी। उदाहरण के लिए, यदि आप पतों का विश्लेषण करते हैं तो आपको समाचार पत्रों की कहानियों के विश्लेषण से अलग परिणाम मिलेंगे। यदि आप केवल परीक्षण करना चाहते हैं, तो आप किसी भी पुस्तक की पीडीएफ फाइल का उपयोग कर सकते हैं (बेहतर गणित नहीं हो। या प्रोग्रामिंग या चिकित्सा पुस्तक) और इसे पाठ में परिवर्तित करें और फिर अपने परीक्षण चलाएं। आप अखबार के वेब पेजों को टेक्स्ट में बदल सकते हैं और उन पर काम कर सकते हैं।

— कोई मौका नहीं
स्रोत

2

हाँ, मुझे एहसास है कि परिणाम पक्षपाती होने जा रहे हैं। मुझे एक ऐसे संसाधन की आवश्यकता है जो अधिक से अधिक विषयों को कवर करे। मैंने ई-पुस्तकों का एक गुच्छा डाउनलोड करने पर विचार किया, मुख्य समस्या उन सभी को पाठ में परिवर्तित कर रही है। लेकिन कुछ बीघे आँकड़ों को देखने के लिए यह दुख नहीं होगा (मुझे नहीं पता था कि 2-अक्षर संयोजन कहा जाता था)।

— JSideris

आपकी टिप्पणी के लिये धन्यवाद। आप फ़ाइल का उपयोग करके पीडीएफ को टेक्स्ट में बदल सकते हैं -> अडोबी पीडीएफ रीडर में टेक्स्ट के रूप में सेव करें। यह लिंक मान का भी हो सकता है: data-compression.com/english.html

— NoChance

@EmmadKareem ओपी कई जीबी पाठ के लिए पूछ रहा है। क्या आप गंभीरता से सुझाव दे रहे हैं कि वह पीडीएफ से पाठ निकालने के लिए एडोब रीडर का उपयोग करें?

— यानि

@YannisRizos, मैंने नहीं देखा कि कई जीबी एक अनिवार्य आवश्यकता थी। यदि यह मामला है, तो बेहतर उपकरण हैं जो इस उद्देश्य के लिए उपयोग किए जा सकते हैं। इस पर ध्यान दिलाने के लिए धन्यवाद।

— NoChance