गुटेनबर्ग से सभी अंग्रेजी किताबें कैसे डाउनलोड करें?

23

मुझे सभी गुटेनबर्ग ई-बुक्स, सादे पाठ प्रारूप (html नहीं) और केवल अंग्रेजी भाषा में डाउनलोड करने की आवश्यकता है।

किसी के पास सुझाव है कि उन सभी को गुटेनबर्ग सर्वर से कैसे डाउनलोड करें?

मुझे भाषाई शोध करने के लिए उनकी आवश्यकता है।

project-gutenberg

— EugeneP
स्रोत

32

हमारे पेज पर रोबोट के बारे में जानकारी के अनुसार :

हमारी साइट पर रोबोट की पहुंच को अंतिम संसाधन के रूप में छोड़ दिया जाना चाहिए, जब बाकी सब कुछ विफल हो गया हो। यह भी याद रखें कि प्रोजेक्ट गुटेनबर्ग वेब साइट कॉपीराइट है।

हालांकि, वहाँ आशा है :

बेहतर विकल्प

प्रोजेक्ट गुटेनबर्ग वेब साइट का एक ऑफ़लाइन संस्करण प्राप्त करें।

सभी प्रोजेक्ट गुटेनबर्ग ईबुक फाइलें प्राप्त करें।

प्रोजेक्ट गुटेनबर्ग कैटलॉग डेटा प्राप्त करें।

तथा:

[...] आप http://www.gutenberg.org/robot/harvest पर अपने रोबोट को इंगित करके ज़िपित फ़ाइलों में हमारे सभी ई-बुक्स प्राप्त कर सकते हैं

[...] जिप फाइलों को अनपैक करने से एक और 70,000 फाइलों का उत्पादन होगा।

यह एक उदाहरण है कि सभी फ़ाइलों का उपयोग कैसे किया जाए wget:
wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] यदि आप केवल कुछ प्रकार की फाइलें कहते हैं:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] यदि आप किसी दी गई भाषा में केवल फाइलें कहना चाहते हैं:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de

तो, मैं चाहता हूँ:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en

— अर्जन
स्रोत

क्या रेंगने के दौरान डाउनलोड की जाने वाली फ़ाइलों की संख्या को सीमित करने का तरीका बताने का एक तरीका है (उदाहरण के लिए पहले 100 पाठ की फाइलें इसका सामना करती हैं)?

— रोहनचक

इसके अलावा, जब हमारे पास एक टेक्स्ट फ़ाइल में कई लिंक होते हैं (निरपेक्ष uri, " gutenberg.org/files/1.zip , gutenberg.org/files/2.zip " कहते हैं, तो ऐसी टेक्स्ट फ़ाइल प्रदान करने के लिए कौन से पैरामीटर का उपयोग किया जाता है? ? wget के लिए डाउनलोड लिंक की एक संख्या के रूप में

— EugeneP

@rohanbk, आप देख सकते URL को देखने ब्राउज़िंग तरह से क्या डाउनलोड किया जाएगा gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en यह पता चलता है कि यह वास्तव में पृष्ठवार है, लेकिन प्रति पृष्ठ फ़ाइलों की संख्या स्थिर नहीं है । (शायद आकार के आधार पर?) इसलिए, पुनरावृत्ति नहीं करने के लिए , विग मैनुअल के अनुसार , आप कोशिश कर सकते हैं --level=0। लेकिन मुझे लगता है कि आप बेहतर तरीके से गर्भपात और पुनः आरंभ करने की अनुमति देते हैं: कोशिश करें --level 9999 --no-clobber, जो आपके पास पहले से मौजूद फाइलों को छोड़ देगा (यह मानते हुए कि आप अभी भी डिस्क के साथ उसी फ़ोल्डर में हैं)।

— अर्जन

1

@ यूजीनपी, --input-file मैनुअल में देखें ।

— अर्जन

@ अर्जन क्या डाउनलोड की शुरुआत में ऑफसेट निर्दिष्ट करने का एक तरीका है? कुछ कारणों से मेरी डाउनलोडिंग बाधित हुई और अब पहले पेज से ही फाइलों की जाँच शुरू हो गई है। मैंने -cविकल्प का उपयोग किया था , लेकिन फिर भी। मैंने offset=xxxURL को मिरर किए जाने के लिए दिया था लेकिन फिर भी यह पहले पेज से डाउनलोड हो रहा है।

— user13107

7

आप एक एकल ZIM फ़ाइल में अंग्रेजी पुस्तकों और अन्य भाषाओं के पूरे गुटेनबर्ग संग्रह को डाउनलोड कर सकते हैं , जो अत्यधिक संकुचित है और फिर इसे डेस्कटॉप और एंड्रॉइड दोनों पर कीविक्स के साथ खोला जा सकता है। अंग्रेजी की किताबें 40 जीबी हैं।

— निमो
स्रोत

कीवीक्स के लिए कोई लिनक्स क्लाइंट

— एक्वाग्रेमलिन

@aquagremlin उह? kiwix.org/wiki/Software#GNU.2FLinux यह कुछ विकृतियों में भी पैक है।

— निमो

2

माफ़ कीजिये। कोई नींद नहीं और बड़े बटन के नीचे 'अन्य सिस्टम' नहीं दिखते।

— एक्वाग्रेमलिन

क्या यह txt प्रारूप पुस्तक है?

— ई

@ मुझे यकीन नहीं है कि आपका क्या मतलब है। यह HTML में पाठ + चित्र है, EPUB या अन्य के बजाय ZIM में पैक किया गया है। यदि आप चाहें तो आप इसमें से सादा पाठ प्राप्त कर सकते हैं, लेकिन मेरा उत्तर ज्यादातर उन लोगों के लिए है जो प्रारूपित पुस्तकें आदि पसंद करते हैं

— निमो

6

जबकि चयनित उत्तर सही है, यह संभावित रूप से दो समस्याओं का कारण होगा:

आप एक बॉट के रूप में डाउनलोड किए जा रहे अनुमान के तहत पेजिनेशन तक पहुंच से इनकार करते हुए 403 त्रुटि प्राप्त कर सकते हैं
वहाँ संभावित है कि आप एक बाहरी दर्पण के लिए भेजा जाएगा, जिसका अर्थ है कि wgetयह एक बाहरी दर्पण से फ़ाइलों को डाउनलोड करने पर पुनरावर्ती जाँच विफल हो जाएगी।

नीचे दिया गया समाधान इन समस्याओं को हल करता है:

wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"

आप थोड़ा यादृच्छिकता प्रदान करने के लिए रेफ़र और उपयोगकर्ता-एजेंट स्ट्रिंग्स को बदलना चाह सकते हैं।

— कोरी बल्लू
स्रोत

5

ftp://mirrors.pglaf.org/mirrors/gutenberg-iso में कुछ अच्छे विकल्प हैं।

ftp https://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso एक 8GB की फाइल है जो आपकी जरूरतों के लिए पर्याप्त होनी चाहिए।

यहाँ अधिक जानकारी है:

https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , यह FTP और BitTorrent सहित संग्रह को डाउनलोड करने के सभी विकल्प देता है।

— डेविड एरापिएटन
स्रोत

1

मैं एक अधिक नैतिक विकल्प (उसी तीसरे लिंक के रूप में एक ही पृष्ठ पर) के रूप में एक धार का उपयोग करने की सलाह देता हूं: gutenberg.org/wiki/… यह अधिक नैतिक है क्योंकि यह प्रोजेक्ट गुटेनबर्ग के सर्वर पर कम तनाव डालता है। यह शायद तेज और अधिक प्रभावी है, भी। इसके अलावा, वे इसे FTP से अधिक करने की सलाह देते हैं। यदि आप लिनक्स का उपयोग करते हैं, तो ट्रांसमिशन उद्देश्य के लिए एक अच्छा बिट टोरेंट क्लाइंट है। यह आपको केवल उन पुस्तकों को देगा जो 2010 में साइट पर मौजूद थीं, लेकिन यह सबसे अच्छा विकल्प लगता है जब शैडोस्टोर का उत्तर कार्यात्मक नहीं है।

— शूल

3

एक अन्य विकल्प http://pgiso.pglaf.org/ पर महान उपकरण है ।

एक आईडी रेंज (जैसे 1-10000) दर्ज करें
इच्छित फ़ाइल प्रकारों का चयन करें
उन भाषाओं को चुनें जिन्हें आप शामिल करना चाहते हैं
अधिसूचना के लिए प्रतीक्षा करें
डाउनलोड

— shadowhorst
स्रोत

2

मेरे लिए काम नहीं कर रहा है, मैं केवल कच्ची php देख सकता हूं

— अर्नेस्ट

-4

क्यों नहीं, अपने सभी ओवर-कॉम्प्लेक्स का उपयोग करें और प्रोग्रामिंग कौशल और ज्ञान से ऊपर दिखाया गया है ताकि एक साधारण बटन बनाया जा सके जो उन सभी क्रियाओं को जोड़ता है और कहता है "डाउनलोड ऑल करेंट बुक्स" जब आप इसे क्लिक करते हैं तो भाषा विकल्प टैब।

मुझे यकीन है कि साइट पर आने वाले अधिकांश उपयोगकर्ता ई-बुक कलेक्टर हैं, और उन विषयों पर कुछ पुस्तकों को डाउनलोड करने के लिए मैन्युअल हैं जो उन्हें रुचि रखते हैं 1 या 2 पुस्तकों के लिए ठीक है। लेकिन मैन्युअल रूप से एक बड़ा संग्रह बनाना एक खींचें है। फिर भी अगर उन्हें शोध के लिए इसकी आवश्यकता है या बस अपने स्वयं के पीसी पर पुस्तकों की एक विशाल डिजिटल लाइब्रेरी का मालिक बनना चाहते हैं। अधिकांश लोगों को बंद कर दिया जाता है और साइट से दूर भेज दिया जाता है जब उन्हें पता चलता है कि उन्हें ऐसा करने के लिए एक कंप्यूटर विज़ार्ड होना चाहिए। तो "सभी करंट बुक्स डाउनलोड करें" बटन से परियोजना और उसके उपयोगकर्ताओं को लाभ होगा, और यह निश्चित रूप से उत्पादन करेगा साइट पर और भी अधिक आगंतुक। तो इस तरह हर कोई खुश है।

— इवान स्टोजानोवस्की
स्रोत