गुटेनबर्ग से सभी अंग्रेजी किताबें कैसे डाउनलोड करें?


23

मुझे सभी गुटेनबर्ग ई-बुक्स, सादे पाठ प्रारूप (html नहीं) और केवल अंग्रेजी भाषा में डाउनलोड करने की आवश्यकता है।

किसी के पास सुझाव है कि उन सभी को गुटेनबर्ग सर्वर से कैसे डाउनलोड करें?

मुझे भाषाई शोध करने के लिए उनकी आवश्यकता है।

जवाबों:


32

हमारे पेज पर रोबोट के बारे में जानकारी के अनुसार :

हमारी साइट पर रोबोट की पहुंच को अंतिम संसाधन के रूप में छोड़ दिया जाना चाहिए, जब बाकी सब कुछ विफल हो गया हो। यह भी याद रखें कि प्रोजेक्ट गुटेनबर्ग वेब साइट कॉपीराइट है।

हालांकि, वहाँ आशा है :

बेहतर विकल्प

  • प्रोजेक्ट गुटेनबर्ग वेब साइट का एक ऑफ़लाइन संस्करण प्राप्त करें।
  • सभी प्रोजेक्ट गुटेनबर्ग ईबुक फाइलें प्राप्त करें।
  • प्रोजेक्ट गुटेनबर्ग कैटलॉग डेटा प्राप्त करें।

तथा:

[...] आप http://www.gutenberg.org/robot/harvest पर अपने रोबोट को इंगित करके ज़िपित फ़ाइलों में हमारे सभी ई-बुक्स प्राप्त कर सकते हैं

[...] जिप फाइलों को अनपैक करने से एक और 70,000 फाइलों का उत्पादन होगा।

यह एक उदाहरण है कि सभी फ़ाइलों का उपयोग कैसे किया जाए wget:

wget -w 2 -m http://www.gutenberg.org/robot/harvest

[...] यदि आप केवल कुछ प्रकार की फाइलें कहते हैं:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt

[...] यदि आप किसी दी गई भाषा में केवल फाइलें कहना चाहते हैं:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de

तो, मैं चाहता हूँ:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en

क्या रेंगने के दौरान डाउनलोड की जाने वाली फ़ाइलों की संख्या को सीमित करने का तरीका बताने का एक तरीका है (उदाहरण के लिए पहले 100 पाठ की फाइलें इसका सामना करती हैं)?
रोहनचक

इसके अलावा, जब हमारे पास एक टेक्स्ट फ़ाइल में कई लिंक होते हैं (निरपेक्ष uri, " gutenberg.org/files/1.zip , gutenberg.org/files/2.zip " कहते हैं, तो ऐसी टेक्स्ट फ़ाइल प्रदान करने के लिए कौन से पैरामीटर का उपयोग किया जाता है? ? wget के लिए डाउनलोड लिंक की एक संख्या के रूप में
EugeneP

@rohanbk, आप देख सकते URL को देखने ब्राउज़िंग तरह से क्या डाउनलोड किया जाएगा gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en यह पता चलता है कि यह वास्तव में पृष्ठवार है, लेकिन प्रति पृष्ठ फ़ाइलों की संख्या स्थिर नहीं है । (शायद आकार के आधार पर?) इसलिए, पुनरावृत्ति नहीं करने के लिए , विग मैनुअल के अनुसार , आप कोशिश कर सकते हैं --level=0। लेकिन मुझे लगता है कि आप बेहतर तरीके से गर्भपात और पुनः आरंभ करने की अनुमति देते हैं: कोशिश करें --level 9999 --no-clobber, जो आपके पास पहले से मौजूद फाइलों को छोड़ देगा (यह मानते हुए कि आप अभी भी डिस्क के साथ उसी फ़ोल्डर में हैं)।
अर्जन

1
@ यूजीनपी, --input-file मैनुअल में देखें ।
अर्जन

@ अर्जन क्या डाउनलोड की शुरुआत में ऑफसेट निर्दिष्ट करने का एक तरीका है? कुछ कारणों से मेरी डाउनलोडिंग बाधित हुई और अब पहले पेज से ही फाइलों की जाँच शुरू हो गई है। मैंने -cविकल्प का उपयोग किया था , लेकिन फिर भी। मैंने offset=xxxURL को मिरर किए जाने के लिए दिया था लेकिन फिर भी यह पहले पेज से डाउनलोड हो रहा है।
user13107

7

आप एक एकल ZIM फ़ाइल में अंग्रेजी पुस्तकों और अन्य भाषाओं के पूरे गुटेनबर्ग संग्रह को डाउनलोड कर सकते हैं , जो अत्यधिक संकुचित है और फिर इसे डेस्कटॉप और एंड्रॉइड दोनों पर कीविक्स के साथ खोला जा सकता है। अंग्रेजी की किताबें 40 जीबी हैं।


कीवीक्स के लिए कोई लिनक्स क्लाइंट
एक्वाग्रेमलिन

@aquagremlin उह? kiwix.org/wiki/Software#GNU.2FLinux यह कुछ विकृतियों में भी पैक है।
निमो

2
माफ़ कीजिये। कोई नींद नहीं और बड़े बटन के नीचे 'अन्य सिस्टम' नहीं दिखते।
एक्वाग्रेमलिन

क्या यह txt प्रारूप पुस्तक है?

@ मुझे यकीन नहीं है कि आपका क्या मतलब है। यह HTML में पाठ + चित्र है, EPUB या अन्य के बजाय ZIM में पैक किया गया है। यदि आप चाहें तो आप इसमें से सादा पाठ प्राप्त कर सकते हैं, लेकिन मेरा उत्तर ज्यादातर उन लोगों के लिए है जो प्रारूपित पुस्तकें आदि पसंद करते हैं
निमो

6

जबकि चयनित उत्तर सही है, यह संभावित रूप से दो समस्याओं का कारण होगा:

  1. आप एक बॉट के रूप में डाउनलोड किए जा रहे अनुमान के तहत पेजिनेशन तक पहुंच से इनकार करते हुए 403 त्रुटि प्राप्त कर सकते हैं
  2. वहाँ संभावित है कि आप एक बाहरी दर्पण के लिए भेजा जाएगा, जिसका अर्थ है कि wgetयह एक बाहरी दर्पण से फ़ाइलों को डाउनलोड करने पर पुनरावर्ती जाँच विफल हो जाएगी।

नीचे दिया गया समाधान इन समस्याओं को हल करता है:

wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"

आप थोड़ा यादृच्छिकता प्रदान करने के लिए रेफ़र और उपयोगकर्ता-एजेंट स्ट्रिंग्स को बदलना चाह सकते हैं।


5

ftp://mirrors.pglaf.org/mirrors/gutenberg-iso में कुछ अच्छे विकल्प हैं।

ftp https://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso एक 8GB की फाइल है जो आपकी जरूरतों के लिए पर्याप्त होनी चाहिए।

यहाँ अधिक जानकारी है:

https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , यह FTP और BitTorrent सहित संग्रह को डाउनलोड करने के सभी विकल्प देता है।


1
मैं एक अधिक नैतिक विकल्प (उसी तीसरे लिंक के रूप में एक ही पृष्ठ पर) के रूप में एक धार का उपयोग करने की सलाह देता हूं: gutenberg.org/wiki/… यह अधिक नैतिक है क्योंकि यह प्रोजेक्ट गुटेनबर्ग के सर्वर पर कम तनाव डालता है। यह शायद तेज और अधिक प्रभावी है, भी। इसके अलावा, वे इसे FTP से अधिक करने की सलाह देते हैं। यदि आप लिनक्स का उपयोग करते हैं, तो ट्रांसमिशन उद्देश्य के लिए एक अच्छा बिट टोरेंट क्लाइंट है। यह आपको केवल उन पुस्तकों को देगा जो 2010 में साइट पर मौजूद थीं, लेकिन यह सबसे अच्छा विकल्प लगता है जब शैडोस्टोर का उत्तर कार्यात्मक नहीं है।
शूल

3

एक अन्य विकल्प http://pgiso.pglaf.org/ पर महान उपकरण है ।

  1. एक आईडी रेंज (जैसे 1-10000) दर्ज करें
  2. इच्छित फ़ाइल प्रकारों का चयन करें
  3. उन भाषाओं को चुनें जिन्हें आप शामिल करना चाहते हैं
  4. अधिसूचना के लिए प्रतीक्षा करें
  5. डाउनलोड

2
मेरे लिए काम नहीं कर रहा है, मैं केवल कच्ची php देख सकता हूं
अर्नेस्ट

-4

क्यों नहीं, अपने सभी ओवर-कॉम्प्लेक्स का उपयोग करें और प्रोग्रामिंग कौशल और ज्ञान से ऊपर दिखाया गया है ताकि एक साधारण बटन बनाया जा सके जो उन सभी क्रियाओं को जोड़ता है और कहता है "डाउनलोड ऑल करेंट बुक्स" जब आप इसे क्लिक करते हैं तो भाषा विकल्प टैब।

मुझे यकीन है कि साइट पर आने वाले अधिकांश उपयोगकर्ता ई-बुक कलेक्टर हैं, और उन विषयों पर कुछ पुस्तकों को डाउनलोड करने के लिए मैन्युअल हैं जो उन्हें रुचि रखते हैं 1 या 2 पुस्तकों के लिए ठीक है। लेकिन मैन्युअल रूप से एक बड़ा संग्रह बनाना एक खींचें है। फिर भी अगर उन्हें शोध के लिए इसकी आवश्यकता है या बस अपने स्वयं के पीसी पर पुस्तकों की एक विशाल डिजिटल लाइब्रेरी का मालिक बनना चाहते हैं। अधिकांश लोगों को बंद कर दिया जाता है और साइट से दूर भेज दिया जाता है जब उन्हें पता चलता है कि उन्हें ऐसा करने के लिए एक कंप्यूटर विज़ार्ड होना चाहिए। तो "सभी करंट बुक्स डाउनलोड करें" बटन से परियोजना और उसके उपयोगकर्ताओं को लाभ होगा, और यह निश्चित रूप से उत्पादन करेगा साइट पर और भी अधिक आगंतुक। तो इस तरह हर कोई खुश है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.