जवाबों:
हमारे पेज पर रोबोट के बारे में जानकारी के अनुसार :
हमारी साइट पर रोबोट की पहुंच को अंतिम संसाधन के रूप में छोड़ दिया जाना चाहिए, जब बाकी सब कुछ विफल हो गया हो। यह भी याद रखें कि प्रोजेक्ट गुटेनबर्ग वेब साइट कॉपीराइट है।
हालांकि, वहाँ आशा है :
बेहतर विकल्प
- प्रोजेक्ट गुटेनबर्ग वेब साइट का एक ऑफ़लाइन संस्करण प्राप्त करें।
- सभी प्रोजेक्ट गुटेनबर्ग ईबुक फाइलें प्राप्त करें।
- प्रोजेक्ट गुटेनबर्ग कैटलॉग डेटा प्राप्त करें।
तथा:
[...] आप http://www.gutenberg.org/robot/harvest पर अपने रोबोट को इंगित करके ज़िपित फ़ाइलों में हमारे सभी ई-बुक्स प्राप्त कर सकते हैं
[...] जिप फाइलों को अनपैक करने से एक और 70,000 फाइलों का उत्पादन होगा।
यह एक उदाहरण है कि सभी फ़ाइलों का उपयोग कैसे किया जाए
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] यदि आप केवल कुछ प्रकार की फाइलें कहते हैं:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] यदि आप किसी दी गई भाषा में केवल फाइलें कहना चाहते हैं:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
तो, मैं चाहता हूँ:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
। लेकिन मुझे लगता है कि आप बेहतर तरीके से गर्भपात और पुनः आरंभ करने की अनुमति देते हैं: कोशिश करें --level 9999 --no-clobber
, जो आपके पास पहले से मौजूद फाइलों को छोड़ देगा (यह मानते हुए कि आप अभी भी डिस्क के साथ उसी फ़ोल्डर में हैं)।
--input-file
मैनुअल में देखें ।
-c
विकल्प का उपयोग किया था , लेकिन फिर भी। मैंने offset=xxx
URL को मिरर किए जाने के लिए दिया था लेकिन फिर भी यह पहले पेज से डाउनलोड हो रहा है।
आप एक एकल ZIM फ़ाइल में अंग्रेजी पुस्तकों और अन्य भाषाओं के पूरे गुटेनबर्ग संग्रह को डाउनलोड कर सकते हैं , जो अत्यधिक संकुचित है और फिर इसे डेस्कटॉप और एंड्रॉइड दोनों पर कीविक्स के साथ खोला जा सकता है। अंग्रेजी की किताबें 40 जीबी हैं।
जबकि चयनित उत्तर सही है, यह संभावित रूप से दो समस्याओं का कारण होगा:
wget
यह एक बाहरी दर्पण से फ़ाइलों को डाउनलोड करने पर पुनरावर्ती जाँच विफल हो जाएगी।नीचे दिया गया समाधान इन समस्याओं को हल करता है:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
आप थोड़ा यादृच्छिकता प्रदान करने के लिए रेफ़र और उपयोगकर्ता-एजेंट स्ट्रिंग्स को बदलना चाह सकते हैं।
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso में कुछ अच्छे विकल्प हैं।
ftp https://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso एक 8GB की फाइल है जो आपकी जरूरतों के लिए पर्याप्त होनी चाहिए।
यहाँ अधिक जानकारी है:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , यह FTP और BitTorrent सहित संग्रह को डाउनलोड करने के सभी विकल्प देता है।
एक अन्य विकल्प http://pgiso.pglaf.org/ पर महान उपकरण है ।
क्यों नहीं, अपने सभी ओवर-कॉम्प्लेक्स का उपयोग करें और प्रोग्रामिंग कौशल और ज्ञान से ऊपर दिखाया गया है ताकि एक साधारण बटन बनाया जा सके जो उन सभी क्रियाओं को जोड़ता है और कहता है "डाउनलोड ऑल करेंट बुक्स" जब आप इसे क्लिक करते हैं तो भाषा विकल्प टैब।
मुझे यकीन है कि साइट पर आने वाले अधिकांश उपयोगकर्ता ई-बुक कलेक्टर हैं, और उन विषयों पर कुछ पुस्तकों को डाउनलोड करने के लिए मैन्युअल हैं जो उन्हें रुचि रखते हैं 1 या 2 पुस्तकों के लिए ठीक है। लेकिन मैन्युअल रूप से एक बड़ा संग्रह बनाना एक खींचें है। फिर भी अगर उन्हें शोध के लिए इसकी आवश्यकता है या बस अपने स्वयं के पीसी पर पुस्तकों की एक विशाल डिजिटल लाइब्रेरी का मालिक बनना चाहते हैं। अधिकांश लोगों को बंद कर दिया जाता है और साइट से दूर भेज दिया जाता है जब उन्हें पता चलता है कि उन्हें ऐसा करने के लिए एक कंप्यूटर विज़ार्ड होना चाहिए। तो "सभी करंट बुक्स डाउनलोड करें" बटन से परियोजना और उसके उपयोगकर्ताओं को लाभ होगा, और यह निश्चित रूप से उत्पादन करेगा साइट पर और भी अधिक आगंतुक। तो इस तरह हर कोई खुश है।