मापदंडों के साथ लिंक के बिना wget के साथ कैसे डाउनलोड करें


11

मैं एक सीडी में शामिल करने के लिए दो साइटों को डाउनलोड करने की कोशिश कर रहा हूं:

http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info

मुझे जो समस्या हो रही है, वह यह है कि ये दोनों विकी हैं। इसलिए जब उदाहरण के लिए डाउनलोड करें:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/

मुझे बहुत सारी फाइलें मिलती हैं क्योंकि यह भी लिंक की तरह है ...? क्रिया = संपादित करें ...? क्रिया = अंतर और संस्करण = ...

क्या किसी को इसके चारों ओर जाने का रास्ता पता है?

मुझे बस वर्तमान पृष्ठ चाहिए, बिना छवियों के, और बिना अंतर के आदि।

पुनश्च:

wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex

यह बर्कले के लिए काम करता है लेकिन boinc-wiki.info अभी भी मुझे परेशान कर रहा है: /

पी पी एस:

मुझे वह मिला जो सबसे अधिक प्रासंगिक पृष्ठों के साथ दिखाई देता है:

wget -r -k -nv  -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info

सुपरयुसर और सर्वरफॉल्ट सर्वरफॉल्ट.
ब्रायन

मुझे इसे कहां पोस्ट करना चाहिए था?
टाई-फाइटर

यह सही जगह है। यह एक सर्वर सवाल नहीं है।
डेविड जेड

फिर भी मुझे सर्वरफॉल्ट पर बेहतर जवाब मिला;)
टाई-फाइटर

जवाबों:


5

Wget का नया संस्करण (v.1.14) इन सभी समस्याओं को हल करता है।

--reject-regex=....क्वेरी स्ट्रिंग्स को हैंडल करने के लिए आपको नए विकल्प का उपयोग करना होगा ।

ध्यान दें कि मुझे नया मैनुअल नहीं मिला है जिसमें ये नए विकल्प शामिल हैं, इसलिए आपको सहायता कमांड का उपयोग करना होगा wget --help > help.txt


4
wget --reject-regex '(.*)\?(.*)' http://example.com

( --reject-type posixडिफ़ॉल्ट रूप से)। wgetअन्य टिप्पणियों के अनुसार, हालांकि, हाल के (> = 1.14) संस्करणों के लिए ही काम करता है ।

खबरदार कि ऐसा लगता है कि आप --reject-regexप्रति wgetकॉल केवल एक बार उपयोग कर सकते हैं । |यदि आपको कई regex पर चयन करना है, तो आपको एकल रेगेक्स में उपयोग करना होगा:

wget --reject-regex 'expr1|expr2|…' http://example.com

संस्करण की आवश्यकता के बारे में सच हो सकता है। मेरे पास v1.12 था और विकल्प मान्य नहीं था। V1.15 में अपग्रेड होने के बाद यह था।
यूएनजेन

|"(पाइप") प्रतीक का उपयोग करके रेगेक्स अल्टरनेशन मेरे लिए GNU Wget 1.16 के साथ काम नहीं कर रहा है।
sampablokuper

0
wget -R "*?action=*"

यह कुछ भी शामिल नहीं है जो ?action=इसके नाम में शामिल है।


3
"नोट, भी, कि क्वेरी स्ट्रिंग (एक प्रश्न चिह्न ('?') के साथ शुरू URL के अंत में तार स्वीकार / अस्वीकार नियमों के लिए फ़ाइल नाम के हिस्से के रूप में शामिल नहीं हैं, भले ही ये वास्तव में चुने गए नाम में योगदान करेंगे स्थानीय फ़ाइल के लिए। यह उम्मीद की जाती है कि Wget का एक भावी संस्करण क्वेरी स्ट्रिंग्स के खिलाफ मिलान की अनुमति देने का एक विकल्प प्रदान करेगा। "
टाई-फाइटर

हम्म, मैं वह याद किया होगा। ऐसा लगता है कि आप इसे wget के साथ नहीं कर सकते हैं, अगर यह भी नहीं पता है कि वे अलग-अलग फाइलें हैं। मैं एक अलग कार्यक्रम का सुझाव देता हूं।
Daisetsu

-3

मैं कहूंगा कि सार्वजनिक विकी साइट को लीच करना बुरा व्यवहार है, क्योंकि यह इस पर अतिरिक्त भार डालता है।

यदि कोई विकी सार्वजनिक है और साइट के मालिकों को सामग्री साझा करने में कोई आपत्ति नहीं है, तो वे आमतौर पर डाउनलोड करने योग्य बैकएंड (डेटाबेस या जो भी) डंप प्रदान करते हैं। तो आप बस डेटा पैक डाउनलोड करेंगे, एक ही विकि इंजन का एक स्थानीय उदाहरण सेट करेंगे, उसमें डेटा आयात करेंगे और एक स्थानीय कॉपी रखेंगे। उसके बाद, यदि आप चाहें, तो आप स्थानीय स्तर पर लीचिंग कर सकते हैं।


वहाँ -w सेकंड है। जैसे -w 5. gnu.org/software/wget/manual/html_node/…
barlop
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.