एक वेब पेज में सभी पीडीएफ लिंक डाउनलोड करें? [बन्द है]

23

बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है।

इस सवाल में सुधार करना चाहते हैं? प्रश्न अपडेट करें तो यह है -विषय पर सुपर उपयोगकर्ता के लिए।

पिछले साल बंद हुआ ।

क्या आप एक वेब पेज में सभी पीडीएफ लिंक डाउनलोड करने के लिए एक अच्छा सॉफ्टवेयर जानते हैं ??

ऑपरेटिंग सिस्टम विंडोज 7 है।

— मैं पूछता हूँ
स्रोत

36

आप wget का उपयोग कर सकते हैं और इस तरह एक कमांड चला सकते हैं :

wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com

या छोटे विकल्पों के साथ:

wget -r -l 1 -nd -nH -A pdf http://example.com

अद्यतन: चूंकि आपका अपडेट कहता है कि आप विंडोज 7 चला रहे हैं: एक प्रॉम्प्ट से विंडोज के लिए उपयोग करें cmd।

अद्यतन 2: एक ग्राफिकल समाधान के लिए - हालांकि यह ओवरकिल हो सकता है क्योंकि इसे अन्य फाइलें भी मिलती हैं डाउनहैमल

— केविन वर्थिंगटन
स्रोत

धन्यवाद आपकी सलाह के लिए केविन, wget अच्छा लग रहा है, वैसे भी मैं एक 'ग्राफिक' सॉफ्टवेयर, नॉन कमांड लाइन पसंद करूंगा। :)

— iAsk

2

यह प्रारंभिक .html पृष्ठ को भी अस्वीकार करता है। क्या कभी इसका परीक्षण किया गया है?

— dan3

प्रश्न सभी पीडीएफ लिंक डाउनलोड करने के बारे में पूछता है, इसलिए हां, प्रारंभिक। Html पृष्ठ को अनदेखा किया जाएगा।

— केविन वर्थिंगटन

क्या पॉवर शेल का उपयोग करके विंडोज 7 में एक ही काम करने के लिए एक सकारात्मकता है?

— बेनेडिकट बर्टर्ट

1

मैं यह भी सुझाव दूंगा कि फ़ाइल डाउनलोड के बीच कम से कम कुछ सेकंड की देरी से फेंक दिया जाए ताकि यह अच्छा हो और रिमोट सर्वर पर भारी न पड़े। e, g, wget के लिए, -w 5

— KJH

6

अपने ब्राउज़र में, CTRL+ SHIFT+ दबाएं Jऔर दर्ज करें

var pdflinks = []; Array.prototype.map। call (document.querySelectorAll ("[a href $ = \"। pdf \ "]"), फंक्शन (e, i) {if ((pdflinks || [])। indexOf (e.refref == - 1) {pdflinks.push (e.href);}}); कंसोल.लॉग (pdflinks.join (""));

यह कंसोल में वापस आ जाएगा:

" /superuser/tagged/somepdf1.pdf " " /superuser/tagged/somepdf2.pdf " " /superuser/tagged/somepdf3.pdf " "
अब wgetकमांड लाइन विकल्पों के साथ उपयोग करनाwget url1 url2 ...

इसे कॉपी और पेस्ट करें, wgetअपनी क्लिपबोर्ड सामग्री डालने के लिए दायाँ माउस बटन दबाएँ और एंटर दबाएँ।

डाउनलोड फ़ाइल का उपयोग करने के लिए, "\ n" के साथ लाइनों को मिलाएं और निम्नानुसार पैरामीटर का उपयोग करें wget -i mydownload.txt

ध्यान दें कि अधिकांश अन्य (GUI) डाउनलोड प्रोग्राम भी URL की एक अलग सूची के साथ कहे जाने के लिए स्वीकार किए जाते हैं।

उम्मीद है की यह मदद करेगा। ऐसा मैं आमतौर पर करता हूं। यह ग्राफिकल यूआई के साथ किसी भी एक्सटेंशन की तुलना में अधिक तेज और अधिक लचीला है, मुझे सीखना है और इससे परिचित रहना है।

— लोरेंज लो सॉर
स्रोत

1

बेहतर अभी तक, console.log('"' + pdflinks.join('" "') + '"')- अन्यथा आप वास्तव में उद्धृत URL प्राप्त नहीं करते हैं

— dan3

1

यदि आप ब्राउज़र में बने रहना चाहते हैं, तो मैंने इस उद्देश्य के लिए एक वेब एक्सटेंशन लिखा है - मैं विद्वानों के लेख पीडीएफ को ठीक से प्रारूपित शीर्षक के साथ सहेजने की क्षमता जोड़ने पर काम कर रहा हूं, लेकिन अगर आप इसे डाउनलोड करना चाहते हैं, तो यह बिल्कुल सही है इसके लिए।

इसे टैब सेव और क्रोम वेब स्टोर पर कहा जाता है । आपको URL की सूची इनपुट करने की भी आवश्यकता नहीं है यदि आप बस उन सभी को टैब में खोलते हैं (लेकिन बड़ी संख्या में फ़ाइलों के लिए यह एक कंप्यूटर को धीमा कर सकता है तो मैंने आपका खुद को जोड़ने का विकल्प जोड़ा)।

— लुई मैडॉक्स
स्रोत

0

मैंने हाल ही में इसके लिए uGet (विंडोज पर) का इस्तेमाल किया । इसमें एक GUI है, और आप उन फ़ाइलों को फ़िल्टर कर सकते हैं जिन्हें आप डाउनलोड करने का इरादा रखते हैं।

उन सभी को याद करने की कोशिश करता है

— विचारशील
स्रोत

0

Google Chrome पर, जैसे एक्सटेंशन का उपयोग करना संभव है:

मास्टर डाउनलोड करें

इस एक्सटेंशन से आप अपने द्वारा देखे जा रहे वेब पेज पर लिंक की गई सभी छवियों, वीडियो, पीडीएफ, डॉक और किसी भी अन्य फाइल को डाउनलोड कर सकते हैं।

— kenorb
स्रोत

0

गूगल

कुछ पायथन टूल हैं जो Google खोज परिणामों के आधार पर वेबसाइट से पीडीएफ लिंक डाउनलोड करने की अनुमति देते हैं।

उदाहरण के लिए

google_dlस्क्रिप्ट (अनुशंसित)।

उपयोग:
```
./google_dl -s http://www.example.com/ -f pdf ""
```
gsrchDwnस्क्रिप्ट ( नव की स्क्रिप्ट पर आधारित )।

उपयोग:
```
./gsrchDwn.py --query "site:http://www.example.com/" --ftype pdf
```

^{नोट: मैं दोनों उल्लिखित लिपियों का अनुचर हूं।}

ये दोनों xgoogleपायथन लाइब्रेरी को लागू कर रहे हैं । इस लाइब्रेरी का मेरा कांटा pkrumins/xgoogleसंस्करण पर आधारित है ।

संबंधित: लिनक्स कमांड लाइन से एक वेब खोज ।

— kenorb
स्रोत