स्पाइडर / वेबसाइट क्रॉल करें और CSV फ़ाइल में प्रत्येक URL और पृष्ठ शीर्षक प्राप्त करें


1

मैं एक पुराने ASP शॉपिंग कार्ट साइट से एक Drupal / Ubercart साइट पर जा रहा हूं। इस कदम का एक हिस्सा यह सुनिश्चित करना है कि पुराने लिंक नए लोगों को पुनर्निर्देशित करेंगे। ऐसा करने के लिए मुझे पुरानी साइट से सभी लिंक की सूची प्राप्त करने के लिए किसी तरह की आवश्यकता है।

अधिमानतः परिणाम पृष्ठ का शीर्षक होगा और आदर्श रूप से मैं इसे पृष्ठ से अन्य डेटा (उदाहरण के लिए एक सीएसएस चयनकर्ता) को वापस करने का कोई तरीका दे सकता था।

मैं पसंद करूंगा अगर यह ओएस एक्स में था, लेकिन मैं विंडोज ऐप भी इस्तेमाल कर सकता हूं।

मैंने वफ़ादारी की कोशिश की है , लेकिन यह उत्पादन लगभग असंभव है, प्लस यह अच्छी तरह से काम नहीं करता है।


आर, इसे संभाल सकते हैं। लेकिन मुझे यकीन नहीं है कि इसे पूरी वेबसाइट के लिए कैसे किया जाए। यहां एक पृष्ठ को पार्स करने का एक उदाहरण है: stackoverflow.com/questions/3746256/…
ब्रैंडन बर्टेल्सन

जवाबों:


0

यदि आपको पर्ल स्क्रिप्ट लिखने में कोई आपत्ति नहीं है ...

यह मॉड्यूल एक रोबोट या अन्य वेब एजेंट के लिए एक विन्यास योग्य वेब ट्रैवर्सल इंजन को लागू करता है। एक प्रारंभिक वेब पेज (URL) को देखते हुए, रोबोट को उस पेज की सामग्री मिल जाएगी, और पृष्ठ के सभी लिंक निकालने के लिए, उन्हें विज़िट करने के लिए URL की सूची में जोड़ देगा।


मैं पर्ल के साथ भयानक हूँ, और मैं CPAN = p
Tyler Clendenin
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.