किसी साइट से URL की सूची प्राप्त करें [बंद]


96

मैं एक ग्राहक के लिए एक प्रतिस्थापन साइट तैनात कर रहा हूं, लेकिन वे अपने सभी पुराने पृष्ठों को 404 में समाप्त नहीं करना चाहते हैं। पुराने URL संरचना को रखना संभव नहीं था क्योंकि यह गुप्त था।

इसलिए मैं एक 404 हैंडलर लिख रहा हूं, जिसे एक पुराने पेज के लिए अनुरोध किया जाना चाहिए और नए पेज पर एक स्थायी रीडायरेक्ट करना चाहिए। समस्या यह है, मुझे सभी पुराने पृष्ठ URL की सूची चाहिए।

मैं मैन्युअल रूप से ऐसा कर सकता था, लेकिन मुझे इसमें कोई दिलचस्पी होगी अगर कोई ऐप हो जो मुझे रिश्तेदार की सूची प्रदान करे (जैसे: / पेज / पाथ, न कि http: /.../ पेज / पाथ) URL सिर्फ घर दिया पृष्ठ। एक मकड़ी की तरह लेकिन एक है जो गहरी पृष्ठों को खोजने के अलावा अन्य सामग्री के बारे में परवाह नहीं करता है।


जवाबों:


65

मुझे अपने सवाल का जवाब देने का मतलब नहीं था, लेकिन मैंने सिर्फ एक साइटमैप जनरेटर चलाने के बारे में सोचा। पहले मैंने पाया कि http://www.xml-sitemaps.com में एक अच्छा टेक्स्ट आउटपुट है। मेरी जरूरतों के लिए बिल्कुल सही।


लेकिन 5000 लिंक की सीमा है! .. :( मैं किसी भी मुफ्त php साइटमैप जनरेटर स्क्रिप्ट की तलाश कर रहा हूं।
Jenson M John

13
वर्तमान सीमा 500 है - छोटी हो रही है ...
ओली स्टडहोल्मे

मेरे लिए यह त्रुटिपूर्ण है: ::::::: कोई त्रुटि आई है URL निर्दिष्ट करते समय कोई त्रुटि आई: 159.121.ssss कृपया सही वेबसाइट URL निर्दिष्ट करना सुनिश्चित करें और आपके अनुरोध को पुनः सबमिट करें।
JustJohn

FYI करें: यदि आप फ्रंटएंड रूटिंग का उपयोग कर रहे हैं, तो आपको इस विधि से वे मार्ग नहीं मिलेंगे।
jasonleonhard

FYI करें: यदि वेबसाइट प्रमाणीकरण और / या प्राधिकरण का उपयोग करती है तो आपको सभी मार्ग नहीं मिलेंगे।
जस्सोनलहार्ड

47

करना wget -r -l0 www.oldsite.com

तो बस find www.oldsite.comसभी यूआरएल को प्रकट करेंगे, मुझे विश्वास है।

वैकल्पिक रूप से, बस हर 404 अनुरोध पर उस कस्टम नहीं-पाया पृष्ठ की सेवा करें! यानी अगर किसी ने गलत लिंक का इस्तेमाल किया है, तो वह पेज को बताएगा कि पेज नहीं मिला है, और साइट की सामग्री के बारे में कुछ संकेत दे रहा है।


16
विशेष रूप से, चूंकि यह फ़ाइलों की सूची देता है , न कि URL, यह केवल उन साइटों के लिए काम करेगा जो स्थैतिक HTML फ़ाइलों का संग्रह हैं। यदि साइट में URL क्वेरी पैरामीटर, सर्वर-साइड फिर से लिखे गए URL, या किसी प्रकार का include/ require/ आदि है। पृष्ठों का संयोजन, यह वास्तव में काम नहीं करेगा।
टीजे शुक

मुझे गलतफहमी हो सकती है। मैंने सोचा था कि 'wget' साइट की सामग्री को डाउनलोड करने के लिए था?
कॉस्मिक हॉक

@Doomsy हाँ, लेकिन जब आपने वह सभी सामग्री डाउनलोड कर ली है जो आप निश्चित रूप से उस सामग्री के सभी URL को जानते हैं, और डाउनलोड किए बिना URL का पता लगाने का कोई तरीका नहीं है।
आलमार

1
डिफ़ॉल्ट गहराई पर विचार करें। gnu.org/software/wget/manual/html_node/…
PJ Brunet

1
@alamar हाँ वहाँ "-r inf" के लिए अनंत पुनरावर्तन है, लेकिन मैं लोगों को प्रलेखन की जाँच करने की सलाह देता हूँ - इतने सारे शांत विकल्प! "-M" विकल्प दर्पण होगा और मैं "-R.jpg, .jpeg, .gif, .png" कोशिश करने जा रहा हूं, जो मुझे लगता है कि चित्र खींचता है।
पीजे ब्रुनेट

24

यहाँ साइटमैप जनरेटरों की सूची दी गई है (जिससे आप साइट से URL की सूची प्राप्त कर सकते हैं): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

वेब साइटमैप जेनरेटर

एक्सएमएल साइटमैप प्रारूप में फ़ाइलों को उत्पन्न करने या बनाए रखने वाले उपकरणों के लिंक निम्नलिखित हैं, साइटमैप पर परिभाषित एक खुला मानक और खोज इंजन जैसे कि आस्क, गूगल, माइक्रोसॉफ्ट लाइव सर्च और याहू द्वारा समर्थित है। साइटमैप फ़ाइलों में आम तौर पर इन URL के कुछ मेटा-डेटा के साथ एक वेबसाइट पर URL का संग्रह होता है। निम्न उपकरण आम तौर पर "वेब-टाइप" XML साइटमैप और URL-सूची फ़ाइलों को उत्पन्न करते हैं (कुछ अन्य स्वरूपों का समर्थन भी कर सकते हैं)।

कृपया ध्यान दें: Google ने इस साइट पर सूचीबद्ध तीसरे पक्ष के सॉफ़्टवेयर की सुविधाओं या सुरक्षा का परीक्षण या सत्यापन नहीं किया है। कृपया सॉफ़्टवेयर से संबंधित किसी भी प्रश्न को सॉफ़्टवेयर के लेखक को निर्देशित करें। हमें उम्मीद है कि आप इन उपकरणों का आनंद लेंगे!

सर्वर-साइड प्रोग्राम

  • एनारियन phpSitemapsNG (PHP)
  • Google साइटमैप जेनरेटर (लिनक्स / विंडोज, 32/64 बिट, ओपन-सोर्स)
  • Outil en PHP (फ्रेंच, पीएचपी)
  • पर्ल साइटमैप जेनरेटर (पर्ल)
  • पायथन साइटमैप जेनरेटर (पायथन)
  • सरल साइटमैप (PHP)
  • साइटमैप XML डायनामिक साइटमैप जनरेटर (PHP) $
  • OS / 2 (REXX- स्क्रिप्ट) के लिए साइटमैप जनरेटर
  • XML साइटमैप जेनरेटर (PHP) $

सीएमएस और अन्य प्लगइन्स:

  • ASP.NET - साइटमैप। नेट
  • DotClear (स्पेनिश)
  • DotClear (2)
  • Drupal
  • ECommerce टेम्पलेट्स (PHP) $
  • ईकॉमर्स टेम्प्लेट (PHP या ASP) $
  • LifeType
  • मीडियाविकि साइटमैप जनरेटर
  • mnoGoSearch
  • OS वाणिज्य
  • phpWebSite
  • प्लोन
  • Rapidweaver
  • Textpattern
  • vBulletin
  • विकी विकी (PHP)
  • वर्डप्रेस

डाउनलोड करने योग्य उपकरण

  • GSiteCrawler (विंडोज)
  • GWebCrawler और साइटमैप निर्माता (Windows)
  • जी-मैपर (विंडोज)
  • इंस्पाइडर साइटमैप निर्माता (विंडोज) $
  • IntelliMapper (विंडोज) $
  • Microsys A1 साइटमैप जेनरेटर (विंडोज) $
  • क्रोध Google साइटमैप ऑटोमेटर $ (OS-X)
  • चीखना मेंढक एसईओ स्पाइडर और साइटमैप जनरेटर (विंडोज / मैक) $
  • साइट मैप प्रो (विंडोज) $
  • साइटमैप लेखक (विंडोज) $
  • DevIntelligence (विंडोज) द्वारा साइटमैप जेनरेटर
  • सोर्रोमान्स साइटमैप टूल (विंडोज)
  • TheSiteMapper (विंडोज) $
  • विगोस जीसैटमैप (विंडोज)
  • विज़ुअल एसईओ स्टूडियो (विंडोज)
  • WebDesignPros साइटमैप जेनरेटर (जावा वेबस्टार्ट एप्लिकेशन)
  • वेबलाइट (विंडोज / मैक) $
  • WonderWebWare साइटमैप जेनरेटर (विंडोज)

ऑनलाइन जेनरेटर / सेवाएं

  • AuditMyPc.com साइटमैप जेनरेटर
  • AutoMapIt
  • ऑटोसिटेमैप $
  • एनारियन phpSitemapsNG
  • फ्री साइटमैप जेनरेटर
  • Neuroticweb.com साइटमैप जेनरेटर
  • ROR साइटमैप जेनरेटर
  • ScriptSocket साइटमैप जेनरेटर
  • SeoUtility साइटमैप जेनरेटर (इतालवी)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • स्मार्ट- IT- परामर्श Google साइटमैप XML सत्यापनकर्ता
  • XML साइटमैप जेनरेटर
  • XML- साइटमैप जेनरेटर

एकीकृत साइटमैप जनरेटर के साथ सीएमएस

  • Concrete5

Google समाचार साइटमैप जेनरेटर निम्न प्लगइन्स प्रकाशकों को Google समाचार साइटमैप फ़ाइलों को अपडेट करने की अनुमति देते हैं, जो कि साइटमैप के एक संस्करण है। साइटमैप फ़ाइलों के सामान्य गुणों के अलावा, Google समाचार साइटमैप प्रकाशकों को व्यक्तिगत लेखों के लिए पहुँच के स्तर को निर्दिष्ट करने के साथ, उनके द्वारा प्रकाशित सामग्री के प्रकारों का वर्णन करने की अनुमति देते हैं। Google समाचार के बारे में अधिक जानकारी हमारे सहायता केंद्र और सहायता फ़ोरम में देखी जा सकती है।

  • वर्डप्रेस Google समाचार प्लगइन

कोड स्निपेट / पुस्तकालय

  • एएसपी लिपि
  • Emacs लिस्प लिपि
  • जावा पुस्तकालय
  • पर्ल स्क्रिप्ट
  • PHP वर्ग
  • PHP जनरेटर स्क्रिप्ट

यदि आप मानते हैं कि किसी वैध कारण के लिए एक उपकरण जोड़ा या हटाया जाना चाहिए, तो कृपया वेबमास्टर सहायता फोरम में एक टिप्पणी छोड़ दें।


क्या कोई ऐसा है जो सभी यूआरएल से एक प्रिंटस्क्रीन प्रदान करता है?
वल्रोब

6

मैंने पाया सबसे अच्छा है http://www.auditmypc.com/xml-sitemap.asp जो जावा का उपयोग करता है, और पृष्ठों पर इसकी कोई सीमा नहीं है, और यहां तक ​​कि आप कच्चे URL सूची के रूप में परिणामों को निर्यात करने की अनुमति देते हैं।

यह सत्रों का भी उपयोग करता है, इसलिए यदि आप CMS का उपयोग कर रहे हैं, तो सुनिश्चित करें कि आप क्रॉल चलाने से पहले लॉग आउट कर चुके हैं।


3
अच्छा लग रहा था, लेकिन यह टूट गया है।
नोबिशप्रो

2

इसलिए, एक आदर्श दुनिया में आपके पास अपनी साइट के सभी पृष्ठों के लिए एक युक्ति होगी। आपके पास एक परीक्षण अवसंरचना भी होगी जो आपके सभी पृष्ठों को हिट कर सकती है।

आप संभवतः एक आदर्श दुनिया में नहीं हैं। ऐसा क्यों नहीं करते ...?

  1. प्रसिद्ध पुराने URL और नए लोगों के बीच एक मानचित्रण बनाएं। जब आप एक पुराना URL देखते हैं तो पुनर्निर्देशित करें। मैं संभवतः "इस पृष्ठ को ले जाया गया है, पेश करने पर विचार करेंगे, यह नया url XXX है, आपको शीघ्र ही पुनर्निर्देशित किया जाएगा"।

  2. यदि आपके पास कोई मैपिंग नहीं है, तो "क्षमा करें - यह पृष्ठ स्थानांतरित हो गया है। यहां होम पेज पर एक लिंक दिया गया है" संदेश और यदि वे चाहें तो उन्हें पुनर्निर्देशित करें।

  3. सभी रीडायरेक्ट लॉग करें - विशेष रूप से बिना मैपिंग वाले। समय के साथ, उन पृष्ठों के लिए मैपिंग जोड़ें जो महत्वपूर्ण हैं।



0

एक मकड़ी लिखो जो डिस्क से प्रत्येक html में पढ़ती है और एक "ए" तत्व के हर "href" विशेषता को आउटपुट करती है (एक पार्सर के साथ किया जा सकता है)। ध्यान रखें कि कौन से लिंक एक निश्चित पृष्ठ से संबंधित हैं (यह मल्टीपावर डेटास्ट्रक्चर के लिए सामान्य कार्य है)। इसके बाद आप एक मैपिंग फ़ाइल का उत्पादन कर सकते हैं जो 404 हैंडलर के इनपुट के रूप में कार्य करता है।


0

मैं ऑनलाइन साइटमैप जनरेशन टूल्स की किसी भी संख्या को देखूंगा। व्यक्तिगत रूप से, मैंने अतीत में इस एक (जावा आधारित) का उपयोग किया है, लेकिन यदि आप "साइटमैप बिल्डर" के लिए एक Google खोज करते हैं तो मुझे यकीन है कि आपको बहुत सारे विभिन्न विकल्प मिलेंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.