मैं खोज इंजन द्वारा अपने गितुब विकी को कैसे क्रॉल कर सकता हूं? robots.txt इसे मना करता है


9

W3C लिंक चेकर का उपयोग करते समय , मुझे पता चला कि मेरे गितुब विकी को क्रॉल नहीं किया जा सकता है:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
स्थिति: (N / A) robots.txt द्वारा निषिद्ध

यह दुर्भाग्यपूर्ण है, क्योंकि मैं चाहूंगा कि लोग खोज इंजन पर इस विकी को आसानी से खोज सकें।

प्रश्न: मैं अपने गिथब विकी को खोज इंजन द्वारा क्रॉल कैसे कर सकता हूं?
या मैं गलत हूँ और Github के robots.txt वास्तव में ठीक है?


1
मुझे संदेह है कि उत्तर लगभग इसी तरह के प्रश्न में है
जॉन सी।

जवाबों:


9

GitHub robots.txt स्पष्ट रूप से विकी पृष्ठों के क्रॉलिंग को अस्वीकार करता है, उदाहरण के लिए Googlebot अनुभाग में:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

जैसा कि यह साइट-वाइड रोबोट फ़ाइल है, इसके आस-पास कोई भी नहीं है।

यह एक दिलचस्प विकल्प है, क्योंकि GitHub "अपनी परियोजना के बारे में लंबी-फ़ॉर्म सामग्री साझा करने" के लिए एक जगह के रूप में विकिस का वर्णन करता है । चूंकि डिफ़ॉल्ट रूप से सार्वजनिक विकी किसी भी उपयोगकर्ता द्वारा संपादन योग्य हैं, शायद यह स्पैमर्स से भारी हाथ से सुरक्षा है।


0

GitHub विकी इंजनों द्वारा खोजा जा सकता है जो इसका समर्थन करते हैं। Https://github.com/robots.txt की पहली दो पंक्तियाँ देखें :

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

यह संभवत: विभिन्न विकि स्वरूपों आदि को पार्स करने के लिए है।

उदाहरण के लिए Google में "ओपेन-ब्राइन ब्रोकर प्रोटोकॉल" के लिए खोज करें और पहली हिट गिथब प्रोजेक्ट विकी के तहत एक पेज है।


हम्म, इसलिए Google ब्रोकर-प्रोटोकॉल विकि को अनुक्रमित क्यों कर रहा है , न कि ओपी की विकि को?
विदर्भ एस। रामदल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.