Google ने हमारे sitemap.xml से पृष्ठों को अनुक्रमित करना क्यों बंद किया?


18

हम कुछ ऐसे पेज देख रहे हैं जो हमारे पास मौजूद हैं, sitemap.xmlलेकिन Google के सार्वजनिक खोज इंडेक्स से बेवजह गायब हैं।

आप /superuser//sitemap.xml डाउनलोड नहीं कर सकते हैं - हम इस फ़ाइल की सुरक्षा करते हैं क्योंकि अतीत में इसके साथ कुछ समस्याएँ रही हैं - लेकिन googlebot कर सकता है। हमने Google वेबमास्टर टूल के माध्यम से सत्यापित किया है कि sitemap.xmlफ़ाइल को आज ही निकाला गया था और बिना किसी त्रुटि (हरे रंग की चेकमार्क) के साथ ओके रेट किया गया है।

वैकल्पिक शब्द

sitemap.xmlकि कहा गया था कि हमारी साइट पर पिछले 50,000 प्रश्नों की एक सूची में शामिल है। उदाहरण के लिए, यह प्रश्न ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... में मौजूद है sitemap.xml...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

"कैसे प्रतीकात्मक लिंक की एक लंबी श्रृंखला के अंत को देखने के लिए " की खोज करने से questionhub.com को केवल एक ही परिणाम मिलता है जो हमारे डेटा (एक पूरी अलग समस्या) को स्क्रैप कर रहा है।

आप प्रश्न संख्या संख्या को बढ़ा सकते हैं और प्रश्न शीर्षक के लिए एक सटीक खोज कर सकते हैं और आप इस पैटर्न को बनाए रखेंगे।

ये यूआरएल साइटमैप Xml में हैं , लेकिन वे Google के सूचकांक में दिखाई नहीं दे रहे हैं - और फिर भी वे उन साइटों पर दिखाई देते हैं जो हमारे रचनात्मक कॉमन्स डेटा को परिमार्जन करते हैं। ऐसा क्यों होगा?


5
आप हमेशा Google वेबमास्टर केंद्रीय फ़ोरम में पूछ सकते हैं। google.com/support/forum/p/Webmasters?hl=en
एलेक्स ब्लैक

कुछ गड़बड़ जरूर है। यह प्रश्न Google में पहले से ही अनुक्रमित है, फिर भी सुपरसियर STILL पर लिंक किया गया प्रश्न सूचकांक में दिखाई नहीं देता है।
माइकल प्रायर

जेफ सिर्फ मैट कट्स से पूछने के बारे में सोच सकते हैं। मैंने उन्हें ट्विटर पर कुछ बार एक-दूसरे से बात करते हुए देखा है। वह आमतौर पर मदद के लिए बहुत तैयार है।
विदुषी मीडिया

3
FWIW वर्तमान में हम कुछ साइटों पर नई सामग्री के अनुक्रमण के साथ कुछ समस्याएँ देख रहे हैं। इस बारे में google.com/support/forum/p/Webmasters/… पर हमारे सहायता फ़ोरम में एक धागा है । आपके द्वारा उल्लिखित URL प्रभावित होता है। मुझे लगता है कि यह शीघ्र ही हल हो जाएगा, लेकिन कोई समय सीमा उपलब्ध नहीं है। आपके धैर्य के लिए धन्यवाद।
जॉन मुलर

1
ऐसा लगता है कि यह अब हल हो गया है :-)। मैंने साइट से कुछ नए प्रश्नों की कोशिश की और वे सभी अनुक्रमित थे। यहाँ प्रारंभ करें
जॉन म्यूलर

जवाबों:


10

ऐसा लगता है कि इस सप्ताह Google को कुछ तकनीकी क्रॉल समस्याएँ हो रही थीं, यह ध्वनि उल्लेखनीय रूप से वैसी ही थी जैसे हम अनुभव कर रहे थे:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

कोई भी Google अनुक्रमण समस्या से प्रतिरक्षा नहीं करता है जो कई साइट मालिकों को चकित करता है। ब्लॉग और वेबसाइट, बड़े और छोटे, को जल्दी से अनुक्रमित नहीं किया जा रहा है क्योंकि वे सामान्य रूप से हैं - यदि उन्हें बिल्कुल अनुक्रमित किया जा रहा है।

...

Google से जॉन ने वेबमास्टर फ़ोरम में थ्रेड को उत्तर दिया:

बस स्पष्ट होने के लिए, इस धागे के मुद्दे, जिनकी मैंने विस्तार से समीक्षा की है, वे हमारी नीतियों में परिवर्तन या हमारे एल्गोरिदम में परिवर्तन के कारण नहीं हैं; वे हमारी तरफ से एक तकनीकी समस्या के कारण हैं जो जल्द से जल्द दृष्टिगत रूप से हल हो जाएंगे (हालांकि सभी साइटों के लिए इसे दिखाई देने में कुछ दिन लग सकते हैं)


7

Google कोई भी प्रस्ताव या गारंटी नहीं देता है कि साइटमैप के पृष्ठों को अनुक्रमित किया जाएगा।

मेरा अनुभव रहा है कि एक पृष्ठ को दिखाने के लिए (कुछ प्राधिकरण के एक पृष्ठ से) लिंक करना होता है। क्या वह पृष्ठ / प्रश्न किसी प्राधिकरण के पृष्ठ से प्रत्यक्ष / अप्रत्यक्ष रूप से जुड़ा हुआ है?

उदाहरण के लिए, अगर superuser.com होमपेज (जिसमें संभवतः कई इनलिंक हैं) सीधे इस प्रश्न से जुड़ा हुआ है, या कई अन्य पृष्ठों के माध्यम से अप्रत्यक्ष रूप से जुड़ा हुआ है, तो आप इसे अनुक्रमित होने की उम्मीद कर सकते हैं।

Google से:

Google गारंटी नहीं देता है कि हम आपके सभी URL को क्रॉल या इंडेक्स करेंगे। हालांकि, हम आपकी साइट की संरचना के बारे में जानने के लिए आपके साइटमैप में डेटा का उपयोग करते हैं, जो हमें अपने क्रॉलर शेड्यूल में सुधार करने और भविष्य में आपकी साइट को क्रॉल करने के लिए एक बेहतर काम करने की अनुमति देगा। अधिकांश मामलों में, साइटमैप प्रस्तुत करने से वेबमास्टर्स को लाभ होगा, और किसी भी मामले में आपको इसके लिए दंडित नहीं किया जाएगा।

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156184


4
सुपरयूज़र के पास पर्याप्त लिंक और पीआर होना चाहिए ताकि उन पृष्ठों को साइटमैप के साथ या बिना अनुक्रमित किया जा सके। और मामूली पृष्ठों को हर समय सूचीबद्ध किया जाता है। वास्तव में वे अधिकांश सूचकांक बनाते हैं। मुझे शक है कि दोषी कुछ और है।
जॉन कोंडे

सहमत, साइट में बहुत सारे पीआर और इनलिंक हैं। लेकिन, क्या एक मौका है कि प्रश्न में पृष्ठ में इनलिंक नहीं है? अगर superuser.com (संयोग से) पेज से लिंक नहीं करता है, तो यह Google को क्या बताता है? यह कहता है कि पृष्ठ महत्वपूर्ण नहीं है।
एलेक्स ब्लैक

2
पृष्ठ निश्चित रूप से सामने वाले पृष्ठ से जुड़ा हुआ था, और कई अन्य पृष्ठों से जुड़ा हुआ है। एसई साइट्स बहुत क्रॉस-लिंक भारी हैं।
केविन Montrose

1
एक बिंदु पर कल एक परीक्षण प्रश्न के लिए मेरी हिट में से एक सुपरसुअर डॉट कॉम होमपेज था - उस पर दिखाई देने वाले लक्ष्य URL के साथ, यहां तक ​​कि Google कैश में भी! और फिर भी प्रश्न को अनुक्रमित नहीं किया गया था। बहुत अजीब।
जेफ एटवुड

2
बिल्कुल - होम पेज पर HOT टैब पर, या WEEKLY या MONTHLY टैब पर क्लिक करें। वहीं ..
जेफ एटवुड

3

मुझे लगता है कि Google आपके वेब पृष्ठों को अनुक्रमित करने में कठिन समय हो सकता है, 50.000 बहुत कुछ है। इसलिए मेरा सुझाव आपके साइटमैप को टुकड़ों में तोड़ देगा

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

यदि आप टूटते हैं तो आपके पास उन 50.000 यूआरएल को अनुक्रमित करने का एक बेहतर भाग्य होगा।

Sitemaps.org मुद्दे की व्याख्या

आप कई साइटमैप फ़ाइलें प्रदान कर सकते हैं, लेकिन आपके द्वारा प्रदान की जाने वाली प्रत्येक साइटमैप में 50,000 से अधिक URL नहीं होने चाहिए और 10MB (10,485,760 बाइट्स) से अधिक नहीं होनी चाहिए। यदि आप चाहें, तो आप अपने बैंडविड्थ की आवश्यकता को कम करने के लिए अपनी साइटमैप फ़ाइलों को gzip का उपयोग करके संपीड़ित कर सकते हैं; हालाँकि साइटमैप फ़ाइल एक बार असम्पीडित 10MB से बड़ी नहीं होनी चाहिए। यदि आप 50,000 से अधिक URL को सूचीबद्ध करना चाहते हैं, तो आपको कई साइटमैप फ़ाइलें बनानी होंगी।

यदि आप एक से अधिक साइटमैप प्रदान करते हैं, तो आपको प्रत्येक साइटमैप फ़ाइल को साइटमैप इंडेक्स फ़ाइल में सूचीबद्ध करना चाहिए। साइटमैप इंडेक्स फाइलें 50,000 से अधिक साइटमैप को सूचीबद्ध नहीं कर सकती हैं और 10 एमबी (10,485,760 बाइट) से बड़ी नहीं होनी चाहिए और इन्हें संकुचित किया जा सकता है। आपके पास एक से अधिक साइटमैप इंडेक्स फ़ाइल हो सकती हैं। साइटमैप इंडेक्स फ़ाइल का XML प्रारूप, साइटमैप फ़ाइल के XML प्रारूप के समान है।

http://sitemaps.org/protocol.php


2
50,000 पृष्ठों वाले साइटमैप बहुत आम हैं। वास्तव में किसी ने हाल ही में अपने वेबमास्टर खाते से एक स्क्रीनशॉट पोस्ट किया है जिसमें Google को उन सभी पृष्ठों के लगभग 50,000 अनुक्रमित किए गए हैं। और मुझे संदेह है कि सुपरयुसर उस साइट की तुलना में अधिक लोकप्रिय (जैसे बेहतर लिंक लोकप्रियता) है।
जॉन कोंडे

1
"आपके पास सूचीबद्ध करने के लिए 50,000 से अधिक URL हैं। यह अधिकतम वह है जिसमें एक साइटमैप शामिल हो सकता है।" sitemaps.blogspot.com/2005/08/use-sitemap-index-files.html
जेफ एटवुड

1
यदि आपके पास प्रत्येक दिन के लिए एक साइटमैप है, जो दिन समाप्त होने के बाद कभी नहीं बदलता है, तो उस साइटमैप को फिर से प्राप्त नहीं करना पड़ता है, वे उन लिंक को क्रॉल कर सकते हैं जिन्हें वे पहले से ही परिवर्तनों के लिए अनुक्रमित करते हैं, इसलिए Google को गर्त में नहीं जाना पड़ता है 50,000 यूरेल दिन में कभी-कभी यह देखने के लिए कि कौन से पुराने हैं और कौन से नए हैं।
सेवकी

@ सक्रियता तिथि (नया उत्तर, संपादन, आदि इस तारीख को टक्कर) द्वारा सबसे पुराना 50,001 वां प्रश्न साइटमैप में नहीं होगा। यह ध्यान में रखें कि सुपरयुसर के कुल 55k प्रश्न होते हैं।
जेफ एटवुड

@Jeff लेकिन SO.com में 1,014,782 और 964,782 साइटमैप में नहीं है, इसलिए Google या bing को पता नहीं है कि उन्हें अंतिम बार संशोधित कब किया गया था .. क्या यह आपके क्रॉल को प्रदर्शित नहीं करता है। वैसे भी मैं सिर्फ मदद करने की कोशिश कर परेशान नहीं होना चाहता, मैंने आपको कुछ और विवरणों के साथ एक ईमेल भेजा है।
सेवकी

2

ऐसा प्रतीत होता है गूगल बताते हुए की जाती है कि कि 46,514 प्रस्तुत लिंक कर रहे हैं सूचकांक में। क्या यह एक समस्या हो सकती है (मुझे यह कहने से नफरत है) लेकिन पेज रैंकिंग? स्क्रैपिंग साइट्स बेहतर जॉब क्रॉस-लिंकिंग आदि कर रही हैं और उच्च स्थान पर हैं। सिर्फ एक विचार।

यह खोज साइट: superuser.com प्रतीकात्मक लिंक की एक लंबी श्रृंखला के अंत को देखने के लिए भी आपके साइटमैप को सही ढंग से लाने के लिए प्रतीत होती है, यद्यपि अपेक्षित परिणाम वापस नहीं आ रहे हैं।


वह स्क्रैपिंग साइट मूल लेखक के रूप में superuser.com को विशेषता देती है (हालाँकि वे इसके बारे में अधिक स्पष्ट हो सकते हैं) इसलिए Google को पता होना चाहिए कि वे सामग्री के मूल लेखक हैं और उन्हें स्क्रैपिंग साइटों पर पूर्वता देनी चाहिए।
जॉन कोंडे

@ सही है, हमें फॉलो के साथ एट्रिब्यूशन की आवश्यकता है, जैसा कि blog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood

यह कैश्ड साइटमैप "जैसा कि 17 अक्टूबर 2010 05:40:35 GMT पर दिखाई दिया है", 4 दिन पहले जब मैं यह लिख रहा हूं, तो यह बहुत कुछ नहीं है। मैंने उस कैश्ड साइटमैप। Xml में कुछ URL की जाँच की और वे गूगल में प्रश्न पृष्ठों के रूप में मौजूद हैं।
जेफ एटवुड

@ आप इस बात का उदाहरण दे सकते हैं कि वे किस तरह से अटेंशन देते हैं। Thx
ग्रेग बी

@Greg, बस सुपर उपयोगकर्ता लोगो ढूंढें
जॉन कोंडे

2

इस प्रकार की बातों से बहुत सारे संभावित उत्तर मिलते हैं।

मैं पूछना चाहता हूँ कि आपके पास वास्तव में कितने पृष्ठ हैं। (आपने 50,000 URL एक त्वरित साइट सबमिट किए: superuser.com 125,000 अनुक्रमित दिखाता है कि क्या आपको लगता है कि आपके पास केवल 50K URL हैं और वे सभी सबमिट कर रहे हैं, फिर भी Google प्रत्येक पृष्ठ की 2-3 प्रतियां ढूंढ रहा है? या हो सकता है कि आपके पास 1Mil URL और केवल 12.5 हो? )

यदि चरण एक के साथ कुछ भी गलत नहीं लगता है, तो मैं सामग्री पर आगे बढ़ूंगा, ऐसा लग रहा है कि QH के पेज पर पूरी तरह से अधिक सामग्री है और इस तथ्य के बावजूद कि कई अन्य "संसाधन" लिंक किए गए हैं, उनकी सभी सामग्री के स्क्रैप होने की संभावना है, Google उनके बारे में विचार करता है पृष्ठ अधिक उपयोगी है क्योंकि वे उपयोगकर्ता को अधिक संसाधन / जानकारी प्रदान करते हैं। यदि उन्हें प्राधिकरण माना जाता है और आपकी सभी सामग्री उनकी है, तो संभव है कि मूल होने पर भी Google आपका अनुक्रमण नहीं करेगा।

यदि आप आश्वस्त हैं कि यह मुद्दा कुछ उच्च गुणवत्ता वाले लिंक का निर्माण नहीं कर रहा है, तो इस प्रश्न को कुछ लोकप्रिय कर्मचारी ब्लॉगों पर ब्लॉग करें या कुछ दोस्तों से इसके बारे में ब्लॉग पर पूछें, शायद अगर आपके पास एसईओ मित्र हैं जो लोकप्रिय ब्लॉग चलाते हैं तो वे लिखेंगे इसके बारे में केस स्टडी आदि।

यदि आपको बहुत सारे मजबूत लिंक मिलते हैं और यह अभी भी उन कारणों के लिए अनुक्रमित रूप नहीं पा रहा है, तो इसे दंडित किया जा सकता है (ज्यादातर मामलों में यह मुद्दा नहीं होगा, लेकिन यह कभी भी जांच नहीं करता है)।

अगर इनमें से कोई भी काम नहीं करता है, तो 10 में से 9 बार यह एक सरल तकनीकी मुद्दा है जिसे अनदेखा किया गया है (रोबोट अपवर्जन या कुछ इसी तरह)।

यदि Google से पूछने के बाद भी आपके पास कोई उत्तर नहीं है और आशा है कि वे आपको उत्तर देंगे।


0

सवाल कल ही पूछा गया था - googlebot को एक मौका दें, आप इंटरनेट पर एकमात्र साइट नहीं हैं जिसे उसे फिर से जानना है

यदि प्रश्नों को सामान्य रूप से एक या एक दिन के भीतर अनुक्रमित किया जाता है, और एक सप्ताह बीत जाता है और वह अभी भी अनुक्रमित नहीं होता है, तो मैं चिंतित हो सकता हूं। लेकिन निश्चित रूप से 1 दिन के बाद नहीं।


1
वे आम तौर पर एक घंटे के भीतर दिखाई देते हैं। इसलिए मैं सहमत हूं, मुझे इसे समय देना चाहिए, लेकिन इसकी सामान्य आवृत्ति के सापेक्ष ... मेरे पास है।
माइकल प्रायर

@michael सुनिश्चित करें कि आप सेब की तुलना सेब से कर रहे हैं - Google लगता है कि हमारी अन्य साइटों की तुलना में MUCH उच्च दर पर stackoverflow.com को अनुक्रमणित करता है।
जेफ एटवुड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.