Google किसी पोस्ट की प्रकाशित तिथि को कैसे पहचानता है


17

जब मैं Google में कुछ खोजता हूं, तो मैं कभी-कभी पोस्ट / लेख की प्रकाशन तिथि को नीचे देखता हूं। मैंने अपने स्वयं के लेख के लिए भी खोज की है जो मेरे वर्डप्रेस-संचालित साइट पर है, और Google इसकी प्रकाशित तिथि को भी पहचानता है।

जब मैं अपनी वेबसाइट का स्रोत खोलता हूं, तो मुझे कोई विशेष टैग या कुछ भी दिखाई नहीं देता है जो प्रकाशित तिथि को इंगित करता है। यह केवल एक नियमित डिव में लिखा जाता है, जिसमें कुछ विशेष टैग नहीं होता है जो एसई को बताएगा कि यह प्रकाशन की तारीख है (मेरे पास पेज के आसपास अन्य चीजों की कोई अन्य तारीखें भी हो सकती हैं)।

तो क्या यह Google में DOM ट्री में वर्डप्रेस प्रकाशन की तारीख का सटीक स्थान है, या मुझे कुछ याद आ रहा है?

मैं अपने स्वयं के सीएमएस के साथ एक नई वेबसाइट बना रहा हूं, और यह पता लगाने की कोशिश कर रहा हूं कि प्रकाशित मान्यता को कैसे लागू किया जाए।


2
आप निश्चित रूप से कुछ याद कर रहे हैं: आपने केवल HTML को देखा है, लेकिन HTTP हेडर भी हैं जो कहते हैं कि जब पृष्ठ संशोधित किया गया था। वे आपके लेख के पर्मलिंक के लिए क्या रिपोर्ट कर रहे हैं? मुझे लगता है कि Google इसका उपयोग अपने स्वयं के रिकॉर्ड के साथ करता है कि पृष्ठ कितना बदल गया है, लेकिन मेरे पास कोई वास्तविक सबूत नहीं है - इसलिए उत्तर के बजाय टिप्पणी।
पीटर टेलर

हाँ, मेरा एक "असभ्य" प्रयास था .. मैं गैर-HTML तत्वों / हेडर और साइटमैप में देख रहा हूँ जैसा कि अन्य लोगों ने भी सुझाव दिया है
Can Poyrazoğlu

@Peter इसमें कोई संदेह नहीं है कि HTTP हेडर (विशेष रूप से लास्ट-मॉडिफाइड हेडर) एक मीट्रिक है जो SEs का उपयोग करते हैं। हालांकि, मुझे संदेह है कि यह एक लेख की "प्रकाशित तिथि" निर्धारित करने में बहुत अधिक भूमिका निभाता है - कम से कम Google प्रकाशित तिथि के रूप में प्रदर्शित नहीं करता है। (अन्य एसईएस 'प्रकाशित तिथि' प्रदर्शित करने के लिए प्रकट नहीं होते हैं?) किसी लेख की प्रकाशित तिथि संभवतः किसी दस्तावेज़ की अंतिम संशोधित तिथि नहीं है। डायनामिक साइट्स के अधिकांश पृष्ठ (यहां तक ​​कि वर्डप्रेस पोस्ट के लिए) वर्तमान तिथि / समय के करीब वापस आते हैं। IMO लास्ट-मॉडिफाइड हेडर का इस्तेमाल मुख्य रूप से कैशिंग के लिए किया जाता है।
MrWhite

मुझे लगता है कि इसका साइटमैप के साथ कुछ करना है ..
Can Poyrazoğlu

HTTP अंतिम संशोधित stackoverflow.com/questions/204010/… या कुछ अर्ध-मानक HTML मेटाडेटा: stackoverflow.com/questions/4575967/… अन्य संभावनाएं हैं, लेकिन मुझे यकीन नहीं है कि Google वास्तव में उनका उपयोग करता है।
सिरो सेंटिल्ली 新疆 改造 iro i 事件 '

जवाबों:


4

आपको Google, Yahoo, और MSN जैसे प्रमुख खोज इंजनों के माध्यम से अपने प्रकाशित डेटा को अनुक्रमित करने के लिए xml साइटमैप या RSS फ़ीड संस्करण के माध्यम से जाना चाहिए। अपनी वेबसाइट के लिए XML साइटमैप उत्पन्न करें और इसे इंडेक्स के लिए वेब मास्टर टूल में सबमिट करें।


7

मुझे बस एक समस्या थी कि मेरे सभी मुख्य पृष्ठों को 4 साल पहले अपडेट किया गया था, भले ही Google को पता हो कि यह सच नहीं है क्योंकि पृष्ठों को लंबे समय तक अनुक्रमित किया गया है और महीने-दर-महीने पर्याप्त रूप से बदलते हैं। वास्तव में हैरान होने के बाद, फिर वास्तव में नाराज हुए, फिर से हैरान हुए, आखिरकार मुझे समस्या का पता चला। हमारे कानूनी शब्दों को "अंतिम अपडेट किया गया: 30 अक्टूबर 2007" के साथ एक छिपे हुए div में परोसा जा रहा था और लगभग सभी पेजों पर div लोड किया जा रहा था। (क्योंकि यह पंजीकरण पर पॉप अप होता है) मैंने इसे हटा दिया है और अब मुझे लगता है कि तारीख या तो गायब हो जाएगी या कुछ अधिक उचित हो जाएगी।

एक सावधानी की कहानी और सबूत का एक और टुकड़ा है कि वे तकनीकी विवरण या अपने स्वयं के अनुक्रमण इतिहास से अधिक साइट के शब्दार्थ की जांच करते हैं।


क्या आप अपने पृष्ठों की अंतिम संशोधित तिथि को पृष्ठ पर कहीं और आरएसएस फ़ीड या XML साइटमैप में शामिल करते हैं?
MrWhite

मैं नहीं करता, क्योंकि साइट एक समाचार साइट नहीं है और मैं इस पर जोर नहीं देना चाहता। आदर्श रूप से, मेरे होमपेज के लिए कोई तारीख नहीं होगी। इसके अलावा, मुझे लगता है कि वे शायद नमक के एक बड़े दाने के साथ अंतिम रूप लेते हैं - मुझे पता है कि अगर मैं उन्हें ले जाता।
mmdanziger

7

मुझे बहुत संदेह है कि किसी पोस्ट या लेख की प्रकाशित तिथि <lastmod>XML साइटमैप में प्रविष्टि (जैसा कि अन्य लोगों ने सुझाव दिया है) या उस मामले के लिए अंतिम-संशोधित HTTP हेडर पर आधारित है। एक XML साइटमैप केवल सलाहकार है, आधिकारिक नहीं। किसी दस्तावेज़ की अंतिम संशोधित तिथि संभवतः एक लेख की मूल (मूल) प्रकाशित तिथि के समान नहीं है। और, जैसा कि मैंने पृष्ठ के शीर्ष पर अपनी टिप्पणी में उल्लेख किया है, दस्तावेज़ की अंतिम संशोधित तिथि संभवतः कैशिंग के लिए अधिक महत्वपूर्ण है और शायद क्रॉल दरों का निर्धारण करती है। गतिशील रूप से उत्पन्न पृष्ठों के अंतिम-संशोधित HTTP हेडर अक्सर वास्तविक तिथि / समय के करीब होते हैं (जैसा कि यह वर्डप्रेस ब्लॉग के लिए है)।

दूसरी ओर RSS / Atom फ़ीड में सूचना की यह विशिष्ट डली होती है। और वास्तव में, Wordpress साइटों पर जो सामग्री में प्रकाशित तिथि को शामिल नहीं करती है, Google की खोज परिणामों में प्रकाशित तिथि अभी भी दिखाई देती है। और जहां तक ​​मैं बता सकता हूं, यह आरएसएस फ़ीड में तारीख से मेल खाता है।

EDIT # 1: हालाँकि, RSS फ़ीड में सभी पृष्ठ शामिल नहीं हैं। ज्यादातर मामलों में इसमें केवल नवीनतम या सबसे हाल ही में अपडेट किए गए पृष्ठ होने चाहिए। लेकिन ऐसा कोई कारण नहीं है कि Google को यह भूल जाना चाहिए कि उसने पहले से ही क्या पढ़ा है, और उस पेज की सामग्री प्रदान नहीं की गई है और फिर न तो अंतिम संशोधित तिथि होनी चाहिए।

अगर कोई RSS फ़ीड नहीं है, तो मुझे लगता है कि Google पृष्ठ सामग्री का विश्लेषण करने के लिए पर्याप्त चतुर है। विशेष रूप से अगर तारीखों को माइक्रोफ़ॉर्मेट्स की मदद से 'शब्दार्थ' के रूप में चिह्नित किया जाता है । यह पूरी तरह से संभव है कि Google एक लेख के लिए आधिकारिक प्रकाशित तिथि के रूप में निम्नलिखित को देखेगा कि यह भीतर निहित है:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google निश्चित रूप से माइक्रोफ़ॉर्मेट्स - hCard, hReview, आदि पढ़ता है

बस जोड़ने के लिए, मुझे नहीं लगता कि Google एक प्रकाशित तिथि बताएगा जब तक कि यह कुछ आधिकारिक नहीं मिल पाएगा जो यह सुझाव देगा। यह सट्टा डेटा पर एक 'प्रकाशित तिथि' को कम करने के लिए नहीं जा रहा है, क्योंकि एक गलत 'प्रकाशित तिथि' किसी के लिए उपयोग नहीं है और Google को इसके लिए बहुत सारी छड़ी मिल जाएगी!

और सिर्फ रिकॉर्ड के लिए (अगर @ टोम सुझाव दे रहा है तो :) मुझे लगता है कि पोस्ट / लेख प्रकाशित तिथि को स्पष्ट रूप से प्रदर्शित करना चाहिए। कई नहीं करते हैं, और यह विशेष रूप से प्रौद्योगिकी के मुद्दों पर शोध करते समय पाठक के लिए निराशाजनक हो सकता है और आप पाते हैं कि लेख के माध्यम से आधा रास्ता पढ़ा है यह तारीख से बाहर है!

EDIT # 2: मैंने तब से इसी तरह की झुंझलाहट का अनुभव किया है कि @mmdanziger ने अपने जवाब में इसका विवरण दिया है। मेरी एक पुरानी साइट पर मेरे पास हर पृष्ठ के शीर्ष पर (जावास्क्रिप्ट के साथ पृष्ठ पर लिखे गए ) के रूप में "साइट अंतिम अपडेट सन 17 जून 2012" (किसी भी विशेष तरीके से चिह्नित नहीं) का पाठ है ! यह वही तिथि Google द्वारा ली गई है और अब SERPS में दिखाई देने वाले कई (लेकिन सभी नहीं) पृष्ठों के साथ दिखाई देती है - यह निश्चित रूप से पृष्ठ की प्रकाशित तिथि नहीं है। ऐसा लगता है कि Google "अंतिम अद्यतन ( डेटास्ट्रीमिंग )" फ़ॉर्म की एक स्ट्रिंग के लिए पृष्ठ को केवल स्क्रैप कर रहा है (जावास्क्रिप्ट संसाधित किया गया है!)। इस विशेष साइट में RSS फ़ीड नहीं है। साइट में साइटमैप। Xml फ़ाइल है, लेकिन दिनांक अलग-अलग हैं।

मैंने अन्य साइटों पर भी इसी तरह का व्यवहार देखा है।


इससे सही तिथि कैसे पहचानी जाती है? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...यह केवल वही स्थान है जो मेरी पोस्ट की प्रकाशित तिथि को संदर्भित करता है, और Google इसे ढूंढता है और खोज परिणाम में सही ढंग से प्रदर्शित करता है
Can Poyrazoğlu

क्या एंकर में कुछ विशिष्ट है जो इसका अनुसरण करता है? तो फिर, यह नहीं हो सकता है। क्या आपके पास RSS फ़ीड (दस्तावेज़ के मेटा टैग में लिंक) है?
श्रीमान

मैं जवाब की तलाश में था "Google तिथि कैसे निर्धारित करता है?" लेकिन एक ही बात पर ध्यान दिया! Google अंतिम-संशोधित या Sitemap.xml <lastmod> शीर्षक के बजाय पृष्ठ में समय की एक स्ट्रिंग खोजने का प्रयास करता है! मेरे विचारों की पुष्टि करने के लिए धन्यवाद!
badReiko

5

मुझे लगता है कि Google प्रकाशित तिथि को पहचानने के लिए साइटमैप और RSS फ़ीड का उपयोग करता है .. आप मानकों के अनुसार xml साइट मैप बनाकर अपने CMS में इस सुविधा का अर्थ लगा सकते हैं ।

<lastmod>2011-08-18</lastmod>

2

Google में जॉन मुलर के अनुसार:

हम यह दर्शाने के लिए विभिन्न संकेतों का उपयोग करते हैं कि किस तिथि को दिखाना है, या यदि यह किसी एक को दिखाने के लिए समझ में आता है; यह एक विशिष्ट विशेषता से बंधा नहीं है।

जॉन म्यूलर - ट्विटर

हालाँकि, मुझे यह सबसे अधिक संभावना है कि Google निम्न स्थानों में वेब पेजों पर तारीखों की तलाश करता है:

  • मशीन पर सादे दृष्टि में, मशीन लर्निंग का उपयोग करते हुए
  • Schema.org संरचित डेटा, खासकर यदि डेटा को पृष्ठ पर सादे दृष्टि से भी पाया जा सकता है

1

मुझे लगता है कि यह समझदारी से पृष्ठ पर किसी भी तारीख की तलाश करता है और जब यह आश्वस्त होता है कि यह प्रासंगिक तारीख है तो इसका उपयोग करता है।

यह कभी-कभी थोड़ा मुश्किल होता है क्योंकि मुझे लगता है कि SERP क्लिक-क्षमता पर इसका नकारात्मक प्रभाव पड़ सकता है, मुझे लगता है कि अगर यह हालिया लेख / पोस्ट है तो इसका अस्थायी सकारात्मक प्रभाव हो सकता है लेकिन मुझे यकीन है कि मेरी साइटें इसके बिना बेहतर होंगी। (हालांकि Google खोजकर्ता इसके बिना बेहतर नहीं हो सकते हैं!)

Google के माध्यम से इसे नियंत्रित करने के लिए कोई विकल्प नहीं हैं, केवल अपने तरीकों से। आप या तो यह कर सकते हैं:

  • Google को खोजने से रोकने के प्रयास में दिनांक को गतिशील रूप से उत्पन्न छवियों के साथ बदलें, लेकिन इससे अन्य समस्याएं जैसे दृश्य संरेखण / सुसंगत फ़ॉन्ट प्रदर्शन / पहुंच आदि हो सकती हैं।
  • पृष्ठों से सभी तिथियों को पट्टी करें (यह फिर से आगंतुकों / उपयोगकर्ताओं के लिए निराशाजनक हो सकता है जब वे किसी स्रोत की आयु की खोज करना चाहते हैं यदि आपके पास प्रासंगिक जानकारी है)।

इन कारणों से मैं इसे अनदेखा करूंगा।


मैं तारीख निकालने की कोशिश नहीं कर रहा हूँ :) मैं एक नई साइट बनाने की तारीख की सुविधा को जोड़ने की कोशिश कर रहा हूँ ..
Poyrazoğlu
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.