कैसे बताएं कि पृष्ठ कितना पुराना है?


15

मैंने सोचा कि Google यह निर्धारित करने में कम या ज्यादा सटीक था कि पहले किसने एक पाठ पोस्ट किया और किसने नकल की। हालांकि, जब मैं "खोज उपकरण: अनुकूलित अंतराल" का उपयोग करता हूं तो परिणाम काफी विषम होते हैं। मैंने 2002 के बाद वापस आने वाले पृष्ठों को एक वेबसाइट के लिए खोजा है जो मैंने केवल कुछ वर्षों के लिए बनाई है।

इसलिए Google यह पता लगाने के लिए सटीक नहीं है कि किसने नकल की और किसने मूल लिखा। क्या है?

यहाँ छवि विवरण दर्ज करें

अगर stackexchange.com2009 में बनाया गया था तो यह कैसे संभव है? hermeneutics.seस्टैक ओवरफ्लो से पुराना है!


क्या आपके पहले किसी ने डोमेन नेम बनाया था? वह कौन सा पृष्ठ है जो आप Google में तुलना कर रहे हैं?
क्लोजेटनॉक

मैंने एसई डेटा के साथ प्रश्न को अपडेट किया। समय टिकट सही नहीं हो सकता।
रेनैन

2
वाह। मुझे यकीन नहीं है। मैं सामान्य रूप से इस के यांत्रिकी को समझता हूं, लेकिन Google जो करता है वह अभी भी एक रहस्य है। नेट पर बहुत कम जानकारी है कि Google तारीखों का निर्धारण कैसे करता है। हमारे सामने एक सवाल था कि Google कुछ समय पहले ही संशोधित तिथियों का निर्धारण कैसे करता है। मैंने कुछ शोध किया और लगभग कुछ भी नहीं है। फिर भी, मैं फिर से देखूंगा। लेकिन इसमें कुछ दिन लग सकते हैं। ध्यान रखें कि सीएमएस सॉफ्टवेयर और संभावना है कि एसई कोड एचटीएमएल पृष्ठों के लिए अपाचे जैसी तारीखों को बनाने और संशोधित नहीं करता है। और इसका जवाब हो सकता है।
क्लोजेटनॉक

इसका Google होना जरूरी नहीं है, लेकिन मैं वास्तव में जानना चाहता हूं कि क्या मेरे उपयोगकर्ता साहित्यिक चोरी कर रहे हैं या नहीं। = /
रेनन

अब तक, ऐसा लग रहा है कि Google HTML के भीतर दिनांक प्रारूप को नहीं समझ रहा है, लेकिन यह निर्णायक नहीं है। पहले उदाहरण पृष्ठ का स्रोत कोड Google को स्पष्ट दिनांक सुराग प्रदान नहीं करता है। Google (कम से कम) इस क्रम में दिखता है या एक दिनांक: URL, शीर्षक, निकाय (सामग्री), मेटा टैग, HTTP प्रतिसाद से अंतिम संशोधित तिथि। एक HEAD अनुरोध रिटर्न दिनांक और अंतिम संशोधित तिथि बनाता है। साथ ही, अगर संशोधित-चूँकि एक GET 200 Ok के साथ संसाधन देता है या 304 Not Modified देता है। एसई कोड इन्हें नहीं लौटा सकता है और केवल URL, शीर्षक, सामग्री और मेटा टैग उपलब्ध हैं।
क्लोनेटनोक

जवाबों:


12

मैंने इस प्रश्न के उत्तर पर इस तरह से शोध किया: Google का उपयोग करना क्योंकि मेरे पास यह उदाहरण है कि Google को सृजन तिथियां और संशोधित तिथियां कैसे प्राप्त होती हैं, और दिनांक स्वरूप जो Google पहचानता है। कृपया समझें कि यह जानकारी केवल कुछ पृष्ठों पर मौजूद नहीं है और मुझे बहुत सारे स्रोतों से डेटा को बाहर निकालना है, जिनमें से कुछ सीधे लागू नहीं होते हैं और इसे एक साथ टुकड़े करना प्रतीत नहीं होता है। कुछ मामलों में, जानकारी कई स्रोतों से प्राप्त होती है और हमेशा उद्धृत करने योग्य नहीं होती है।

Google इस क्रम में पृष्ठ तिथियों की तलाश करता है; URL, शीर्षक टैग, निकाय (सामग्री), मेटा-टैग, HTTP प्रतिक्रिया हेडर कम से कम जहां तक ​​Google खोज उपकरण का संबंध है। अन्य दस्तावेजों में अन्य पैराग्राफ में, किसी भी आदेश का दस्तावेजीकरण नहीं किया गया था, लेकिन सूची पर चर्चा की गई थी और सूची की पुष्टि करने के लिए लग रहा था। यदि आप इसके बारे में सोचते हैं, तो यह उस आदेश को दर्शाता है जो एक खोज इंजन होगा; एक - अपने पृष्ठ (लिंक) की खोज करें, और दो - मेटा-टैग (छोटा विवरण) और HTTP प्रतिसाद शीर्ष लेख के अपवाद के साथ अपने पृष्ठ को ऊपर से नीचे तक (शीर्षक, निकाय और मेटा-टैग) पढ़ें। यहाँ तक की सूची है जहाँ तक उपकरण का संबंध है:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

नोट: स्थापना की तारीख वह तारीख है जो पहले Google द्वारा अनुरोध की गई थी। निर्माण तिथि की अनुपस्थिति में, स्थापना तिथि का उपयोग किया जाता है।

1] कोई भी खोज इंजन HTTP GET अनुरोध के माध्यम से संसाधन का अनुरोध कर सकता है और वेब सर्वर डेटा पैकेट के भीतर संसाधन के साथ प्रतिक्रिया हैडर के भीतर अंतिम संशोधित तिथि देता है।

2] कोई भी सर्च इंजन HTTP HEAD रिक्वेस्ट के माध्यम से रिसोर्स की हेडर जानकारी की रिक्वेस्ट कर सकता है और वेब सर्वर रिस्पॉन्स हेडर के अंदर रिवाइज्ड डेट को रिसोर्स के बिना डेटा पैकेट के अंदर लौटाता है।

3] कोई भी खोज इंजन अनुरोध कर सकता है कि क्या किसी संसाधन को HTTP GET के साथ संसाधन का अनुरोध करके एक निश्चित तिथि से संशोधित किया गया है, यदि कोई तिथि निर्धारित की गई है। यदि दिनांक सेट के बाद से संसाधन को संशोधित किया गया है, तो वेब सर्वर 200 ओके प्रतिक्रिया के साथ प्रतिक्रिया करता है और संसाधन को लौटाता है या यदि दिनांक सेट के बाद से संसाधन को संशोधित नहीं किया गया है, तो वेब सर्वर संसाधन को वापस किए बिना 304 के साथ संशोधित नहीं है। ।

Google बैंडविड्थ को बचाने के लिए विधि # 3 का उपयोग करके कई अनुरोध करता है। आप इनको अपने वेब सर्वर लॉग फाइल में देखेंगे।

नोट: यह संभव है कि एक सामग्री प्रबंधन प्रणाली (CMS) या अन्य सॉफ़्टवेयर प्रतिक्रिया शीर्षलेख के भीतर उचित रूप से दिनांक प्रदान न कर सके।

ये तिथि उदाहरण Google उपकरण प्रलेखन से भी आते हैं, लेकिन सामान्य खोज से संबंधित अन्य स्थानों में भी मौजूद हैं। मैंने उपकरण के डॉक्यूमेंटेशन से ये डिटेल्स सिर्फ इसलिए ली क्योंकि इसे कट कर एक सूची के रूप में चिपकाया जा सकता था जहाँ अन्य जगहों पर यह उतना साफ-सुथरा नहीं था।

4] Google URL के भीतर एक तारीख की तलाश करता है। यह निम्नलिखित स्वरूपों की तलाश करता है; YYYMMDDHH - YYYY - YYYYMM।

5] Google शीर्षक टैग के भीतर एक तारीख की तलाश करता है। यह निम्नलिखित स्वरूपों की तलाश करता है; YYYMMDDHH - YYYY - YYYYMM यद्यपि मुझे संदेह है कि अन्य प्रारूपों को मान्यता दी जा सकती है। निचे देखो।

6] Google बॉडी टैग (सामग्री) के भीतर एक तारीख की तलाश करता है। यह निम्नलिखित स्वरूपों की तलाश करता है; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDY - DDMMYY - MMDYY हालांकि मुझे संदेह है कि अन्य प्रारूपों को मान्यता दी जा सकती है। निचे देखो।

नोट: यह ज्ञात है कि Google विशेष रूप से पहले H1टैग के तहत एक तिथि के लिए दिखता है । ऐसा इसलिए है क्योंकि ब्लॉग अक्सर इस स्थान पर तारीखें डालते हैं।

7] Google इस तरह मेटा-टैग की तलाश करता है। <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Google को निम्न दिनांक स्वरूपों को पहचानने के लिए भी कहा जाता है।

YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MMD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYY - D / M / YYYY - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - MMDDYYY - YYMMDY - DDMMYY

मैंने जो शोध पाया, उसने समय के सवाल का जवाब नहीं दिया।

उदाहरणों का हवाला देते हुए, पृष्ठ एक स्पैन टैग के अलावा तारीख के सुराग प्रदान नहीं करते हैं जिन्हें अनदेखा किया जा सकता है। यह संभव है कि एसई सॉफ्टवेयर / वेब सर्वर किसी भी प्रतिक्रिया हेडर के भीतर निर्माण और संशोधित तिथियों को वापस नहीं कर सकता है।

Google ने इन तिथियों को क्यों और कैसे प्राप्त किया यह एक अच्छा प्रश्न है जिसका समाधान कभी नहीं हो सकता है। मैं हालांकि देखता रहूंगा।


3
क्या आपके पास इस क्रम में "Google द्वारा पृष्ठ तिथियों के लिए लग रहा है? URL, शीर्षक टैग, निकाय (सामग्री), मेटा-टैग, HTTP प्रतिसाद शीर्ष लेख" का कोई संदर्भ है? क्या आपके पास इस शोध के लिए कोई संख्या या आँकड़ा है? यदि आप यहां पोस्ट किए गए संदर्भों को पोस्ट कर सकते हैं, तो यह हम सभी के लिए बेहतर होगा।
पटोमास

मैं आपके इस पूछने की सराहना करता हूं। मुझे जो कुछ मिला वह बिट्स और टुकड़ों में था। सूची को कई स्थानों पर पाया गया था, लेकिन यह आदेश Google खोज उपकरण के दस्तावेज़ीकरण में पाया गया था और अन्य स्थानों पर पैराग्राफ में इसका समर्थन किया गया था। मैंने सचमुच कई दर्जन दस्तावेजों को देखा, जिन्हें खोजने में काफी समय लगा। मैंने यह कहने की सावधानी बरतने की कोशिश की कि मुझे कई स्रोतों से डेटा को एक साथ मिलाना पड़ा क्योंकि इस पर कोई प्रत्यक्ष जानकारी नहीं थी। मैं इसे स्पष्ट करने के लिए वक्तव्य संपादित करूंगा।
क्लिटनेटॉक

मैं यह भी पुष्टि कर सकता हूं कि निम्नलिखित article.post > div.post-content > h2 > pस्तर प्रारूप स्ट्रिंग कुछ स्तर पर समाहित था, हाल ही में Google द्वारा उठाया गया था और दिनांक प्रदर्शित करने के लिए उपयोग किया गया था: "अंतिम अद्यतन: 7 अक्टूबर, 2018"
मैट

-2

यदि आप यह देखना चाहते हैं कि एक डोमेन कितना पुराना है, तो Google पर Wayback मशीन खोजें । यह साइट वही है जो आप ढूंढ रहे हैं: http://archive.org/web/

यदि आप साहित्यिक चोरी का पता लगाना चाहते हैं, तो यह लिंक आपकी मदद करेगा: http://copyscape.com/signup.php?pro=0&o=f

इसके अलावा, "साहित्यिक चोरी चेकर" के लिए Google पर खोजें।

आशा है कि मैंने मदद की।


3
सम्मान के साथ, आपको प्रश्न को फिर से पढ़ने की जरूरत है।
क्लोजेटनॉक

सवाल यह है कि "एक पृष्ठ कितना पुराना है?" कृपया मेरे लिंक का अनुसरण करें और आप देखेंगे कि उत्तर अच्छा है। इसे पढ़ने के लिए धन्यवाद।
पास्कुट

3
आप सवाल नहीं पढ़ रहे हैं। आप शीर्षक पढ़ रहे हैं। जिस तरह से बैक मशीन सवाल का जवाब नहीं देती है।
क्लोजिटेनॉक

आप ठीक कह रहे हैं, मैंने अपना प्रश्न संपादित कर लिया है ..
पास्कुट १14

1
Wayback मशीन डोमेन में पेज का ट्रैक रखती है। विशिष्ट पृष्ठों के बीच दिनांक की तुलना करना उपयोगी नहीं है। मैं यह बताने के लिए सटीक साधनों की तलाश कर रहा हूं कि कौन सा पहले पोस्ट किया गया था।
रेनन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.