सूचना पुनर्प्राप्ति और सूचना निष्कर्षण के बीच संबंध और अंतर?


11

से विकिपीडिया

सूचना पुनर्प्राप्ति सूचना संसाधनों के संग्रह से सूचना की आवश्यकता से संबंधित सूचना संसाधन प्राप्त करने की गतिविधि है। खोजें मेटाडेटा या पूर्ण-पाठ अनुक्रमण पर आधारित हो सकती हैं।

से विकिपीडिया

सूचना निष्कर्षण (IE) असंरचित और / या अर्ध-संरचित मशीन-पठनीय दस्तावेजों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश मामलों में यह गतिविधि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से मानव भाषा ग्रंथों के प्रसंस्करण की चिंता करती है। मल्टीमीडिया डॉक्यूमेंट प्रोसेसिंग में हाल की गतिविधियाँ जैसे स्वचालित एनोटेशन और इमेज / ऑडियो / वीडियो से कंटेंट एक्सट्रैक्शन को सूचना निष्कर्षण के रूप में देखा जा सकता है।

सूचना पुनर्प्राप्ति और सूचना निष्कर्षण के बीच संबंध और अंतर क्या हैं?

धन्यवाद!

जवाबों:


9

सूचना पुनर्प्राप्ति है एक प्रश्न के आधार पर - आप क्या जानकारी की जरूरत है और यह मानव समझ में आता है के रूप में दिया जाता है निर्दिष्ट करें।

सूचना निष्कर्षण असंरचित जानकारी को संरचित करने के बारे में है - कुछ स्रोतों को (प्रासंगिक) जानकारी को एक ऐसे रूप में संरचित किया गया है जो प्रसंस्करण के लिए आसान होगा। यह मानव समझने योग्य रूप में आवश्यक नहीं होगा - यह केवल कंप्यूटर प्रोग्राम के उपयोग के लिए हो सकता है।

कुछ स्रोत:


7

http://gate.ac.uk/ie/ बहुत अच्छा, संक्षिप्त अंतर देता है:

सूचना निष्कर्षण सूचना पुनर्प्राप्ति नहीं है: सूचना निष्कर्षण पारंपरिक तकनीकों से भिन्न होता है कि यह संग्रह से दस्तावेजों की एक संख्या से उबर नहीं पाता है, जो कुंजी-शब्द खोज (शायद एक थिसॉरस द्वारा संवर्धित) के आधार पर एक क्वेरी के लिए प्रासंगिक रूप से प्रासंगिक है। इसके बजाय, लक्ष्य दस्तावेजों (जो विभिन्न भाषाओं में हो सकता है) से निकालने के लिए है, घटनाओं, संस्थाओं या संबंधों के निर्धारित प्रकारों के बारे में मुख्य तथ्य। इन तथ्यों को आम तौर पर एक डेटाबेस में स्वचालित रूप से दर्ज किया जाता है, जो तब ट्रेंड के लिए डेटा का विश्लेषण करने, एक प्राकृतिक भाषा सारांश देने के लिए, या बस ऑन-लाइन एक्सेस के लिए सेवा करने के लिए उपयोग किया जा सकता है।

सचित्र रूप से लगाने के लिए:

सूचना पुनर्प्राप्ति प्रासंगिक दस्तावेजों के सेट हो जाता है:

यहाँ छवि विवरण दर्ज करें

सूचना निकालना दस्तावेजों से बाहर तथ्य प्राप्त करता है:

यहाँ छवि विवरण दर्ज करें


2

एक मॉडलिंग दृष्टिकोण से, सूचना पुनर्प्राप्ति एक गहन क्षेत्र है जो सांख्यिकी, गणित, भाषा विज्ञान, कृत्रिम बुद्धिमत्ता और अब डेटा विज्ञान सहित कई विषयों पर आधारित है। व्यवहार में, इन मॉडलों को डेटा में पैटर्न खोजने के लिए कॉर्पोरा के भीतर पाठ के खिलाफ लागू किया जाता है। न केवल आईआर मॉडल अपने उपयोग में ओवरलैप करते हैं, वे अन्य मॉडल जैसे के-साधन या के-निकटतम पड़ोसी मॉडल के साथ "पार्टनर" कर सकते हैं, फिर अन्य मॉडल को कम्प्यूटेशनल भाषा विज्ञान जैसे एलडीए / एलडीआई के सहूलियत बिंदु से लागू किया जा सकता है। विषय मॉडलिंग तब, अंतिम गेम इस खोज के दृश्य के कुछ प्रकार है - रैंकिंग, क्लस्टरिंग और एकत्रित कार्य के बाद। सूचना पुनर्प्राप्ति एक गुप्त अनुशासन के रूप में प्रकट हो सकती है, लेकिन गंभीर प्रयास, जिसकी बहुत सराहना की जाती है, प्रत्येक मॉडल की गहरी समझ के लिए क्षेत्र को खोलने जा रहा है, और मॉडल के बीच बातचीत। मैं आईआर के लिए एक नींव में तल्लीन करने के लिए सबसे अच्छी जगह के रूप में "सूचना अवधारणाओं, पुनर्प्राप्ति और सेवाओं पर श्रृंखला व्याख्यान" का हवाला देता हूं।

हालांकि मैं पूरी तरह से आईआर और सूचना निष्कर्षण को अलग नहीं करता हूं, शायद आईई का एक सबसेट, अवधारणा स्तर निष्कर्षण, संबंधित पैटर्न को निकालने के लिए एआई-आधारित हीनिंग नियमों के साथ आईआर पैटर्न लागू करता है। इन संबंधों की चित्रमय प्रकृति को ओडब्ल्यूएल और आरडीएफ में ऑन्कोलॉजी मॉडलिंग के साथ बढ़ाया जा रहा है, और ग्राफ डेटाबेस के साथ, जो संबंध मॉडलिंग के कम सख्त या कठोर सेट की अनुमति देता है, और प्रति से नियंत्रित होने के बजाय सतह पर अधिक रिश्तों की अनुमति देता है। सूचना निष्कर्षण को गतिशील रूप से विकसित करने की क्षमता अपने "अनुशासन" को शोधकर्ताओं के लिए दृढ़ता से दिलचस्प रखती है।

आईआर और आईई दोनों हमारे अपने महत्वपूर्ण "क्षणों की संस्थाओं" में खेलते हैं - कुछ ने "डायनेमिक ऑन्कोलॉजी" कहा है - कुछ पलान्टिर-- हमें उन महत्वपूर्ण संस्थाओं के पैटर्न, मॉडल, सिमुलेशन और विज़ुअलाइज़ेशन की आवश्यकता है, जिसमें वे व्यवसाय कर सकें। सूचना के नए स्रोतों को मॉर्फ करने और मौजूदा जानकारी को बदलने का चेहरा। वैचारिक, संबंधपरक, निश्चित, पैटर्न और ऑन्कोलॉजिकल मॉडलिंग को लचीला होना चाहिए और उनके विज़ुअलाइज़ेशन समान हैं। सूचना निष्कर्षण और अनुगामी क्षेत्रों में वाटसन जैसे एआई इंजनों के भारी उठाने ने आईई और फ्रेंक आईआर क्षेत्रों पर एक स्पॉटलाइट डाली है। इसके अलावा प्राकृतिक भाषा प्रसंस्करण और मशीन लर्निंग की सर्वव्यापीता IR और IE मॉडल और इंजन पर ध्यान दे रही है। खोज और एसईओ, और अर्थ वेब मॉडलिंग पर आईआर मॉडल का प्रभाव उन में से एक है "


1

सूचना पुनर्प्राप्ति उस जानकारी को वापस करने के बारे में है जो किसी विशिष्ट क्वेरी या ब्याज के क्षेत्र के लिए प्रासंगिक है। ध्यान दें कि यह जानकारी सामान्य दस्तावेजों के रूप में भी हो सकती है, निश्चित रूप से पर्याप्त खोज इंजन ऐसे कार्य का एक उल्लेखनीय उदाहरण है। मैं कहूंगा कि सूचना पुनर्प्राप्ति के लिए पहचाने जाने वाली सबसे महत्वपूर्ण संस्थाएं दस्तावेजों / सूचनाओं का प्रारंभिक सेट हैं और यह क्वेरी "निर्दिष्ट करें कि" क्या खोजना है "।

दूसरी ओर सूचना निष्कर्षण दस्तावेजों या सूचनाओं के एक समूह से सामान्य ज्ञान (या संबंध) निकालने (या अनुमान) के बारे में अधिक है। ध्यान दें कि यहां दस्तावेजों की सभी सामग्री को डेटा का एक पूरा कोष माना जा सकता है जिसमें से ज्ञान निकाला जाता है। बेशक इस मामले के लिए भी आप किसी तरह निर्दिष्ट कर सकते हैं कि आप क्या निकालना चाहते हैं, लेकिन यह विशिष्ट विषयों / विषयों की तुलना में गुणों / संबंधों के बारे में अधिक है । गुण अधिक डोमेन-विशिष्ट हैं, जबकि आमतौर पर संबंध अधिक सामान्य परिदृश्यों को कवर करते हैं।

फिर से, खोज इंजन के साथ आप उन साइटों को प्राप्त करने के लिए कह रहे हैं जो उस विशिष्ट विषय के बारे में जानकारी रखने की संभावना रखते हैं। यह सूचना पुनर्प्राप्ति का एक उदाहरण है ।

उदाहरण के लिए, आपके द्वारा लिए जा सकने वाले सूचना निष्कर्षण के लिए, सभी शहरों के नाम, या ई-मेल पते, जो दस्तावेजों के एक कोष में प्रकट होते हैं, निकालने के लिए कहें। आप और भी अधिक सामान्य जा सकते हैं, बस ज्ञान निकालने के लिए कह रहे हैं। जैसा कि आप देख सकते हैं कि यह वास्तव में सामान्य है, लेकिन यह पूरा हो सकता है, उदाहरण के लिए, किसी पाठ के प्रत्येक वैध वाक्य के लिए प्रपत्र विषय-क्रिया-वस्तु के तिगुने प्राप्त करके (यह प्राकृतिक भाषा ग्रंथों के लिए सबसे उपयुक्त है)।

यदि आप इन (और अन्य) विषयों में रुचि रखते हैं, तो आर्टी बुक के प्राकृतिक भाषा प्रसंस्करण अध्याय में विवरणों में व्याख्या की गई है : एटल फिशियल इंटेलीजेंस: ए

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.