अकादमिक संदर्भों में प्रशस्ति पाठ का स्वचालित पार्सिंग


18

क्या कोई सॉफ्टवेयर (या छद्म कोड) है जो स्वचालित रूप से पाठ का एक टुकड़ा स्कैन कर सकता है (या तो उपकरण में चिपकाया जाता है, या एक .doc / .pdf से पढ़ा जाता है) और मानक प्रारूपों का उपयोग करके उद्धरण डेटा की पहचान करें? फिर डेटा को अपने घटक क्षेत्रों में विभाजित किया जाएगा और एक्सएमएल, सीएसवी, या कुछ अन्य संरचित डेटा प्रारूप में निर्यात किया जाएगा। मैंने cb2Bib को देखा है, लेकिन यह केवल हार्वर्ड-शैली के संदर्भों से वर्ष निकालने में सक्षम था, जो अपर्याप्त है।


क्या आप पाठ को स्वयं या केवल संदर्भ खंड को स्कैन करना चाहते हैं?
इन्नाएम

बस संदर्भ - यह संभवतः व्यक्तिगत प्रकाशनों वाला एक दस्तावेज होगा।
एलिस्टेयर नॉक

मुझे यकीन नहीं है कि अगर आपको इसकी आवश्यकता हो, लेकिन आप इस refhive.com की
मोस्टफा एल्मोगाजी

जवाबों:


4

Citation Parsers की इस सूची पर एक नज़र डालें जो इनपुट टेक्स्ट से XML उत्पन्न कर सकता है:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (अगस्त 1, 2012 के अनुसार रखरखाव मोड में)
http: // opcit.eprints.org
http://search.cpan.org/~mewewell/Biblio-Citation-Passser.org.10

Freecite के साथ आप curlनिम्न (PHP में) उद्धरण प्रस्तुत करने के लिए एक कमांड का उपयोग कर सकते हैं :

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

एक अन्य विकल्प github.com/inspirehep/refextract है । यह एमएल पर आधारित नहीं है, लेकिन इसने मेरे परीक्षणों पर बहुत अच्छा काम किया।
जोशी

3

फिलहाल (2017) सबसे सक्रिय ओपन-सोर्स प्रोजेक्ट है जो इसे लागू करता है, एनिस्टाइल पार्सर (अंतिम संस्करण 07-2016) प्रतीत होता है । इसका उपयोग वेब-इंटरफ़ेस, API के माध्यम से किया जा सकता है या RubyGem के रूप में डाउनलोड किया जा सकता है।

वे स्पष्ट रूप से अपनी वेबसाइट पर उल्लेख करते हैं कि कार्यान्वयन ParsCit (पिछले संस्करण 2013?) और FreeCite (अंतिम प्रतिबद्ध 2009) से प्रेरित है।

उनकी वेबसाइट भी बनाएं:

AnyStyle Parser कंडिशनल रैंडम फील्ड्स के आधार पर शक्तिशाली मशीन लर्निंग हेयुरिस्टिक्स का उपयोग करता है जो हमारे अंतर्निहित संपादक का उपयोग करके सभी को प्रशिक्षित किया जा सकता है।

यह वास्तव में अच्छा फीचर है, जो इसे सबसे दिलचस्प कार्यान्वयन (इम्हो) बनाता है। जैसा कि एपीआई प्रलेखन में बताया गया है, प्रशिक्षण बहुत सीधा लगता है । आप बस कुछ मैन्युअल रूप से सही परिणाम प्रदान करते हैं, और Anystyle.parser.trainकमांड चलाते हैं । मुझे यकीन नहीं है कि अगर ParsCit और FreeCite भी इसका समर्थन करते हैं, लेकिन अगर वे ऐसा नहीं करते हैं, तो यह मेरे लिए बहुत बड़ी सुविधा-अंतर जैसा लगता है।


एनिस्टाइल पार्सर के अपवाद के साथ वे सभी वर्तमान में सबसे ज्यादा मतदान किए गए उत्तर में उल्लिखित हैं। क्या वास्तव में उन्हें बाहर खड़ा करता है? मूल प्रश्न को देखते हुए क्या फायदे या नुकसान होंगे?
सेठ

आह, वास्तव में। मैं अपना उत्तर संपादित कर सुधार करूंगा। इंगित करने के लिए Thx।
राउटर

लगता है अब मर गया।
विशेषज्ञ

1
@ ब्रेंडन: मैंने यहां एक HOWTO पोस्ट किया है: github.com/inukshuk/wapiti-ruby/issues/3
Wouter

1
यह बहुत अच्छा लग रहा है, धन्यवाद! जैसा कि किसी ने कभी माणिक को नहीं छुआ है, यह वास्तव में बहुत सहायक होगा।
ब्रैंडन

2

रेगेक्स बडी या एक्सप्रेसो जैसे उपकरण का प्रयास करें ।

यदि आप एक प्रोग्रामर नहीं हैं तो रेगुलर एक्सप्रेशंस थोड़ा डराने वाले हो सकते हैं, लेकिन वे वास्तव में उतने कठिन नहीं हैं, विशेष रूप से उपरोक्त जैसे एक सभ्य उपकरण के साथ।

यहां उद्धरणों को निकालने के लिए नियमित अभिव्यक्ति का उपयोग करने वाले किसी व्यक्ति का उदाहरण दिया गया है:

नियमित अभिव्यक्ति प्रशस्ति पत्र


1

मेंडली ऐसा करने में सक्षम होना चाहिए। यह PDF आयात कर सकता है और फिर मेटाडेटा को BibTeX, RIS और EndNote XML में निर्यात कर सकता है। यह डाउनलोड करने के लिए स्वतंत्र है और क्रॉस-प्लेटफॉर्म है।

संपादित करें: मैंने कुछ दस्तावेजों पर इसका परीक्षण किया। पीडीएफ आयात उन संदर्भों के लिए अच्छी तरह से काम करता है जो सही ढंग से स्वरूपित हैं। दस्तावेज़ के लिए मैंने LaTeX का उपयोग करके बनाया, लेखक के साथ सभी संदर्भ "स्मिथ, जे।" या "जे। स्मिथ", आदि, ठीक आयात किए गए थे। यदि लेखक एक कंपनी (एक शब्द) है, या संदर्भ अपूर्ण है, तो यह भी काम नहीं करता है। निकाले गए संदर्भों को आसानी से संपादित किया जा सकता है और BibTeX, आदि को निर्यात किया जा सकता है।


2
"यह सुविधा मेंडेली 0.9.7 में हटा दी गई थी क्योंकि यह उचित मूल्य प्रदान करने के लिए उचित मात्रा में संसाधनों (क्लाइंट और सर्वर साइड) का उपभोग कर रहा था। हमारी भविष्य में इसे बेहतर रूप में फिर से पेश करने की योजना है।" ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…
iceman

1

मैंने एक वेस्टलाव कार्यक्रम देखा है जो कानूनी उद्धरणों के लिए है, लेकिन यह वह नहीं है जो आप खोज रहे हैं। संदर्भ प्रबंधक शैक्षणिक प्रारूपों के लिए ऐसा कुछ कर सकता है, लेकिन मैंने कभी इसका उपयोग नहीं किया है।



0

Zotero फ़ायरफ़ॉक्स के लिए एक प्लगइन है जो वेब सामग्री के लिए ऐसा करता है। सुनिश्चित नहीं हैं कि दस्तावेज़ / पीडीएफ़ के लिए समान उपकरण है या नहीं


1
मुझे पता है कि यह बिल्कुल वैसा नहीं है जैसा कि ज़ोटेरो के लिए डिज़ाइन किया गया है, लेकिन अगर आपने फ़ायरफ़ॉक्स को प्रासंगिक डेटा के साथ एक टेक्स्ट फ़ाइल या HTML फ़ाइल में इंगित किया है, तो ज़ोटेरो संदर्भों को पहचान सकता है और फिर आप इसे ज़ोत्रो लाइब्रेरी में जोड़ सकते हैं और निर्यात कर सकते हैं जो भी प्रारूप आपको पसंद है उसमें पूरी लाइब्रेरी (मुझे पता है कि ज़ोटेरो प्रारूपों का एक गुच्छा का समर्थन करता है)। यह बड़ी संख्या में फ़ाइलों के लिए दर्दनाक होगा।
nedned

मैं नहीं देखता कि Zotero कैसे ओपी से पूछता है। मैंने इसे स्थापित किया है, लेकिन ऐसा लगता है कि संदर्भ को पार्स करने का कोई विकल्प नहीं है।
रिक्की

Zotero विशेष रूप से कोडित वेबसाइटों के उद्धरणों को नियमित पाठ से नहीं, पार्स करता है।
ओचादो

0

यह संभवतः @ अभिनव के लिए एक टिप्पणी के रूप में अधिक है, लेकिन ज़ोटेरो निश्चित रूप से केवल संरचित डेटा को संभालता है, जैसा कि आप यहां वर्णित हैं:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

एक दिलचस्प हैक एक प्रोग्राम लिखने की कोशिश हो सकती है जो आपके पसंदीदा डेटाबेस में खोज उद्धरण के रूप में प्रत्येक उद्धरण का उपयोग करता है, फिर रेफरी जानकारी उत्पन्न करने के लिए कुछ शून्य जैसी चीज़ों का उपयोग करता है। आप citeUlike जैसी सेवाओं से संरचित जानकारी भी डाउनलोड कर सकते हैं। मुझे पता है अगर तुम ऐसा कुछ कर अंत! (यदि आप करते हैं तो इसे गीथूब पर रखें;)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.