एक समस्या है जिसे हम हल करने की कोशिश कर रहे हैं जहां हम अपने डेटा के सेट पर सिमेंटिक खोज करना चाहते हैं, यानी हमारे पास एक डोमेन-विशिष्ट डेटा है (उदाहरण: ऑटोमोबाइल के बारे में बात कर रहे वाक्य)
हमारा डेटा वाक्यों का एक गुच्छा है और हम जो चाहते हैं वह एक वाक्यांश देना है और जो वाक्य हैं उन्हें वापस लेना है:
- उस वाक्यांश के समान
- एक वाक्य का एक हिस्सा है जो वाक्यांश के समान है
- एक वाक्य जिसका संदर्भ समान रूप से हो रहा है
मैं आपको एक उदाहरण देने की कोशिश करता हूं मान लीजिए कि मैं "खरीदना अनुभव" वाक्यांश के लिए खोज करता हूं, मुझे इस तरह के वाक्य प्राप्त करने चाहिए:
- मैंने कभी नहीं सोचा था कि कार खरीदने में हस्ताक्षर करने और खरीदने में 30 मिनट से कम समय लग सकता है।
मुझे एक कार मिली जो मुझे पसंद थी और खरीद प्रक्रिया
सीधी और आसान थीमुझे कार की खरीदारी से बिल्कुल नफरत थी, लेकिन आज मुझे खुशी है कि मैंने ऐसा किया
मैं इस तथ्य पर जोर देना चाहता हूं कि हम प्रासंगिक समानता की तलाश कर रहे हैं न कि केवल एक क्रूर बल शब्द खोज।
यदि वाक्य अलग-अलग शब्दों का उपयोग करता है तो उसे खोजने में भी सक्षम होना चाहिए।
चीजें जो हमने पहले ही आज़मा ली हैं:
ओपन सिमेंटिक हमारे द्वारा यहां की गई समस्या को खोजा गया है जो हमारे पास मौजूद डेटा से या फिर हमारे हित के विभिन्न डोमेन से उपलब्ध ऑन्कोलॉजी की खोज के लिए ऑन्कोलॉजी उत्पन्न कर रहा है।
इलास्टिक सर्च (BM25 + Vectors (tf-idf)), हमने यह कोशिश की जहां इसने कुछ वाक्य दिए लेकिन सटीकता इतनी महान नहीं थी। सटीकता भी खराब थी। हमने एक मानव-घुमावदार डेटासेट के खिलाफ प्रयास किया, यह केवल 10% वाक्यों को प्राप्त करने में सक्षम था।
हमने अलग-अलग एम्बेडिंग की कोशिश की जैसे कि एक बार वाक्य-ट्रांसफॉर्मर में उल्लेख किया गया था और उदाहरण के माध्यम से भी गया और हमारे मानव-क्यूरेट सेट के खिलाफ मूल्यांकन करने की कोशिश की और जिसमें बहुत कम सटीकता भी थी।
हमने ELMO की कोशिश की । यह बेहतर था लेकिन फिर भी हमारी अपेक्षा से कम सटीकता थी और कॉशन मूल्य तय करने के लिए एक संज्ञानात्मक भार है जिसके नीचे हमें वाक्यों पर विचार नहीं करना चाहिए। यह बात 3 पर भी लागू होती है।
किसी भी तरह की सहायता को आभार समझेंगे। अग्रिम में मदद के लिए बहुत बहुत धन्यवाद