अंग्रेजी वाक्य की जटिलता का निर्धारण कैसे करें?


10

मैं एक दूसरी भाषा के रूप में लोगों को अंग्रेजी सीखने में मदद करने के लिए एक ऐप पर काम कर रहा हूं। मैंने पुष्टि की है कि वाक्य अतिरिक्त संदर्भ प्रदान करके भाषा सीखने में मदद करते हैं। मैंने 60 छात्रों की कक्षा में एक छोटा शोध किया।

मैंने विभिन्न अंग्रेजी शब्दों के लिए विकिपीडिया से सौ हज़ार से अधिक वाक्यों का खनन किया है (बैरोन के 800 शब्दों और 1000 सबसे सामान्य अंग्रेजी शब्दों सहित)

संपूर्ण डेटा https://buildmyvocab.in पर उपलब्ध है

सामग्री की गुणवत्ता बनाए रखने के लिए, मैंने ऐसे वाक्यों को फ़िल्टर किया जो 160 वर्णों से अधिक लंबे थे क्योंकि उन्हें समझना मुश्किल हो सकता है।

अगले कदम के रूप में, मैं आसानी से समझने के क्रम में इस सामग्री को छांटने की प्रक्रिया को स्वचालित करने में सक्षम होना चाहता हूं। मैं स्वयं एक गैर-देशी अंग्रेजी वक्ता हूं। मैं यह जानना चाहता हूं कि मुश्किल से आसान वाक्यों को अलग करने के लिए मैं किन विशेषताओं का उपयोग कर सकता हूं।

इसके अलावा, क्या आपको लगता है कि यह संभव है?

जवाबों:


8

हाँ। विभिन्न मैट्रिक्स हैं, जैसे कि फॉग इंडेक्स। Textacy अजगर में एक अच्छा सूची और कार्यान्वयन है।

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}

आप एंट्रॉपी या अनूठे शब्दों के प्रतिशत को भी देख सकते हैं, लेकिन उपरोक्त मीट्रिक अधिक प्रासंगिक हैं।
ग्रिमस्क्वायर 12
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.