मुझे लगता है कि यह पर्याप्त होना चाहिए:
#!python
import re
pattern = re.compile(r'<title>([^<]*)</title>', re.MULTILINE|re.IGNORECASE)
pattern.search(text)
... यह मानते हुए कि आपका पाठ (HTML) "पाठ" नामक एक चर में है।
यह भी मानता है कि अन्य HTML टैग नहीं हैं जो कानूनी रूप से एक HTML शीर्षक टैग के अंदर एम्बेड किए जा सकते हैं और इस तरह के कंटेनर / ब्लॉक के भीतर कानूनी रूप से किसी अन्य <चरित्र को एम्बेड करने का कोई तरीका नहीं है।
हालांकि ...
पायथन में HTML पार्सिंग के लिए नियमित अभिव्यक्ति का उपयोग न करें। HTML parser का उपयोग करें! (जब तक आप एक पूर्ण पार्सर लिखने नहीं जा रहे हैं, जो विभिन्न एचटीएमएल, एसजीएमएल और एक्सएमएल पार्सर मानक पुस्तकालयों में पहले से ही हैं, तो एक अतिरिक्त काम होगा।
यदि आपकी हैंडलिंग "वास्तविक दुनिया" टैग सूप एचटीएमएल (जो कि किसी भी एसजीएमएल / एक्सएमएल सत्यापनकर्ता के लिए अक्सर गैर-अनुरूप है) तो ब्यूटीफुल पैकेज का उपयोग करें । यह मानक पुस्तकालयों (अभी तक) में नहीं है, लेकिन इस उद्देश्य के लिए व्यापक रूप से अनुशंसित है।
एक अन्य विकल्प है: lxml ... जो ठीक से संरचित (मानकों के अनुरूप) HTML के लिए लिखा गया है। लेकिन ब्यूटीफुलसपर्स को पार्सर के रूप में उपयोग करने के लिए कमबैक करने का एक विकल्प है: एलीमेंटसैप ।