.NET - आप एक सरणी में "कैप" सीमांकित स्ट्रिंग को कैसे विभाजित कर सकते हैं?


114

मैं इस स्ट्रिंग से कैसे जाऊं: "ThisIsMyCapsDelimitedString"

... इस स्ट्रिंग के लिए: "दिस इज़ माई कैप्स डिलीटेड स्ट्रिंग"

VB.net में कोड की सबसे कम लाइनें पसंद की जाती हैं लेकिन C # का भी स्वागत है।

चीयर्स!


1
क्या होता है जब आपको "OldMacDonaldAndMrO'TooleWentToMcDonalds" से निपटना पड़ता है?
ग्रांट वैगनर

2
यह केवल सीमित उपयोग को देखने जा रहा है। मैं मुख्य रूप से इसका उपयोग चर नाम जैसे ThisIsMySpecialVariable,
Matias Nino

यह मेरे लिए काम किया Regex.Replace(s, "([A-Z0-9]+)", " $1").Trim():। और यदि आप प्रत्येक पूंजी पत्र पर विभाजन करना चाहते हैं, तो बस प्लस को हटा दें।
म्लाडेन बी।

जवाबों:


173

मैंने इसे कुछ समय पहले बनाया था। यह CamelCase नाम के प्रत्येक घटक से मेल खाता है।

/([A-Z]+(?=$|[A-Z][a-z])|[A-Z]?[a-z]+)/g

उदाहरण के लिए:

"SimpleHTTPServer" => ["Simple", "HTTP", "Server"]
"camelCase" => ["camel", "Case"]

परिवर्तित करने के लिए कि सिर्फ शब्दों के बीच रिक्त स्थान डालें:

Regex.Replace(s, "([a-z](?=[A-Z])|[A-Z](?=[A-Z][a-z]))", "$1 ")

यदि आपको अंकों को संभालने की आवश्यकता है:

/([A-Z]+(?=$|[A-Z][a-z]|[0-9])|[A-Z]?[a-z]+|[0-9]+)/g

Regex.Replace(s,"([a-z](?=[A-Z]|[0-9])|[A-Z](?=[A-Z][a-z]|[0-9])|[0-9](?=[^0-9]))","$1 ")

1
टेढ़े मेढ़े संयुक्त शब्द! यही कहा जाता था! मुझे यह पसंद है! बहुत धन्यवाद!
मतियास नीनो

19
वास्तव में कैमलकेस में एक प्रमुख लोअरकेस अक्षर है। क्या आप यहाँ का उल्लेख कर रहे हैं PascalCase है।
ड्रू नोक

12
... और जब आप किसी चीज का उल्लेख करते हैं जो "ऊंट केस" या "पास्कल केस" हो सकता है, तो उसे "इंटरकेप्ड" कहा जाता है
क्रिस

"टेक 5" को विभाजित नहीं करता है जो मेरे उपयोग के मामले को विफल कर देगा
पांडावे

1
@PandWood अंक प्रश्न में नहीं थे, इसलिए मेरा जवाब उनके लिए नहीं था। मैंने पैटर्न का एक प्रकार जोड़ा है जो अंकों के लिए खाता है।
मार्कस जार्डेरोट

36
Regex.Replace("ThisIsMyCapsDelimitedString", "(\\B[A-Z])", " $1")

यह अब तक का सबसे अच्छा समाधान है, लेकिन आपको संकलन करने के लिए \\ B का उपयोग करना होगा। अन्यथा कंपाइलर एक एस्केप अनुक्रम के रूप में \ B का इलाज करने की कोशिश करता है।
फेर्रूकियो

अच्छा समाधान है। क्या कोई ऐसा कारण सोच सकता है कि यह स्वीकृत उत्तर नहीं होना चाहिए? क्या यह कम सक्षम है या कम प्रदर्शन करने वाला है?
ड्रू नोक

8
यह लगातार कैप को अलग-अलग शब्दों के रूप में मानता है (जैसे ANZAC 5 शब्द है) जहां MizardX का उत्तर इसे (सही तरीके से IMHO) एक शब्द के रूप में मानता है।
रे

2
@ रे, मैं तर्क दूंगा कि "ANZAC" को "एंज़ैक" के रूप में लिखा जाना चाहिए क्योंकि इसे अंग्रेजी केस नहीं माना जाता है।
सैम

1
@ नियॉक्स, अंग्रेजी में यह होना चाहिए, लेकिन यह संक्षिप्त-मामला या सामान्य-अंग्रेजी-मामला नहीं है; यह कैप-सीमांकित है। यदि स्रोत पाठ को उसी तरह कैपिटल किया जाना चाहिए जो सामान्य अंग्रेजी में है, तो अन्य अक्षरों को भी कैपिटल नहीं किया जाना चाहिए। उदाहरण के लिए, "i" में "कैप" को कैपिटल-सीमांकित प्रारूप में फिट करने के लिए क्यों नहीं होना चाहिए, लेकिन "एनजैक" में "एनजेडएसी" नहीं? कड़ाई से बोलते हुए, यदि आप "ANZAC" की व्याख्या कैप-सीमांकित करते हैं तो यह 5 शब्द हैं, प्रत्येक अक्षर के लिए एक।
सैम

19

महान जवाब, MizardX! मैंने अंकों को अलग-अलग शब्दों के रूप में व्यवहार करने के लिए इसे थोड़ा बदल दिया, ताकि "AddressLine1" "पता Line1" के बजाय "पता पंक्ति 1" बन जाए:

Regex.Replace(s, "([a-z](?=[A-Z0-9])|[A-Z](?=[A-Z][a-z]))", "$1 ")

2
बढ़िया जोड़! मुझे लगता है कि कुछ लोगों को स्ट्रिंग्स में संख्याओं के स्वीकृत जवाब से आश्चर्य नहीं होगा। :)
जॉर्डन ग्रे

मुझे पता है कि आपको यह पोस्ट करते हुए लगभग 8 साल हो चुके हैं, लेकिन इसने मेरे लिए भी पूरी तरह से काम किया है। :) संख्याओं ने मुझे सबसे पहले उलझाया।
माइकल आर्मेस

एकमात्र उत्तर जो मेरे 2 बाह्य परीक्षणों को पार करता है: "टेक 5" -> "टेक 5", "प्रकाशकआईडी" -> "प्रकाशक आईडी"। मैं इसे दो बार ऊपर
उठाना

18

बस थोड़ी विविधता के लिए ... यहाँ एक विस्तार विधि है जो रेगेक्स का उपयोग नहीं करता है।

public static class CamelSpaceExtensions
{
    public static string SpaceCamelCase(this String input)
    {
        return new string(Enumerable.Concat(
            input.Take(1), // No space before initial cap
            InsertSpacesBeforeCaps(input.Skip(1))
        ).ToArray());
    }

    private static IEnumerable<char> InsertSpacesBeforeCaps(IEnumerable<char> input)
    {
        foreach (char c in input)
        {
            if (char.IsUpper(c)) 
            { 
                yield return ' '; 
            }

            yield return c;
        }
    }
}

ट्रिम () का उपयोग करने से बचने के लिए, फोरचेक से पहले: इंट काउंटर = -1। अंदर, काउंटर ++ जोड़ें। चेक को इसमें बदलें: अगर (char.IsUpper (c) && काउंटर> 0)
बॉक्स के बाहर डेवलपर

यह 1 वर्ण से पहले एक स्थान सम्मिलित करता है।
जार शारदान

मैंने @ZarShardan द्वारा बताई गई समस्या को ठीक करने की स्वतंत्रता ली है। यदि आप परिवर्तन को नापसंद करते हैं तो कृपया अपने स्वयं के सुधार को वापस करने या संपादित करने के लिए स्वतंत्र महसूस करें।
jpmc26

क्या इसे बड़े अक्षरों में अंतिम अपरकेस से पहले एक स्थान जोड़कर उदाहरण के लिए संक्षिप्तीकरण को बढ़ाया जा सकता है जैसे कि BOEForecast अक्षर => BOE का पूर्वानुमान
नेपाल

11

ग्रांट वैगनर की उत्कृष्ट टिप्पणी एक तरफ:

Dim s As String = RegularExpressions.Regex.Replace("ThisIsMyCapsDelimitedString", "([A-Z])", " $1")

अच्छी बात ... कृपया अपनी पसंद के .substring (), .trimstart (), .trimstart (), .remove (), आदि सम्मिलित करने के लिए स्वतंत्र महसूस करें। :)
छद्म मसोचवादी

9

मुझे ऐसे समाधान की आवश्यकता थी जो समरूप और संख्याओं का समर्थन करता हो। रेगेक्स-आधारित समाधान निम्नलिखित पैटर्न को "शब्द" के रूप में मानता है:

  • एक कैपिटल लेटर जिसके बाद लोअरकेस लेटर्स आते हैं
  • लगातार संख्याओं का क्रम
  • लगातार कैपिटल अक्षरों (एक्सट्रूडर के रूप में व्याख्या की गई) - एक नया शब्द अंतिम पूंजी का उपयोग करना शुरू कर सकता है, जैसे HTMLGuide => "HTML गाइड", "TheATeam" => "एक टीम"

आप इसे एक-लाइनर के रूप में कर सकते हैं:

Regex.Replace(value, @"(?<!^)((?<!\d)\d|(?(?<=[A-Z])[A-Z](?=[a-z])|[A-Z]))", " $1")

अधिक पठनीय दृष्टिकोण बेहतर हो सकता है:

using System.Text.RegularExpressions;

namespace Demo
{
    public class IntercappedStringHelper
    {
        private static readonly Regex SeparatorRegex;

        static IntercappedStringHelper()
        {
            const string pattern = @"
                (?<!^) # Not start
                (
                    # Digit, not preceded by another digit
                    (?<!\d)\d 
                    |
                    # Upper-case letter, followed by lower-case letter if
                    # preceded by another upper-case letter, e.g. 'G' in HTMLGuide
                    (?(?<=[A-Z])[A-Z](?=[a-z])|[A-Z])
                )";

            var options = RegexOptions.IgnorePatternWhitespace | RegexOptions.Compiled;

            SeparatorRegex = new Regex(pattern, options);
        }

        public static string SeparateWords(string value, string separator = " ")
        {
            return SeparatorRegex.Replace(value, separator + "$1");
        }
    }
}

यहाँ (XUnit) परीक्षणों से एक अर्क है:

[Theory]
[InlineData("PurchaseOrders", "Purchase-Orders")]
[InlineData("purchaseOrders", "purchase-Orders")]
[InlineData("2Unlimited", "2-Unlimited")]
[InlineData("The2Unlimited", "The-2-Unlimited")]
[InlineData("Unlimited2", "Unlimited-2")]
[InlineData("222Unlimited", "222-Unlimited")]
[InlineData("The222Unlimited", "The-222-Unlimited")]
[InlineData("Unlimited222", "Unlimited-222")]
[InlineData("ATeam", "A-Team")]
[InlineData("TheATeam", "The-A-Team")]
[InlineData("TeamA", "Team-A")]
[InlineData("HTMLGuide", "HTML-Guide")]
[InlineData("TheHTMLGuide", "The-HTML-Guide")]
[InlineData("TheGuideToHTML", "The-Guide-To-HTML")]
[InlineData("HTMLGuide5", "HTML-Guide-5")]
[InlineData("TheHTML5Guide", "The-HTML-5-Guide")]
[InlineData("TheGuideToHTML5", "The-Guide-To-HTML-5")]
[InlineData("TheUKAllStars", "The-UK-All-Stars")]
[InlineData("AllStarsUK", "All-Stars-UK")]
[InlineData("UKAllStars", "UK-All-Stars")]

1
+ 1 रेगेक्स को समझाने और इसे पढ़ने योग्य बनाने के लिए। और मैंने कुछ नया सीखा। .NET Regex में एक फ्री-स्पेसिंग मोड और कमेंट्स हैं। धन्यवाद!
फेलिक्स कील

4

अधिक विविधता के लिए, सादे पुराने C # ऑब्जेक्ट का उपयोग करते हुए, निम्न समान उत्पादन करता है @ MizardX की उत्कृष्ट नियमित अभिव्यक्ति।

public string FromCamelCase(string camel)
{   // omitted checking camel for null
    StringBuilder sb = new StringBuilder();
    int upperCaseRun = 0;
    foreach (char c in camel)
    {   // append a space only if we're not at the start
        // and we're not already in an all caps string.
        if (char.IsUpper(c))
        {
            if (upperCaseRun == 0 && sb.Length != 0)
            {
                sb.Append(' ');
            }
            upperCaseRun++;
        }
        else if( char.IsLower(c) )
        {
            if (upperCaseRun > 1) //The first new word will also be capitalized.
            {
                sb.Insert(sb.Length - 1, ' ');
            }
            upperCaseRun = 0;
        }
        else
        {
            upperCaseRun = 0;
        }
        sb.Append(c);
    }

    return sb.ToString();
}

2
वाह, यह बदसूरत है। अब मुझे याद है कि मुझे रेगी से इतना प्यार क्यों है! हालांकि प्रयास के लिए +1। ;)
मार्क ब्रैकेट

3

नीचे एक प्रोटोटाइप है जो निम्नलिखित शीर्षक मामले में परिवर्तित करता है:

  • snake_case
  • टेढ़े मेढ़े संयुक्त शब्द
  • PascalCase
  • वाक्य मामले
  • शीर्षक मामला (वर्तमान स्वरूपण रखें)

जाहिर है कि आपको केवल "ToTitleCase" विधि की आवश्यकता होगी।

using System;
using System.Collections.Generic;
using System.Globalization;
using System.Text.RegularExpressions;

public class Program
{
    public static void Main()
    {
        var examples = new List<string> { 
            "THEQuickBrownFox",
            "theQUICKBrownFox",
            "TheQuickBrownFOX",
            "TheQuickBrownFox",
            "the_quick_brown_fox",
            "theFOX",
            "FOX",
            "QUICK"
        };

        foreach (var example in examples)
        {
            Console.WriteLine(ToTitleCase(example));
        }
    }

    private static string ToTitleCase(string example)
    {
        var fromSnakeCase = example.Replace("_", " ");
        var lowerToUpper = Regex.Replace(fromSnakeCase, @"(\p{Ll})(\p{Lu})", "$1 $2");
        var sentenceCase = Regex.Replace(lowerToUpper, @"(\p{Lu}+)(\p{Lu}\p{Ll})", "$1 $2");
        return new CultureInfo("en-US", false).TextInfo.ToTitleCase(sentenceCase);
    }
}

कंसोल आउट इस प्रकार होगा:

THE Quick Brown Fox
The QUICK Brown Fox
The Quick Brown FOX
The Quick Brown Fox
The Quick Brown Fox
The FOX
FOX
QUICK

ब्लॉग पोस्ट संदर्भित


2
string s = "ThisIsMyCapsDelimitedString";
string t = Regex.Replace(s, "([A-Z])", " $1").Substring(1);

मुझे पता था कि वहाँ एक आसान RegEx तरीका होगा ... मुझे इसे और अधिक उपयोग करना शुरू करना है।
मैक्स शिमलिंग

1
रेगेक्स गुरु नहीं, लेकिन "हर्सेवेटएफस्ट्रिंग" के साथ क्या होता है?
निक

1
आपको "Heres AWTF स्ट्रिंग" मिलता है, लेकिन वास्तव में यही बात मतिस नीनो ने पूछी।
मैक्स शिफ्टिंग

हाँ, उसे यह जोड़ने की जरूरत है कि "कई आसन्न राजधानियाँ अकेली रह गई हैं"। जो स्पष्ट रूप से कई मामलों में आवश्यक है जैसे "
प्रकाशकआईडी

2

रेगेक्स एक साधारण लूप की तुलना में लगभग 10-12 गुना धीमा है:

    public static string CamelCaseToSpaceSeparated(this string str)
    {
        if (string.IsNullOrEmpty(str))
        {
            return str;
        }

        var res = new StringBuilder();

        res.Append(str[0]);
        for (var i = 1; i < str.Length; i++)
        {
            if (char.IsUpper(str[i]))
            {
                res.Append(' ');
            }
            res.Append(str[i]);

        }
        return res.ToString();
    }

1

Naive regex समाधान। ओ'कोनर को नहीं संभालेंगे, और स्ट्रिंग की शुरुआत में भी एक स्थान जोड़ता है।

s = "ThisIsMyCapsDelimitedString"
split = Regex.Replace(s, "[A-Z0-9]", " $&");

मैंने आपको मोड दिया, लेकिन लोग आमतौर पर स्मैकडाउन को बेहतर लेते हैं अगर यह "भोली" से शुरू नहीं होता है।
मुशीगेंसिस

मुझे नहीं लगता कि यह स्मैकडाउन था। इस संदर्भ में, भोले का मतलब आमतौर पर स्पष्ट या सरल होता है (यानी जरूरी नहीं कि सबसे अच्छा समाधान)। अपमान का कोई इरादा नहीं है।
फेरुचियो

0

शायद एक और अधिक सुंदर समाधान है, लेकिन यह वही है जो मैं अपने सिर के ऊपर से आता हूं:

string myString = "ThisIsMyCapsDelimitedString";

for (int i = 1; i < myString.Length; i++)
{
     if (myString[i].ToString().ToUpper() == myString[i].ToString())
     {
          myString = myString.Insert(i, " ");
          i++;
     }
}

0

उपयोग करने का प्रयास करें

"([A-Z]*[^A-Z]*)"

परिणाम संख्याओं के साथ वर्णमाला मिश्रण के लिए फिट होगा

Regex.Replace("AbcDefGH123Weh", "([A-Z]*[^A-Z]*)", "$1 ");
Abc Def GH123 Weh  

Regex.Replace("camelCase", "([A-Z]*[^A-Z]*)", "$1 ");
camel Case  

0

से कोड को लागू करना: https://stackoverflow.com/a/5796394/4279201

    private static StringBuilder camelCaseToRegular(string i_String)
    {
        StringBuilder output = new StringBuilder();
        int i = 0;
        foreach (char character in i_String)
        {
            if (character <= 'Z' && character >= 'A' && i > 0)
            {
                output.Append(" ");
            }
            output.Append(character);
            i++;
        }
        return output;
    }


0

प्रक्रियात्मक और तेजी से निहित:

  /// <summary>
  /// Get the words in a code <paramref name="identifier"/>.
  /// </summary>
  /// <param name="identifier">The code <paramref name="identifier"/></param> to extract words from.
  public static string[] GetWords(this string identifier) {
     Contract.Ensures(Contract.Result<string[]>() != null, "returned array of string is not null but can be empty");
     if (identifier == null) { return new string[0]; }
     if (identifier.Length == 0) { return new string[0]; }

     const int MIN_WORD_LENGTH = 2;  //  Ignore one letter or one digit words

     var length = identifier.Length;
     var list = new List<string>(1 + length/2); // Set capacity, not possible more words since we discard one char words
     var sb = new StringBuilder();
     CharKind cKindCurrent = GetCharKind(identifier[0]); // length is not zero here
     CharKind cKindNext = length == 1 ? CharKind.End : GetCharKind(identifier[1]);

     for (var i = 0; i < length; i++) {
        var c = identifier[i];
        CharKind cKindNextNext = (i >= length - 2) ? CharKind.End : GetCharKind(identifier[i + 2]);

        // Process cKindCurrent
        switch (cKindCurrent) {
           case CharKind.Digit:
           case CharKind.LowerCaseLetter:
              sb.Append(c); // Append digit or lowerCaseLetter to sb
              if (cKindNext == CharKind.UpperCaseLetter) {
                 goto TURN_SB_INTO_WORD; // Finish word if next char is upper
              }
              goto CHAR_PROCESSED;
           case CharKind.Other:
              goto TURN_SB_INTO_WORD;
           default:  // charCurrent is never Start or End
              Debug.Assert(cKindCurrent == CharKind.UpperCaseLetter);
              break;
        }

        // Here cKindCurrent is UpperCaseLetter
        // Append UpperCaseLetter to sb anyway
        sb.Append(c); 

        switch (cKindNext) {
           default:
              goto CHAR_PROCESSED;

           case CharKind.UpperCaseLetter: 
              //  "SimpleHTTPServer"  when we are at 'P' we need to see that NextNext is 'e' to get the word!
              if (cKindNextNext == CharKind.LowerCaseLetter) {
                 goto TURN_SB_INTO_WORD;
              }
              goto CHAR_PROCESSED;

           case CharKind.End:
           case CharKind.Other:
              break; // goto TURN_SB_INTO_WORD;
        }

        //------------------------------------------------

     TURN_SB_INTO_WORD:
        string word = sb.ToString();
        sb.Length = 0;
        if (word.Length >= MIN_WORD_LENGTH) {  
           list.Add(word);
        }

     CHAR_PROCESSED:
        // Shift left for next iteration!
        cKindCurrent = cKindNext;
        cKindNext = cKindNextNext;
     }

     string lastWord = sb.ToString();
     if (lastWord.Length >= MIN_WORD_LENGTH) {
        list.Add(lastWord);
     }
     return list.ToArray();
  }
  private static CharKind GetCharKind(char c) {
     if (char.IsDigit(c)) { return CharKind.Digit; }
     if (char.IsLetter(c)) {
        if (char.IsUpper(c)) { return CharKind.UpperCaseLetter; }
        Debug.Assert(char.IsLower(c));
        return CharKind.LowerCaseLetter;
     }
     return CharKind.Other;
  }
  enum CharKind {
     End, // For end of string
     Digit,
     UpperCaseLetter,
     LowerCaseLetter,
     Other
  }

टेस्ट:

  [TestCase((string)null, "")]
  [TestCase("", "")]

  // Ignore one letter or one digit words
  [TestCase("A", "")]
  [TestCase("4", "")]
  [TestCase("_", "")]
  [TestCase("Word_m_Field", "Word Field")]
  [TestCase("Word_4_Field", "Word Field")]

  [TestCase("a4", "a4")]
  [TestCase("ABC", "ABC")]
  [TestCase("abc", "abc")]
  [TestCase("AbCd", "Ab Cd")]
  [TestCase("AbcCde", "Abc Cde")]
  [TestCase("ABCCde", "ABC Cde")]

  [TestCase("Abc42Cde", "Abc42 Cde")]
  [TestCase("Abc42cde", "Abc42cde")]
  [TestCase("ABC42Cde", "ABC42 Cde")]
  [TestCase("42ABC", "42 ABC")]
  [TestCase("42abc", "42abc")]

  [TestCase("abc_cde", "abc cde")]
  [TestCase("Abc_Cde", "Abc Cde")]
  [TestCase("_Abc__Cde_", "Abc Cde")]
  [TestCase("ABC_CDE_FGH", "ABC CDE FGH")]
  [TestCase("ABC CDE FGH", "ABC CDE FGH")] // Should not happend (white char) anything that is not a letter/digit/'_' is considered as a separator
  [TestCase("ABC,CDE;FGH", "ABC CDE FGH")] // Should not happend (,;) anything that is not a letter/digit/'_' is considered as a separator
  [TestCase("abc<cde", "abc cde")]
  [TestCase("abc<>cde", "abc cde")]
  [TestCase("abc<D>cde", "abc cde")]  // Ignore one letter or one digit words
  [TestCase("abc<Da>cde", "abc Da cde")]
  [TestCase("abc<cde>", "abc cde")]

  [TestCase("SimpleHTTPServer", "Simple HTTP Server")]
  [TestCase("SimpleHTTPS2erver", "Simple HTTPS2erver")]
  [TestCase("camelCase", "camel Case")]
  [TestCase("m_Field", "Field")]
  [TestCase("mm_Field", "mm Field")]
  public void Test_GetWords(string identifier, string expectedWordsStr) {
     var expectedWords = expectedWordsStr.Split(' ');
     if (identifier == null || identifier.Length <= 1) {
        expectedWords = new string[0];
     }

     var words = identifier.GetWords();
     Assert.IsTrue(words.SequenceEqual(expectedWords));
  }

0

एक सरल समाधान, जो एक रेग्जेस समाधान की तुलना में तेजी से परिमाण का क्रम (एस) होना चाहिए (इस थ्रेड में शीर्ष समाधानों के खिलाफ मेरे द्वारा चलाए गए परीक्षणों के आधार पर), विशेष रूप से इनपुट स्ट्रिंग का आकार बढ़ता है:

string s1 = "ThisIsATestStringAbcDefGhiJklMnoPqrStuVwxYz";
string s2;
StringBuilder sb = new StringBuilder();

foreach (char c in s1)
    sb.Append(char.IsUpper(c)
        ? " " + c.ToString()
        : c.ToString());

s2 = sb.ToString();
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.