преди 3 години · dd89901b07
--- a/Userland/Libraries/LibUnicode/Locale.cpp
+++ b/Userland/Libraries/LibUnicode/Locale.cpp
@@ -53,7 +53,26 @@ bool is_unicode_variant_subtag(StringView subtag)
 
				     return false;
			
 
				 }
			
 
				 
			
 
				-Optional<LanguageID> parse_unicode_language_id(StringView language)
			
 
				+static Optional<StringView> consume_next_segment(GenericLexer& lexer, bool with_separator)
			
 
				+{
			
 
				+    constexpr auto is_separator = is_any_of("-_"sv);
			
 
				+
			
 
				+    if (with_separator) {
			
 
				+        if (!lexer.next_is(is_separator))
			
 
				+            return {};
			
 
				+        lexer.ignore();
			
 
				+    }
			
 
				+
			
 
				+    auto segment = lexer.consume_until(is_separator);
			
 
				+    if (segment.is_empty()) {
			
 
				+        lexer.retreat(with_separator);
			
 
				+        return {};
			
 
				+    }
			
 
				+
			
 
				+    return segment;
			
 
				+}
			
 
				+
			
 
				+static Optional<LanguageID> parse_unicode_language_id(GenericLexer& lexer)
			
 
				 {
			
 
				     // https://unicode.org/reports/tr35/#Unicode_language_identifier
			
 
				     //
			
@@ -64,48 +83,90 @@ Optional<LanguageID> parse_unicode_language_id(StringView language)
 
				     //                       (sep unicode_variant_subtag)*
			
 
				     LanguageID language_id {};
			
 
				 
			
 
				-    if (language == "root"sv) {
			
 
				+    if (lexer.consume_specific("root"sv)) {
			
 
				         language_id.is_root = true;
			
 
				         return language_id;
			
 
				     }
			
 
				 
			
 
				-    auto segments = language.split_view_if(is_any_of("-_"sv), true); // keep_empty=true to ensure valid data follows a separator.
			
 
				-    size_t index = 0;
			
 
				+    enum class ParseState {
			
 
				+        ParsingLanguageOrScript,
			
 
				+        ParsingScript,
			
 
				+        ParsingRegion,
			
 
				+        ParsingVariant,
			
 
				+        Done,
			
 
				+    };
			
 
				 
			
 
				-    if (segments.size() == index)
			
 
				-        return {};
			
 
				+    auto state = ParseState::ParsingLanguageOrScript;
			
 
				 
			
 
				-    if (is_unicode_language_subtag(segments[index])) {
			
 
				-        language_id.language = segments[index];
			
 
				-        if (segments.size() == ++index)
			
 
				-            return language_id;
			
 
				-    }
			
 
				+    while (!lexer.is_eof() && (state != ParseState::Done)) {
			
 
				+        auto segment = consume_next_segment(lexer, state != ParseState::ParsingLanguageOrScript);
			
 
				+        if (!segment.has_value())
			
 
				+            return {};
			
 
				 
			
 
				-    if (is_unicode_script_subtag(segments[index])) {
			
 
				-        language_id.script = segments[index];
			
 
				-        if (segments.size() == ++index)
			
 
				-            return language_id;
			
 
				-    } else if (!language_id.language.has_value()) {
			
 
				-        return {};
			
 
				+        switch (state) {
			
 
				+        case ParseState::ParsingLanguageOrScript:
			
 
				+            if (is_unicode_language_subtag(*segment)) {
			
 
				+                state = ParseState::ParsingScript;
			
 
				+                language_id.language = *segment;
			
 
				+            } else if (is_unicode_script_subtag(*segment)) {
			
 
				+                state = ParseState::ParsingRegion;
			
 
				+                language_id.script = *segment;
			
 
				+            } else {
			
 
				+                return {};
			
 
				+            }
			
 
				+            break;
			
 
				+
			
 
				+        case ParseState::ParsingScript:
			
 
				+            if (is_unicode_script_subtag(*segment)) {
			
 
				+                state = ParseState::ParsingRegion;
			
 
				+                language_id.script = *segment;
			
 
				+                break;
			
 
				+            }
			
 
				+
			
 
				+            state = ParseState::ParsingRegion;
			
 
				+            [[fallthrough]];
			
 
				+
			
 
				+        case ParseState::ParsingRegion:
			
 
				+            if (is_unicode_region_subtag(*segment)) {
			
 
				+                state = ParseState::ParsingVariant;
			
 
				+                language_id.region = *segment;
			
 
				+                break;
			
 
				+            }
			
 
				+
			
 
				+            state = ParseState::ParsingVariant;
			
 
				+            [[fallthrough]];
			
 
				+
			
 
				+        case ParseState::ParsingVariant:
			
 
				+            if (is_unicode_variant_subtag(*segment)) {
			
 
				+                language_id.variants.append(*segment);
			
 
				+            } else {
			
 
				+                lexer.retreat(segment->length() + 1);
			
 
				+                state = ParseState::Done;
			
 
				+            }
			
 
				+            break;
			
 
				+
			
 
				+        default:
			
 
				+            VERIFY_NOT_REACHED();
			
 
				+        }
			
 
				     }
			
 
				 
			
 
				-    if (is_unicode_region_subtag(segments[index])) {
			
 
				-        language_id.region = segments[index];
			
 
				-        if (segments.size() == ++index)
			
 
				-            return language_id;
			
 
				-    }
			
 
				+    return language_id;
			
 
				+}
			
 
				 
			
 
				-    while (index < segments.size()) {
			
 
				-        if (!is_unicode_variant_subtag(segments[index]))
			
 
				-            return {};
			
 
				-        language_id.variants.append(segments[index++]);
			
 
				-    }
			
 
				+Optional<LanguageID> parse_unicode_language_id(StringView language)
			
 
				+{
			
 
				+    GenericLexer lexer { language };
			
 
				+
			
 
				+    auto language_id = parse_unicode_language_id(lexer);
			
 
				+    if (!lexer.is_eof())
			
 
				+        return {};
			
 
				 
			
 
				     return language_id;
			
 
				 }
			
 
				 
			
 
				 Optional<LocaleID> parse_unicode_locale_id(StringView locale)
			
 
				 {
			
 
				+    GenericLexer lexer { locale };
			
 
				     LocaleID locale_id {};
			
 
				 
			
 
				     // https://unicode.org/reports/tr35/#Unicode_locale_identifier
			
@@ -113,11 +174,15 @@ Optional<LocaleID> parse_unicode_locale_id(StringView locale)
 
				     // unicode_locale_id = unicode_language_id
			
 
				     //                     extensions*
			
 
				     //                     pu_extensions?
			
 
				-    auto language_id = parse_unicode_language_id(locale);
			
 
				+    auto language_id = parse_unicode_language_id(lexer);
			
 
				     if (!language_id.has_value())
			
 
				         return {};
			
 
				 
			
 
				     // FIXME: Handle extensions and pu_extensions.
			
 
				+
			
 
				+    if (!lexer.is_eof())
			
 
				+        return {};
			
 
				+
			
 
				     return LocaleID { language_id.release_value() };
			
 
				 }