# Language dict language_code_to_name = { "afr": "Afrikaans", "amh": "Amharic", "arb": "Modern Standard Arabic", "ary": "Moroccan Arabic", "arz": "Egyptian Arabic", "asm": "Assamese", "ast": "Asturian", "azj": "North Azerbaijani", "bel": "Belarusian", "ben": "Bengali", "bos": "Bosnian", "bul": "Bulgarian", "cat": "Catalan", "ceb": "Cebuano", "ces": "Czech", "ckb": "Central Kurdish", "cmn": "Mandarin Chinese", "cym": "Welsh", "dan": "Danish", "deu": "German", "ell": "Greek", "eng": "English", "est": "Estonian", "eus": "Basque", "fin": "Finnish", "fra": "French", "gaz": "West Central Oromo", "gle": "Irish", "glg": "Galician", "guj": "Gujarati", "heb": "Hebrew", "hin": "Hindi", "hrv": "Croatian", "hun": "Hungarian", "hye": "Armenian", "ibo": "Igbo", "ind": "Indonesian", "isl": "Icelandic", "ita": "Italian", "jav": "Javanese", "jpn": "Japanese", "kam": "Kamba", "kan": "Kannada", "kat": "Georgian", "kaz": "Kazakh", "kea": "Kabuverdianu", "khk": "Halh Mongolian", "khm": "Khmer", "kir": "Kyrgyz", "kor": "Korean", "lao": "Lao", "lit": "Lithuanian", "ltz": "Luxembourgish", "lug": "Ganda", "luo": "Luo", "lvs": "Standard Latvian", "mai": "Maithili", "mal": "Malayalam", "mar": "Marathi", "mkd": "Macedonian", "mlt": "Maltese", "mni": "Meitei", "mya": "Burmese", "nld": "Dutch", "nno": "Norwegian Nynorsk", "nob": "Norwegian Bokm\u00e5l", "npi": "Nepali", "nya": "Nyanja", "oci": "Occitan", "ory": "Odia", "pan": "Punjabi", "pbt": "Southern Pashto", "pes": "Western Persian", "pol": "Polish", "por": "Portuguese", "ron": "Romanian", "rus": "Russian", "slk": "Slovak", "slv": "Slovenian", "sna": "Shona", "snd": "Sindhi", "som": "Somali", "spa": "Spanish", "srp": "Serbian", "swe": "Swedish", "swh": "Swahili", "tam": "Tamil", "tel": "Telugu", "tgk": "Tajik", "tgl": "Tagalog", "tha": "Thai", "tur": "Turkish", "ukr": "Ukrainian", "urd": "Urdu", "uzn": "Northern Uzbek", "vie": "Vietnamese", "xho": "Xhosa", "yor": "Yoruba", "yue": "Cantonese", "zlm": "Colloquial Malay", "zsm": "Standard Malay", "zul": "Zulu", } original_language_code_to_name = { "afr": "Afrikaans", "amh": "አማርኛ", "arb": "العربية", "ary": "الدارجة المغربية", "arz": "العامية المصرية", "asm": "অসমীয়া", "ast": "Asturianu", "azj": "Azərbaycanca", "bel": "Беларуская", "ben": "বাংলা", "bos": "Bosanski", "bul": "Български", "cat": "Català", "ceb": "Cebuano", "ces": "Čeština", "ckb": "کوردی ناوەندی", "cmn": "普通话", "cym": "Cymraeg", "dan": "Dansk", "deu": "Deutsch", "ell": "Ελληνικά", "eng": "English", "est": "Eesti", "eus": "Euskara", "fin": "Suomi", "fra": "Français", "gaz": "Afaan Oromoo", "gle": "Gaeilge", "glg": "Galego", "guj": "ગુજરાતી", "heb": "עברית", "hin": "हिंदी", "hrv": "Hrvatski", "hun": "Magyar", "hye": "Հայերեն", "ibo": "Igbo", "ind": "Bahasa Indonesia", "isl": "Íslenska", "ita": "Italiano", "jav": "Basa Jawa", "jpn": "日本語", "kam": "Kikamba", "kan": "ಕನ್ನಡ", "kat": "ქართული", "kaz": "Қазақ тілі", "kea": "Kriolu di Kabuverdianu", "khk": "Халх", "khm": "ខ្មែរ", "kir": "Кыргызча", "kor": "한국어", "lao": "ລາວ", "lit": "Lietuvių", "ltz": "Lëtzebuergesch", "lug": "Luganda", "luo": "Dholuo", "lvs": "Latviešu", "mai": "मैथिली", "mal": "മലയാളം", "mar": "मराठी", "mkd": "Македонски", "mlt": "Malti", "mni": "মৈতৈলোন", "mya": "မြန်မာ", "nld": "Nederlands", "nno": "Nynorsk", "nob": "Bokmål", "npi": "नेपाली", "nya": "Chichewa", "oci": "Occitan", "ory": "ଓଡ଼ିଆ", "pan": "ਪੰਜਾਬੀ", "pbt": "پښتو", "pes": "فارسی", "pol": "Polski", "por": "Português", "ron": "Română", "rus": "Русский", "slk": "Slovenčina", "slv": "Slovenščina", "sna": "ChiShona", "snd": "سنڌي", "som": "Soomaali", "spa": "Español", "srp": "Српски", "swe": "Svenska", "swh": "Kiswahili", "tam": "தமிழ்", "tel": "తెలుగు", "tgk": "Тоҷикӣ", "tgl": "Tagalog", "tha": "ไทย", "tur": "Türkçe", "ukr": "Українська", "urd": "اردو", "uzn": "O‘zbekcha", "vie": "Tiếng Việt", "xho": "IsiXhosa", "yor": "Yorùbá", "yue": "粤语", "zlm": "Bahasa Melayu", "zsm": "Bahasa Melayu", "zul": "IsiZulu", } LANGUAGE_NAME_TO_CODE = {v: k for k, v in language_code_to_name.items()} ORIGINAL_LANGUAGE_NAME_TO_CODE = {v: k for k, v in original_language_code_to_name.items()} # Source langs: S2ST / S2TT / ASR don't need source lang # T2TT / T2ST use this text_source_language_codes = [ "afr", "amh", "arb", "ary", "arz", "asm", "azj", "bel", "ben", "bos", "bul", "cat", "ceb", "ces", "ckb", "cmn", "cym", "dan", "deu", "ell", "eng", "est", "eus", "fin", "fra", "gaz", "gle", "glg", "guj", "heb", "hin", "hrv", "hun", "hye", "ibo", "ind", "isl", "ita", "jav", "jpn", "kan", "kat", "kaz", "khk", "khm", "kir", "kor", "lao", "lit", "lug", "luo", "lvs", "mai", "mal", "mar", "mkd", "mlt", "mni", "mya", "nld", "nno", "nob", "npi", "nya", "ory", "pan", "pbt", "pes", "pol", "por", "ron", "rus", "slk", "slv", "sna", "snd", "som", "spa", "srp", "swe", "swh", "tam", "tel", "tgk", "tgl", "tha", "tur", "ukr", "urd", "uzn", "vie", "yor", "yue", "zsm", "zul", ] TEXT_SOURCE_LANGUAGE_NAMES = sorted([language_code_to_name[code] for code in text_source_language_codes]) # Target langs: # S2ST / T2ST s2st_target_language_codes = [ "eng", "arb", "ben", "cat", "ces", "cmn", "cym", "dan", "deu", "est", "fin", "fra", "hin", "ind", "ita", "jpn", "kor", "mlt", "nld", "pes", "pol", "por", "ron", "rus", "slk", "spa", "swe", "swh", "tel", "tgl", "tha", "tur", "ukr", "urd", "uzn", "vie", ] S2ST_TARGET_LANGUAGE_NAMES = sorted([language_code_to_name[code] for code in s2st_target_language_codes]) S2ST_TARGET_ORIGINAL_LANGUAGE_NAMES = sorted([original_language_code_to_name[code] for code in s2st_target_language_codes]) # S2TT / ASR S2TT_TARGET_LANGUAGE_NAMES = TEXT_SOURCE_LANGUAGE_NAMES # T2TT T2TT_TARGET_LANGUAGE_NAMES = TEXT_SOURCE_LANGUAGE_NAMES