Respair
/

Hibiki_ASR_Phonemizer_v0.2

Generated from Trainer

Model card Files Files and versions Community

Respair commited on Aug 18

Commit

9c4b396

•

1 Parent(s): 69cf26e

Update README.md

Files changed (1) hide show

README.md +20 -2

README.md CHANGED Viewed

@@ -39,7 +39,8 @@ more accurate representation for Japanese.
 from datasets import Dataset, Audio
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
-import jaconv
 kana_mapper = dict([
     ("ゔぁ","ba"),
@@ -70,7 +71,24 @@ model = WhisperForConditionalGeneration.from_pretrained("Respair/Hibiki_ASR_Phon
 forced_decoder_ids = processor.get_decoder_prompt_ids(task="transcribe", language='japanese')
-import re
 sample = Dataset.from_dict({"audio": ["/content/kl_chunk1987.wav"]}).cast_column("audio", Audio(16000))
 sample = sample[0]['audio']

 from datasets import Dataset, Audio
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
+import re
+import pykakasi
 kana_mapper = dict([
     ("ゔぁ","ba"),
 forced_decoder_ids = processor.get_decoder_prompt_ids(task="transcribe", language='japanese')
+def convert_to_kana(text):
+    kks = pykakasi.kakasi()
+    def convert_word(word):
+        result = kks.convert(word)
+        return ''.join(item['hira'] for item in result)
+    parts = re.split(r'([^\u3000-\u30ff\u3400-\u4dbf\u4e00-\u9fff]+)', text)
+    converted_parts = [convert_word(part) if re.match(r'[\u3000-\u30ff\u3400-\u4dbf\u4e00-\u9fff]', part) else part for part in parts]
+    return ''.join(converted_parts)
 sample = Dataset.from_dict({"audio": ["/content/kl_chunk1987.wav"]}).cast_column("audio", Audio(16000))
 sample = sample[0]['audio']