素晴らしいプロジェクト

#2
by oflakne26 - opened

こんにちは!素晴らしいプロジェクトですね。

実は、しばらくの間、多言語対応のTTSモデルを探していました。StyleTTS 2は英語において非常に優れた成果を出しているのですが、今日まで他の言語で訓練された例を見たことがありませんでした。

そこで、あなたがプロセスについて少し情報を公開されていて、少なくとも20時間分のデータセットを使用し、PL-BERTを一から訓練したことを知りました。

いくつか質問があるのですが、お答えいただけると幸いです。

  1. データセットはどこで入手されたのでしょうか。PL-BERTとTTSの両方です。20時間分のデータセットは相当な量だと思います。もし共有するのが難しい場合は大丈夫です。単に興味があって伺いました。
  2. スクリプトやモデルを公開していただくことは可能でしょうか。特にPL-BERTのモデルを知りたいです。私も日本語のTTSモデルを訓練したいと思っていますが、StyleTTSのファインチューニングに関する情報がほとんど見つからない状況です。Google ColabプロジェクトやJupyterノートブックなど、ガイドがあれば教えていただけると嬉しいです。
  3. 多言語のデータセットで訓練することは可能だと思いますか。たとえば、英語と日本語の両方を話せるモデルを目指すとします。最終的には、「日本語で『こんにちは』は『Hello』です」というような多言語の文章を入力し、途中でシームレスにコードスイッチングができるモデルにしたいと考えています。もしPL-BERTが多言語対応で、2つの言語の書記体系の違いを理解し、データセットが十分に大きく、モデルがゼロから訓練された場合、このようなことが可能だと思われますか。

最後に、素晴らしい取り組みをしてくださり感謝いたします。このプロジェクトは非常に興味深いです。StyleTTS 2を利用した外国語対応のプロジェクトがさらに増えることを期待しています。

追伸:Hugging Face Spaceの表示名を変更することを検討してみてはいかがでしょうか。現在、URLには「styletts2_Japanese」とありますが、表示名は「StyleTTS 2」だけなので、このプロジェクトを見つけるのに苦労しました。他の方々の利便性のためにも、表示名に「Japanese」を追加することをお勧めします。

This comment has been hidden

こんにちは。気に入っていただけて嬉しいです。
正直、日本語のTTSを作るのは初めての挑戦でしたので、結果にはまぁ満足していますが、決して今のモデルが万能ではありません。これを考慮しながら、ご質問に出来る範囲でお答えします。

  1. PL-BertのデータはOSCAR(日本語の部分だけ、それもまた30%くらい)+WIKI 40B Japanese の全部を使いました。TTSデータは自分でスクレイピングし、発音が正確であるようにデータの半分を手作業でクリーニングしました。有名な声優さんの音声を使用しています。僕は一応日本人じゃありませんので、データセットをシェアしても個人的にはどうでもいいところなのですが、ただ、たとえ共有した場合にも、そちらにとって、法的に大丈夫でしょうか。

  2. モデルやスクリプトは、すべてスペースのFilesタブから手に入れられます。

  3. コードスイッチはなかなか面白いアイデアですね。STTSのように、IPAを使っているモデルにそのような機能を追加するのは比較的簡単だと思います。まぁ、データさえあれば…。IPAは世の中にあるすべての言語を、発音によって同じ文字で表現するためのものですので、書記体系の違いは問題になりません。

このモデルとスペースを作った時はこれほど見られるとは思いませんでした。実は今210+時間以上を超えて、いろんな機能も追加して、数百人のマルチスピーカーの大規模なモデルをトレーニング予定です。理由にはなりませんが、このスペースをいじる時間もモチベーションもあまりありません。次回は、きちんとしたレポやスペースを作成し、その際にデータセットとコードもノートブックにアップロードします。いつになるかは分かりませんけど、二つのV100Sしか持っていませんのでちょっときつい。

またご質問がありましたら、遠慮なくお知らせください。

どうもありがとうございます!

私は言語学習アプリケーションに取り組んでおり、リアルなテキスト・トゥ・スピーチが非常に重要です。情報や実験に感謝しています。

素晴らしい一日をお過ごしください!

Sign up or log in to comment