Common Voiceについて

パブリックドメインの音声データセット、Common Voiceについてのメモです。

目次

お知らせ

2020年のお報せ (Notice for 2020)


2020年11月14日現在、Common Voice(日本語版)で録音に使用している文章には、パブリックドメインではない文章が多数含まれています(「目標セグメント」を除く)。
日本語のデータセットは、バージョン:ja_9h_2020-06-22(Corpus 5.1:2020年7月14日リリース)までの全文がパブリックドメインではないか、Mozillaが不適切と判断したコーパス由来です。
次回のリリースで修正される可能性があります。



  1. 2020年11月12日、不適切な出典を由来とする文章が、文章コレクションから削除されました。
    • 削除された結果、日本語の総文数は2,746から、774(1,972減)になりました。
    • 削除の主な理由は、出典がパブリックドメインでなかったことです。詳細はsinumadeの報告(2020年11月7日)を参照して下さい。
    • 2020年11月14日:該当する文章に基づく音声及びデータセットの扱いは、言明されていません。
  2. 2020年10月8日、Tanaka Corpus (EDRDG Wiki)由来の文章は不適切と判断され、文章コレクションから除外削除されました。
    • 除外削除された結果、日本語の総文数は151,930から、2,315149,615減)になりました。
    • 除外削除の主な理由は、パブリックドメインでない作品の文章が含まれていたことです。詳細はトピック内のsinumadeの報告(2020年9月26日)を参照して下さい。
    • データセット中の文章も削除されます。詳細:Post #15 on Sentence collector copyright issues
    • 2020年11月14日:該当する文章に基づく音声の扱いは、言明されていません。

始めに:作業の工程を知る

私がわかる範囲で、Common Voiceの工程・参加部分をまとめてみました。(もちろん、実際は細かな工程があり、多様な参加方法があります)

[草稿]Common Voiceのワークフロー(作業の流れ)

[草稿]Common Voiceの課題設定

録音と検証(音声チェック)について

1クリップ(10秒)、パソコン・スマートフォンから参加できます。

Common Voiceの録音と検証のやり方

Common VoiceのQ&A(自家製)

文章収集 (sentence-collection) について

ユーザー登録をすればすぐ始められます(メールアドレス不要)。2020年10月7日、commonvoice.mozilla.orgアカウントと統合され、Collectorツールのユーザー登録利用にはメールアドレスが必須になりました。

Common Voiceに向けた日本語の文章収集について

録音で読み上げる「文章」も、ボランティアが収集しています。
Common Voiceが機能するには、文章が欠かせません! 収集するのはパブリックドメインの文章です。
どなたか、そのありかを知りませんか? または、私たち自身が、パブリックドメインの文章を創ってみませんか?

レビュー(文章の検証)のみの参加も大歓迎です!

他にできることは?

Common Voiceに参加する人を助けましょう。あるいは、増やしましょう。知ってもらうだけでも、大きな前進です!
Contribute to Common Voice - Mozilla Community Portalには、皆に参加してもらうアイディアが書かれています。スライドやポスターなんかもあります(英語ですが、参考になるでしょう)。

実際、私たちの“声”が必要です

あなたが日本語の話者スピーカーであってもそうでなくても、Common Voiceはあなたを必要としています。世界中の誰もを必要としているのです! フォーラムでなくても構わないので、どこかであなたの感想や意見を披露してみませんか?

Common Voiceは世界そのもののプロジェクトです。私はフォーラムのような場所が苦手でしたが、参加する以上は(特に文章収集は自分のみならず、他のボランティアにも影響を及ぼします)、人々の意見を聞き、そして自分の意見を披露してみなければならないと思いました。実際のところ、私は私以外の日本語スピーカーの意見を必要としています――いえ、Common Voiceが。世界が。私一人が日本語や日本人を語るなんて、あまりにも大それたことです! 不可能と言ってもいい。だから、私はあなたを必要としています。他に意見する人を。楽しむ人を。

私は、あなたと(この言い方は好きでないです、二分するような気がして)楽しみを分かち合いたいのです。

世界は、たぶん、皆が一つになれるプロジェクトを提供してくれたと思うのです。それが私にとっての魅力であり、楽しみです。