Common Voiceの文章収集に協力するにあたり
皆さんこんにちは! 絲こと@sinumadeです。
ここでは、Common Voiceプロジェクトに向けた文章収集についてまとめています!
Common Voiceプロジェクト?
詳細は、プラットフォームをご覧下さい!
そうですね、例えば、プラットフォームでできる「録音」を平たく言うと、「機械が私たちの話した言葉を理解できるように、まず、私たちの話した言葉を聞かせてあげ」ているところです。
Common Voiceは、パブリックドメインで公開され、音声認識アプリを創る人を始め、データを必要とする人すべてに無償で、制限なく提供されます!
どうして文章が必要なの?
はい、プラットフォームでは、声の録音と、その録音の検証ができます。そして録音は、文章を読み上げて行います。……そうです、私たちが収集した文章は、ここで読み上げられるんですね!
でも、それだけじゃありません。Common Voiceはパブリックドメインで公開されます。ですから、録音した声も、読み上げる文章も、すべてパブリックドメインです。つまり……Common Voiceという場に縛られることなく、あらゆる人々が、あらゆる用途で使える、ということなんですね!
どのくらいの文章が必要なの?
My language is now collecting voice, what do I need to know?を参照してみましょう。これによると……音声アルゴリズム(私たちの話した言葉を理解しようとする機械!)の適切なトレーニングには、最低でも2000時間の録音と検証が必要だと書かれています。2000時間! さて、それにはどれくらいの文章が必要なんでしょうか? 引用してみましょう……
- The initial 5000 sentences will provide you buffer for around 5,5 hours of voice.
- For 10 hours you would need 9000 sentences.
- For 100 hours you would need 90000 sentences.
- For 2000 hours you would need 1800000 sentences.
なんと、最低目標の2000時間には、180万個の文章が必要だそうです……わーお!
ちなみに、2020年10月2日時点での日本語の文章は、151,9302020年10月16日時点での日本語の文章は、2,746個あります。うーん、これだけでも厖大ですね!
どうやって文章を収集するの?
はい、Common Voice Sentence Collectorツール(以下「Collectorツール」と表記)というものを使って、文章を追加したりレビュー(間違いがないかの検証)したりしています。他にも自動抽出ツールがあったりするのですが、専門知識が必要です。
詳しくは、Readmeや、Mozilla Voice Community Playbookを参照して下さい!
どんな文章を収集するの?
はい、パブリックドメインの文章になります。加えて、音声アルゴリズムがわかりやすいように、ちょっとした書き方のルールがあります。詳しくは、Collectorツールの、How toをご覧下さい。私は注意点や疑問点をまとめたメモも書いています。また、その資料に基づいて、文章の編集について書いてみました(2020年11月14日)。
きっと疑問があったり、不安になったりしますよね……そんなときは、ぜひトピックを頼って下さい!
だれが文章を収集するの?
私たち! ……「誰か」、と言ったほうが良いんでしょうか? 文章を見つけた(あるいは創った)あなたが収集(提供)しても良いし、例えばトピックに情報を書き込んでおけば、それを見た誰かが、文章を収集しに行ったり、文章の持ち主に聯絡を取ってくれるかもしれません。
はい、Common VoiceプロジェクトはMozillaという組織が主催していますが、その根幹は“ボランティア”に支えられています。驚くべきことに、声の録音と検証も、文章の収集と検証も、プロジェクトのアイディア出しも、全部「やりたくてやっている人」ばかりなのです! 試しにCommon Voiceのフォーラムを覗いてみましょう。ここには色んなこと――例えば「声の検証の仕方」とか(ええ、当然の疑問だと思います!)、Collectorツールの改善案だとか――を題材にしたトピックがありますが、議論しているのは全く普通の人、Common Voiceを偶然見つけて、関心を持った人たちなのです。そうした人々が思ったことや感じたこと、こうしたほうが良いんじゃないだろうか、といったことを、平然と書いているのです! それでプロジェクトの調整が行われたり、主催者が想定していなかったことに気づけたりなど、人々の動きに対して、プロジェクトが「呼応」しているのです。
……ええ、お気づきかと思いますが、Common Voiceはまだまだ未熟で、発展途上です。Collectorツールのアバウトな造りにびっくりした人もいるんじゃないかと思います。この設計に関わった人は、「時間をかけてゆっくり作っていくことを選んだ」と言っています(Sentence collection tool development topicでの、Rubén Martínさんの投稿 [2019-01-03])。そして、フィードバックを募集しています(それもまた魅力です!)。基本的に、このプロジェクトは、「とりあえず要望を出しておけば偉い人が何とかしてくれる」ものではなく、まさに“私たち”が何とかするプロジェクトです。ですから、このままCommon Voiceの日本語に関わる人がいなければ、いつまでもデータの更新は滞ったままです。「声」の録音や検証をしている人がいても、いつかは文章の不足にぶち当たりますし、「文章」だけ追加していても、読み上げてくれる人がいなければ、肝腎の声は収集できないのです。もちろん、「何もしないよりまし」なのですが。
この文章を書いているのは?
私は、絲です。私も自発的に関わっている人間の一人です。日本語のトピックが無いし、何だかネイティヴの日本人もいなさそうだし、声にしても文章にしても疑問が多過ぎるので、勝手に始めました。私も日本語の専門家というわけではないので、ぜひ協力して下さい!
いつ文章を収集するの?
今、です! ただ、有名なパブリックドメインの文章は、もう収集されているかもしれませんね。残念ながら、2020年10月2日時点で、Collectorツールから収集した文章の出典を確認することはできません。Sentence collector copyright issuesというトピックでは文章、収集したユーザー、出典を確認する方法について書かれているのですが、ちょっと複雑ですね。でも書いておきます:CollectorツールのJSONファイルから文章のメタ情報を確認する→この方法は、2020年11月14日現在、無効になりました。
2020年10月2日時点で、コーパス(文章集のこと)の総合リンク集みたいなものは無いようです。(私のほうで意見を出してみました:We need a text corpus link)
また、情報の共有を目指して、Text Corpus Link Collectionを作ってみました(2020年10月31日)。
文章以外で協力することってできないの?
はい、プラットフォームで「声」を録音・検証したり、Common Voiceプロジェクトを弘めたり……。詳しくは、Playbookを見てみると良いでしょう。トピックで“質問”するのも、立派な「協力」です! 私たちが見逃しているかもしれない視点を、ぜひ教えて下さい! すごく些細なこと? アホかもしれないって? ……大丈夫です! 見ているのは日本の人たちだけじゃありません! Common Voiceに関わる人たちだけでもありません! あなたの一言が、いつかどこかで、誰かの役に立つかもしれないのです!
もちろん、私の立てたトピックに執着することはありません。ぜひあなたが話題を築いて下さい!(ただし、似たようなトピックは一方に誘導される傾向があります。あなたの議題が「日本語の文章の収集」に関聯することなら、既存のトピックをご活用下さい。)
英語ができないんだけど……
はい、私なんて、全文自動翻訳です! 大丈夫、不自然な英語でも、コミュニティの皆は(たぶん)概要を読み取ってくれる筈です。中には翻訳してくれる人もいます! ええ、日本語で書き込んだって、全然構わないでしょう。
以下のツールも活用して下さい!
日本語の確認も重要です!
パブリックドメインじゃない文章が収集されてる!
ええ、時々あるみたいです……。そんなときは、Sentence collector copyright issuesで報告して下さい。でも、書き込むにはユーザー登録が必要ですね。緊急の場合は、Mozillaに申し立てても良いような気がします。私に聯絡してくれれば、代わりにトピックで報告します(お約束はできませんけど)。いずれにしても、
という情報は必ず教えて下さい。
私たちが提供する前に
これは、特に自分の管理する文章を提供しようとする人に重要な確認事項です。
パブリックドメインとして提供してくれますか? 本当に? じゃ、ちょっと確認してみましょう。
「パブリックドメイン」として提供するということ
それは、以下を意味します。
- パブリックドメイン(著作権の抛棄)は、一度適用すると、撤回することはできません。
- クレジット(制作に関わった人々の情報)やメタ情報(作成日や更新日など)は、明記されません。文章がパブリックドメインであることの証明として、Collectorツールには出典を提出しますが、Common Voiceの利用者には通知されません。
- 読み上げやすくするために、改変をすることがあります。例えば、句読点を挿入・削除したり、文章を短くしたり、平易な表現に置き換える、などです。原形を留めない場合もあります。
- Common Voiceは、世界を股にかけたプロジェクトです。日本語を母国語としない人、外国にいる人、その他、様々な背景を持つ人々が利用します。
- Common Voice以外で利用されることがあります。利用する人、利用のされ方も、全くもって想定できません。また、これを制限することはできません。
- 利用者を特定することはできません。従って、Common Voiceプロジェクトに何らかの変更があっても、利用者に通知することはできません。
「パブリックドメイン」についての参考情報
特にクリエイターの方に
くどいようですが、もう一度確認しますね。
- まず、一度パブリックドメインにすると、取り消しはできません。
- 公開された時点で、「誰もが」「どんな方法でも」使えるようになります。
- (元の形がわからないくらい)内容を変えることができます。
- 他の人があなたの作品を使って、有名になったり、一儲けできます。でも、あなたには一銭も入らないし、誰も目もくれないのです。
良いですか?
わからないことがいっぱいだよ!
はい、ぜひトピックなり、あなたのコミュニティなり、自由に質問して下さい!(あるいは情報を探して下さい!)
多い質問なんかは、このページなり、別のページなり、私が個人的にまとめてみるかもしれません。
2020-10-10: 以下のQ&Aにまとめてみました。
→ Common VoiceのQ&A(自家製)
→ 文章収集・CollectorツールのQ&A(自家製)
→ Common Voiceに向けた日本語の文章収集についてにもどる
まとめ(収集の流れ)
- 文章を見つけます。
- どこかから探す?
- 著作権の切れた(抛棄された)作品?
- 作品の権利者に問い合わせてみる?
- 自分で作る?
- CollectorツールのHow toを確認して、必要なら文章を編輯する。
- できれば短くて、言いやすいほうが良いですね。(母国語でない方や、読み上げるのが苦手な方がいることも忘れないで下さい。)
- 参考までに注意点や疑問点をまとめたメモもどうぞ。
- Collectorツールから文章を追加する。
- 情報を入力した後、Confirmというボタンを押さないと、送信されないので注意して下さい。
- 2020年10月2日現在、セルフレビューができます。特に決まりはありませんので、するかどうかは自由に判断して下さい。
- Collectorツールにて、他のユーザーが、文章をレビューする。
- 3人のユーザーのうち2人が承認する(3票のうち2票が承認である)と、文章のソーステキスト(プラットフォームで使用される文章)への採用が決定します。
- ソーステキストに、承認された文章が追加される。
- プラットフォームで、ボランティアが読み上げる。
「収集」にばかり焦点がいってしまいますが、「レビュー」も大事な収集作業の一環です。レビューによって承認されなければ、文章はソーステキストに追加されません。
はい、文章が見つけられなくても、レビューでCommon Voiceに貢献することができます。文章はたっくさんあって、いつでもあなたのレビューを待っています!
→ Collectorツールでの文章のレビューのやり方
……ということで、お疲れ様でした。
わからないことやご意見、たくさんあると思います。トピックに書き込むにも、Collectorツールを利用するにもユーザー登録が必要ですし、あんまり気軽に参加できないかもしれません。でもどこかにその気持ちを書き留めてもらえれば――あなたのWebサイトやソーシャルメディアアカウントに――私たちはいつか再会できるかもしれません。逆に収集やレビューだけ黙々としてもらうってのも充分ありです。ありがたいことです。Collectorの数字が動くとき、私はあなたを関知するでしょう。いずれにしろ、このページを読んでいただけて、私は幸せです。ありがとうございました。
ぜひ臆することなく書いて下さい。あなたの言葉を。私たちは、私たちの声を必要としています。
最後に、文章を公開する勇気を与えてくれたフォーラムの皆さんに感謝したいと思います。ありがとう! Everyone always helps me. Thank you!