[重要]文章の権利状態の確認


文章がパブリックドメインかどうか確認することは、重要な作業です。
と言うのも、もし権利状態に不備があれば、該当する文章は文章コレクションから削除されます――それだけでなく、プラットフォームで読み上げた「声」、そして文・声を元に生成した「データセットも、削除する必要があるかもしれないのです!
これがどれだけの手間か、どれだけの人々の善意を踏みにじることになるか、想像できるでしょうか――。

2020年11月14日現在、Common Voiceには、文章の権利状態を検証するシステムがありません。収集した人以外が出典を検証する義務もありません。現状、問題に「気づいた」人々が、Sentence collector copyright issuesで報告するだけに留まっています。

しかし、どのような状態があるにしろ、絶望しているわけにはいきません。私たちは、私たちにできることをするのです。

権利状態の確認の仕方(素人にできること)

オンラインの資源を想定していますが、オフラインも徹底して確認して下さい。

  1. 出典にアクセスし、権利状態を確認する。
  2. 文章を無作為ランダムに数行抜き出して、検索する。(その言語が最もヒットする検索エンジンで)
    • コンテンツが無断転載等、違法でないか確認します。
    • 提供者による複製がある場合は?
      • 複製が異なる権利状態で公開されていても、パブリックドメイン(権利の抛棄)は取り消せません。パブリックドメインで公開されているコンテンツの方を収集して下さい。
    • 提供者が誰か判断できない場合は?
      • コンテンツについて調査します。提供者候補全員に聯絡を取るのも良いかもしれませんが、部外者が真実を断定することは難しいでしょう。私は法律に詳しくないので、言及は控えます。いずれにしても、出自がわからないコンテンツは、収集しないで下さい。
  3. コンテンツの範囲について、把握する。
    • 引用や、外部からの転載、他「例外」に関する言及が無いか、確認して下さい。確実にパブリックドメインである部分のみ、収集して下さい。
      • プログラム等で自動抽出を試みる人もいるかもしれませんが、確実にコンテンツの範囲を見分けるため、収集後は必ず人間が意図した範囲のみが抽出されているか、確認して下さい。

既存の出典の確認

プラットフォーム [commonvoice.mozilla.org]:承認済み文章

  1. プラットフォームのGitHubからソーステキストにアクセスする。
  2. sentence-collector.jsonを開き、sourceの値を確認する。
    • Firefoxは自動でjsonファイルを整形する。
      • rawファイルを開いても整形されない場合は、ダウンロード(キーボードのCtrlSを押す)してから開く。
    • sentence-collector.jsonは、Sentence Collectorから追加された文章の情報のみ収録。
  3. 出典sourceにアクセスし、権利状態を確認する。(「権利状態の確認の仕方」を参照)
  4. パブリックドメインでない出典・文章があれば、Sentence collector copyright issuesで報告する。

Sentence Collector:未レビューの文章