[重要]文章の権利状態の確認
- 私は法律の専門家ではなく、パブリックドメインの確認方法について、誤った情報を提示している可能性があります。
- 素人が確実に役に立てる手段は、明らかにパブリックドメインでないコンテンツ(著作権が主張されていたり、ライセンスが付与されていたり等)を除外すること以外にありません。(ゆえに、私は専門知識を有したMozillaのスタッフが出典を確認することを理想とし、Common Voiceに必須であると考えていますが、それが現実的でないのもまた事実です。)
文章がパブリックドメインかどうか確認することは、重要な作業です。
と言うのも、もし権利状態に不備があれば、該当する文章は文章コレクションから削除されます――それだけでなく、プラットフォームで読み上げた「声」、そして文・声を元に生成した「データセット」も、削除する必要があるかもしれないのです!
これがどれだけの手間か、どれだけの人々の善意を踏みにじることになるか、想像できるでしょうか――。
2020年11月14日現在、Common Voiceには、文章の権利状態を検証するシステムがありません。収集した人以外が出典を検証する義務もありません。現状、問題に「気づいた」人々が、Sentence collector copyright issuesで報告するだけに留まっています。
しかし、どのような状態があるにしろ、絶望しているわけにはいきません。私たちは、私たちにできることをするのです。
権利状態の確認の仕方(素人にできること)
オンラインの資源を想定していますが、オフラインも徹底して確認して下さい。
- 出典にアクセスし、権利状態を確認する。
- 以下の場合、明確に著作権を抛棄しているわけではなく、パブリックドメインではありません。
- コンテンツの扱いについて、記載が無い。
- 「無料、商用利用も可」
- 「自由に使って下さい」
- 「規約はありません」
- パブリックドメインの作品を元に作成されたコンテンツ。
完璧な複製であったとしても、元の作成者と異なる人物・集団が関わっていれば、別途著作権が発生している可能性があります。
- 「複製」に関しては、「創作性」が認められれば、著作権が発生します。(編輯、脚色、翻案等)
- クリエイティブ・コモンズ・ライセンスが付与されたコンテンツ。
- ライセンス(規約、約束、条件)があるコンテンツ。提供者がコンテンツの利用に関して制約を設けているコンテンツ。
- 権利状態が曖昧な場合、必ずコンテンツの提供者に聯絡を取り、確認して下さい。
- 聯絡ができない(聯絡先の記載が無い、返事が無い)等、権利状態の確認ができていない場合、そのコンテンツは収集しないで下さい。
- 文章を無作為に数行抜き出して、検索する。(その言語が最もヒットする検索エンジンで)
- コンテンツが無断転載等、違法でないか確認します。
- 提供者による複製がある場合は?
- 複製が異なる権利状態で公開されていても、パブリックドメイン(権利の抛棄)は取り消せません。パブリックドメインで公開されているコンテンツの方を収集して下さい。
- 提供者が誰か判断できない場合は?
- コンテンツについて調査します。提供者候補全員に聯絡を取るのも良いかもしれませんが、部外者が真実を断定することは難しいでしょう。私は法律に詳しくないので、言及は控えます。いずれにしても、出自がわからないコンテンツは、収集しないで下さい。
- コンテンツの範囲について、把握する。
- 引用や、外部からの転載、他「例外」に関する言及が無いか、確認して下さい。確実にパブリックドメインである部分のみ、収集して下さい。
- プログラム等で自動抽出を試みる人もいるかもしれませんが、確実にコンテンツの範囲を見分けるため、収集後は必ず人間が意図した範囲のみが抽出されているか、確認して下さい。
- 以下の場合は、とくに気をつけて確認して下さい。収集する量が多ければ多いほど、不備が発覚した際に被害が大きくなります。例えば、一文のみが違法であっても、法的に(あるいはMozillaの立場から)出典が不適切と判断されれば、その出典から収集された文章全てが使えなくなる可能性があります。
- 大きいコンテンツ(=大量の文章)。
- コンテンツの作成者と公開者が異なる。(無断転載の可能性。また、生成の過程について、公開者が把握していない可能性)
- コンテンツの作成者が複数いる。(パブリックドメインでないコンテンツが紛れている可能性)
- 時折、パブリックドメインでないコンテンツを「パブリックドメイン」と称して紹介しているサイトがあります。収集する際は、きちんと自分で確認して下さい。
- Creative Commonsが提供している条文でパブリックドメインに直結しているのは、CC0のみです。CC0は、権利を抛棄する手段を提供します。厳密には「ライセンス」ではなく、「権利抛棄」です。
- ダブルチェックを兼ねて、Text Corpus Link Collectionで出典を共有する(人の眼に触れる機会を増やす)ことをお奨めします。
- 個人的には、複数人での確認は必須だと考えています。(権利状態の誤解、偽証を避けるため)
既存の出典の確認
プラットフォーム [commonvoice.mozilla.org]:承認済み文章
- プラットフォームのGitHubからソーステキストにアクセスする。
- sentence-collector.jsonを開き、sourceの値を確認する。
- Firefoxは自動でjsonファイルを整形する。
- 生ファイルを開いても整形されない場合は、ダウンロード(キーボードのCtrlとSを押す)してから開く。
- sentence-collector.jsonは、Sentence Collectorから追加された文章の情報のみ収録。
- 出典にアクセスし、権利状態を確認する。(「権利状態の確認の仕方」を参照)
- パブリックドメインでない出典・文章があれば、Sentence collector copyright issuesで報告する。
Sentence Collector:未レビューの文章
- 私はSentence Collector以外の収集方法を知らないので、詳しい方がいれば共有して下さい。
- 権利状態が曖昧な(判断できない)出典は、他の人に確認を呼び掛けるのも手です。複数人で確認した方が確実ですし、早く片付きます。
- この文書の誤り、また確認方法の良い案があれば、ぜひ共有して下さい。フォーラムのトピックでも構いません。