テキストコーパスのリンク集[初版概略]

註:この文書は上記の初版(表無し)の翻訳です。原作はwiki投稿であり、既に更新されている可能性があります。


テキストコーパス(文章集)のリンク集です。自由に追加して下さい。
例えあなたの言語のコーパスが無かったとしても、パブリックドメインですから、翻訳ができます。翻訳は簡単ではありませんが、良い代替手段になります。
もちろん、Common Voice以外の用途で使う人の助けにもなるでしょう。

文章収集は声の録音、及びデータセット起源であり、Common Voiceの重要な部分です。知っているコーパスを共有し、を助けて下さい。


表欄の書き方

  1. Corpus (コーパス):コーパスへのリンク。
    • 収集するコンテンツにリンクして下さい。
      • リストがある場合、リストのルート(パブリックドメイン作品が一望できるページ)にリンクして下さい。
      • コンテンツの一部のみがパブリックドメインの場合は、そのことをNote欄に書いて下さい。
    • コーパスの名前は正確に、簡潔に書いて下さい。
      • わからない場合は、ページのタイトルを書いて下さい。(ページの見出し、ブラウザのタイトルバーなど)
      • 特定のバージョンがあるときは、それも明記すること。
    • 例:sinumadeの冒険の書(2020年版)
  2. Language (言語):Sentence Collectorの表記どおりに書いて下さい。例えば、中国語はどこの地域の中国語でもChineseです。
    • 複数ある場合は、カンマで区切って下さい。アルファベット順で記述します。例:English, French, German
    • Sentence Collectorに無い言語は、言語の名前に+マークを付けて下さい。例:Japanese+
  3. State (状態):できる限り、以下のマークを付けて下さい。
    • CC0:コーパス本文に許諾を示す記載がある。もしくは、許諾を示す文書にリンクしている。
    • PD:パブリックドメイン。主に著作権が切れた作品を想定しています。権利者が権利を抛棄ほうきした作品は、CC0にして下さい。
  4. Permission (許諾):コーパスの許諾が示された文書へのリンク。
    • 許諾以外の関聯かんれん文書は、Note欄に書いて下さい。
  5. Note (備考):収集に関して留意すべき事項。例えば、収集に制限があること(例:一部しか収集できない)や、編輯へんしゅうが必要なことなど。

適当なコーパス

パブリックドメインであることが確定しているコーパスです。

候補のコーパス(このコーパスは使用しないで下さい)

パブリックドメインであることが確定していないコーパスです。

無効なコーパス(このコーパスは使用しないで下さい)

使ってはならない(禁止)コーパスです。
例えば、使われていたが不適切と判明したコーパス。

補足


検討事項


後書

  1. コーパスを報告し合うことで、各言語の収集活動を効率的に、活溌かっぱつにできることを狙いとしています。情報を共有することで、かえって作業に混乱をもたらす懸念もありますが、これについては皆さんに意見を仰ぎたいと思います。
  2. 特に無効なコーパスに関しては、ボランティアの労力を無駄にしないためにも、共有されるべきです。
  3. また、不適切なコーパスの発見も狙っています。