テキストコーパスのリンク集[初版概略]
註:この文書は上記の初版(表無し)の翻訳です。原作はwiki投稿であり、既に更新されている可能性があります。
テキストコーパス(文章集)のリンク集です。自由に追加して下さい。
例えあなたの言語のコーパスが無かったとしても、パブリックドメインですから、翻訳ができます。翻訳は簡単ではありませんが、良い代替手段になります。
もちろん、Common Voice以外の用途で使う人の助けにもなるでしょう。
文章収集は声の録音、及びデータセットの起源であり、Common Voiceの重要な部分です。知っているコーパスを共有し、皆を助けて下さい。
- コーパスをリストに追加する前に、このwikiを検索して下さい。キーボードのCtrlとFを押すと、ブラウザの検索バーが表示されます。
- 見つけやすくするため、言語ごとに並べて下さい。個々のコーパスは下から追加して下さい。
- コーパスをリストに追加して良いかわからないときは、質問して下さい。
- Common Voiceに無い言語でもリストに加えられますが、まずは言語を追加するよう要望するトピックを、Common Voiceカテゴリーへ投稿することをお勧めします。Readme: How to see my language on Common Voiceを参照して下さい。
- ライセンスの確認は、慎重にして下さい。特に:
- 文章の著者と公開者が異なる場合。
- コーパスが大きい場合。
- 複数の作成者がいる場合。
- 著作権問題があると、文章は文章コレクションから削除されます。音声データも使えなくなるかもしれません。皆の労力が無駄になってしまいます。
例えあなたが探索や収集や検証に興味が無くとも、コーパスが適切なパブリックドメインか確認することは、多大な貢献になります。ぜひ皆の労力を守る“門番”になって下さい。
表欄の書き方
- Corpus (コーパス):コーパスへのリンク。
- 収集するコンテンツにリンクして下さい。
- リストがある場合、リストのルート(パブリックドメイン作品が一望できるページ)にリンクして下さい。
- コンテンツの一部のみがパブリックドメインの場合は、そのことをNote欄に書いて下さい。
- コーパスの名前は正確に、簡潔に書いて下さい。
- わからない場合は、ページのタイトルを書いて下さい。(ページの見出し、ブラウザのタイトルバーなど)
- 特定のバージョンがあるときは、それも明記すること。
- 例:sinumadeの冒険の書(2020年版)
- Language (言語):Sentence Collectorの表記どおりに書いて下さい。例えば、中国語はどこの地域の中国語でもChineseです。
- 複数ある場合は、カンマで区切って下さい。アルファベット順で記述します。例:English, French, German
- Sentence Collectorに無い言語は、言語の名前に+マークを付けて下さい。例:Japanese+
- State (状態):できる限り、以下のマークを付けて下さい。
- CC0:コーパス本文に許諾を示す記載がある。もしくは、許諾を示す文書にリンクしている。
- PD:パブリックドメイン。主に著作権が切れた作品を想定しています。権利者が権利を抛棄した作品は、CC0にして下さい。
- Permission (許諾):コーパスの許諾が示された文書へのリンク。
- 許諾以外の関聯文書は、Note欄に書いて下さい。
- Note (備考):収集に関して留意すべき事項。例えば、収集に制限があること(例:一部しか収集できない)や、編輯が必要なことなど。
適当なコーパス
パブリックドメインであることが確定しているコーパスです。
- 原則として、収集は著作者が作成したコンテンツのみ。引用や転載、その他言及があるコンテンツは除く。その区別は人間(実在する人物)が行うこと。
- 権利者に聯絡をして許諾を得た場合は、Note欄にContacted (聯絡済み) とマークして下さい。できる限り、許諾を得た日付も記載して下さい。例:
- できる限り、許諾を示している文書にリンクして下さい。
- 収集する前に、以下を推奨します。
候補のコーパス(このコーパスは使用しないで下さい)
パブリックドメインであることが確定していないコーパスです。
- 権利者に問い合わせるなどして、許諾を得る必要があります。
- 許諾を得たコーパスは、適当なコーパスに移動して下さい。Note欄には、Contactedとマークして下さい。
- 許諾が得られなかったコーパスは、無効なコーパスに移動して下さい。Note欄には、non-permitted (非許諾) とマークして下さい。
無効なコーパス(このコーパスは使用しないで下さい)
使ってはならない(禁止)コーパスです。
例えば、使われていたが不適切と判明したコーパス。
- 可能なら、無効である理由をNote欄に記載して下さい。
- 権利者に問い合わせて許諾を得られなかったコーパスは、Note欄にnon-permittedとマークして下さい。
- コーパスに問題がある場合は、Note欄にProblem (問題あり) とマークし、具体的に、簡潔に書いて下さい。(詳細は別の文書で参照できることが望ましい)
補足
- オフラインの資源もリストに加えることができます。その場合は、Offlineとマークし、どのようにアクセスするかをNote欄に記載して下さい。例:
- Offline: sinumade図書館に保管。閲覧には読者カードが必要。
- wikiの編輯は、Discourseの信頼レベルがメンバー以上でできます。それ以外の人は、返信で情報を共有して下さい。wikiに追加します。
- 表の書き方:
- コーパスの使用に懸念がある場合、躊躇いなく情報を共有して下さい。
- 原文の投稿者は英語が苦手なので、適切な表現があればwikiの修正をお願いします。
- ご意見、ご質問をお待ちしています。
- コーパスについての議論はいつでも受け付けています。ただし、これは別のトピックですべきかもしれません。
検討事項
- 例えば、誰かが収集中のときは、WIP(作業中)とマークするのはどうでしょうか?
- 長所:作業の重複を避けられる。
- 短所:収集の開始と終了時にwikiにマークを付けなければならない。
- 短所:ボランティアが途中で作業を抛棄する可能性。
- 収録済みコーパスの分別、あるいは Collected (収集済み) マークは必要ですか?(作業の重複を避けるために)
- 投稿直後は、表はMarkdownで書かれていますが、HTMLの方が良いでしょうか?
- HTML:
- 長所:アクセシビリティに配慮できる。
caption
要素、th
要素、scope
属性のみだが、無いよりは良い。
- 長所:欄で改行ができる。リストや引用文などを含めることができる。
- 短所:HTMLはそれ程難しくはないが、タグの打ち間違いに気づきにくい。Discourseはタグを検証しない。
- Markdown:
- 長所:万人が知識無しで書ける。(エディターで選択するだけ)
- 長所:太字やリンクが簡単。
- 短所:欄で改行ができない。リスト、引用文などを含めることができない。
後書
- コーパスを報告し合うことで、各言語の収集活動を効率的に、活溌にできることを狙いとしています。情報を共有することで、かえって作業に混乱をもたらす懸念もありますが、これについては皆さんに意見を仰ぎたいと思います。
- 特に無効なコーパスに関しては、ボランティアの労力を無駄にしないためにも、共有されるべきです。
- また、不適切なコーパスの発見も狙っています。
- @sinumadeはこのwikiとリストをパブリックドメインで公開したいと考えています。投稿をパブリックドメインにできるか、どのライセンスに属しているか、Can I waive my copyright?で質問しましたが、Mozillaからの正式な回答は得られませんでした(2020年10月30日現在)。でもできるなら、そうしたいのです。このwikiを編輯する人にも、著作権を抛棄するつもりで編輯して欲しいのです。