Common Voiceに向けた日本語の文章収集について

Sentence collector for Japanese language (日本語の文章について)(フォーラムトピック)

Common Voiceプロジェクトで読み上げる文章を扱っています。追加・レビューする文章のルール、収集方法、その他気になる事はなんでもどうぞ! トップに簡単なリンク集があります。
日本語で書き込んでもらっても大丈夫です。コミュニティには、英語に翻訳してくれる人もいます!


私、絲こと@sinumadeは主に文章を自作しています。
参考までに提出したものをアップロードしていますので、ぜひご覧下さい。誤字脱字等、レビューはCollectorツールにて!(「これは誤字なの?」というものは、上のトピックで聞いてもらって構いません!)


[重要]文章の権利状態の確認

収集する前に、必ずパブリックドメインであることを確認して下さい。権利状態に不備があると、その文章に基づく音声・データセットにも影響を及ぼします。

文章の編集について(使用文字の確認)

Common Voiceに適した文章にします(システム及び人間に対する配慮)。例もあり。

Collectorツールでの文章のレビューのやり方

レビューも重要な収集作業の一環です! もちろん、レビューのみの参加も大歓迎です。

文章収集・CollectorツールのQ&A(自家製)

わかる範囲で書いてみました。

Common Voiceの文章収集に協力するにあたり

速習用。初期に書いた案内です。

Ideas for finding public domain text(フォーラムトピック)

日本語版:パブリックドメインの文章を探すアイディア[初版]

Text Corpus Link Collection(フォーラムトピック)

日本語版:テキストコーパスのリンク集[初版概略]
出典を共有する目的で作ってみました。収集したい人は、ここから探すこともできます。


わからない事がありますか?

Common Voiceの主催、MozillaフォーラムチャットGitHubを用意しています。でも、英語ばっかりですよね。実際のところ、私もわからない事ばかりなんです! ですから、わからない事を形にしましょう。書きましょう。誰かに語りましょう。調べましょう!

私は個人的にですが、メモを取っています。フォーラムのやり取りなんかも英語に訳す前の原文(日本語)で記録していますので、参考にして下さい。あなたのお役に立てれば嬉しいです!

書いていることに間違いがあったり、わかりにくかったりしますか? 気づいたことがあれば、ぜひ教えて下さい。