Common Voiceに向けた日本語の文章収集について
→ Sentence collector for Japanese language (日本語の文章について)(フォーラムトピック)
Common Voiceプロジェクトで読み上げる文章を扱っています。追加・レビューする文章のルール、収集方法、その他気になる事はなんでもどうぞ! トップに簡単なリンク集があります。
日本語で書き込んでもらっても大丈夫です。コミュニティには、英語に翻訳してくれる人もいます!
私、絲こと@sinumadeは主に文章を自作しています。
参考までに提出したものをアップロードしていますので、ぜひご覧下さい。誤字脱字等、レビューはCollectorツールにて!(「これは誤字なの?」というものは、上のトピックで聞いてもらって構いません!)
→ [重要]文章の権利状態の確認
収集する前に、必ずパブリックドメインであることを確認して下さい。権利状態に不備があると、その文章に基づく音声・データセットにも影響を及ぼします。
→ 文章の編集について(使用文字の確認)
Common Voiceに適した文章にします(システム及び人間に対する配慮)。例もあり。
→ Collectorツールでの文章のレビューのやり方
レビューも重要な収集作業の一環です! もちろん、レビューのみの参加も大歓迎です。
→ 文章収集・CollectorツールのQ&A(自家製)
わかる範囲で書いてみました。
→ Common Voiceの文章収集に協力するにあたり
速習用。初期に書いた案内です。
→ Ideas for finding public domain text(フォーラムトピック)
日本語版:パブリックドメインの文章を探すアイディア[初版]
→ Text Corpus Link Collection(フォーラムトピック)
日本語版:テキストコーパスのリンク集[初版概略]
出典を共有する目的で作ってみました。収集したい人は、ここから探すこともできます。
わからない事がありますか?
Common Voiceの主催、Mozillaはフォーラム、チャット、GitHubを用意しています。でも、英語ばっかりですよね。実際のところ、私もわからない事ばかりなんです! ですから、わからない事を形にしましょう。書きましょう。誰かに語りましょう。調べましょう!
私は個人的にですが、メモを取っています。フォーラムのやり取りなんかも英語に訳す前の原文(日本語)で記録していますので、参考にして下さい。あなたのお役に立てれば嬉しいです!
書いていることに間違いがあったり、わかりにくかったりしますか? 気づいたことがあれば、ぜひ教えて下さい。