文章収集・CollectorツールのQ&A(自家製)

2020年10月4日時点での情報です(とくに明記がなければ)。

Common VoiceのQ&A(自家製):Common Voice全般についてはこちら。

一般的なトラブルシューティング(質問する前に)

一般的なトラブルシューティング(Common Voice全般と共通)

公式のQ&Aはないの?

ありません。

sentence-collectionタグのトピックを見てみるのが良いかもしれません。

似たような文章は収集していいの?(語尾を変えるだけなど)

とくに決まりはありません。各自で判断して下さい。

ただ、似たような文章が続くと、プラットフォームで読み上げる人も、Collectorツールでレビューする人も、楽しくないかもしれませんね。

「明日」とか「昨日」みたいに、複数の読みがある言葉はどうするの?

そのまま書いても問題ありません。むしろ、必要です。

読み方に傾向はあっても、私たちは必ずしも同じ読み方をするわけではありません。
音声認識システムは、すべての読みを認識できるべきですし、学習には多様な読み方(発音)が必要です。

ただし、システムが学習しやすいように(話者から複数の読みを収集できるように)、ある程度文体で読み方を意図した方がいいかもしれません。

記号は書いてもいいの?

参照:句読点・記号 - 文章の編集について(使用文字の確認)

スラング(俗語)は書いてもいいの?

書いても構いません

文末の句読点は必須?

自由です。

音声認識システムは、句読点を無視します(できます)。

語尾の「っ」は書いてもいい?

書いても構いませんが、この用法には明確な定義が無いことに注意して下さい。
つまり、読み方(発音法)が決まっていないということです。
文法からいっても必須ではありませんし、できる限り用いないことを推奨します(私見)。

「会話」形式で書いてもいいの?

書いても構いません
音声認識システムは問題無く認識できます。

しかし、私見では、一人の人間が「話す」には、不自然なように思われます。

単語だけではだめ?

単語を読むのと、文(単語の連結)を読むのとでは、発音も変わります。

現在のところ、Common Voiceは「会話」(長さの程度はあれ、完結した、意味のある言葉)を収集しており、「単語」を含めることは可能なものの、望ましくはないかもしれません。
もちろん、単語単位の会話は存在します。「おすわり」とか「おかえり」とか。そういった、「会話」として見たときに違和感の無い単語は歓迎されます。ここでいう望ましくない単語の収集とは、例えば「ああ」「あい」「あえぎ」「あお」「あか」……といった、単純な単語の羅列にあります。できるだけ、生身の人間が口にする言葉として、自然な文になるよう、心掛けて下さい。

NGワードはあるの?

ありません。将来的には実装(あるいはCollectorツールでフィルタリング)されるかもしれません。

使用すべきでない文字については、文章の編集について(使用文字の確認)を参考にして下さい。

ソーステキストの変な文は修正できないの?

できません。

でも不満は伝えておいたので(We need a Q&A)、いつかはできるようになるかもしれません。

Collectorツールに関すること

Common Voice Sentence Collector

これって1つずつ追加するの? まとめて追加できないの?

できません。1つずつです。

文章抽出ツールもありますが、専門知識が必要です。プログラミングに関心のある方、見てみて下さい。

ぜひともまとめて追加したいですよね。私もテキストファイル(.txt)から追加できないか、要望を出してみました(Post #18 on Sentence Collector Open Discussions - Input needed)。

自作の文章なんだけど、出典を入力するところには、なんて書けばいいの?

とくに決まりはありません
参考までに英語コレクションのsentence-collector.jsonを確認してみると、「私が作りました」と入力しているユーザーもいます。

出典欄の記載例

編輯した場合

URIは、他の文字と並んでいると紛らわしいので、文末に置いています。

収集したユーザーや出典は確認できないの?

未レビューの文章のみ、出典を確認できます(2020年10月7日より、レビューする文章の下に、出典が表示されるようになりました)。

今できる簡単な方法は、ツールのJSONファイルFirefoxで開いて、検索欄から検索(文章、ユーザー、出典を入力)することです。
2020年11月7日以降は、データベースの移行により、KintoインスタンスのJSONファイルは利用できなくなります。

ページ送りは、矢印をクリックするしかないの?

そうですね、残念ながら……。

これも不満を伝えておきました(We need a Q&A)。

可否を判断できなくて「無視」した文章は、非表示にできないの? すんごい溜まってるんだけど……

できません。

これも要望を伝えておきました(Post #18 on Sentence Collector Open Discussions - Input needed)。

何人が承認OKすれば、ソーステキストに採用されるの?

3人のうち、2人の承認を獲得できれば、採用されます。

承認された文章は、いつソーステキストに追加されるの?

大体毎週、プラットフォームが更新を取得したときに追加されます。

total sentencesって、ソーステキストも含まれるの?

Collectorツールのみでの合計です。