文章収集・CollectorツールのQ&A(自家製)
文章収集・CollectorツールのQ&A(自家製)
2020年10月4日時点での情報です(とくに明記がなければ)。
→ Common VoiceのQ&A(自家製):Common Voice全般についてはこちら。
一般的なトラブルシューティング(質問する前に)
→ 一般的なトラブルシューティング(Common Voice全般と共通)
公式のQ&Aはないの?
ありません。
sentence-collectionタグのトピックを見てみるのが良いかもしれません。
似たような文章は収集していいの?(語尾を変えるだけなど)
とくに決まりはありません。各自で判断して下さい。
ただ、似たような文章が続くと、プラットフォームで読み上げる人も、Collectorツールでレビューする人も、楽しくないかもしれませんね。
「明日」とか「昨日」みたいに、複数の読みがある言葉はどうするの?
そのまま書いても問題ありません。むしろ、必要です。
読み方に傾向はあっても、私たちは必ずしも同じ読み方をするわけではありません。
音声認識システムは、すべての読みを認識できるべきですし、学習には多様な読み方(発音)が必要です。
ただし、システムが学習しやすいように(話者から複数の読みを収集できるように)、ある程度文体で読み方を意図した方がいいかもしれません。
記号は書いてもいいの?
参照:句読点・記号 - 文章の編集について(使用文字の確認)
スラング(俗語)は書いてもいいの?
書いても構いません。
- 語によっては知らない人がいることにも留意して下さい(意図どおりの発話感覚が得られない可能性がある)。
- 流行語は、短い時間で馴染みの無い言葉になってしまうことに注意して下さい。Common Voiceの意図は、日常でよく使う言葉や会話を収集することにあります。
文末の句読点は必須?
自由です。
音声認識システムは、句読点を無視します(できます)。
語尾の「っ」は書いてもいい?
書いても構いませんが、この用法には明確な定義が無いことに注意して下さい。
つまり、読み方(発音法)が決まっていないということです。
文法からいっても必須ではありませんし、できる限り用いないことを推奨します(私見)。
「会話」形式で書いてもいいの?
書いても構いません。
音声認識システムは問題無く認識できます。
しかし、私見では、一人の人間が「話す」には、不自然なように思われます。
単語だけではだめ?
単語を読むのと、文(単語の連結)を読むのとでは、発音も変わります。
現在のところ、Common Voiceは「会話」(長さの程度はあれ、完結した、意味のある言葉)を収集しており、「単語」を含めることは可能なものの、望ましくはないかもしれません。
もちろん、単語単位の会話は存在します。「おすわり」とか「おかえり」とか。そういった、「会話」として見たときに違和感の無い単語は歓迎されます。ここでいう望ましくない単語の収集とは、例えば「ああ」「あい」「あえぎ」「あお」「あか」……といった、単純な単語の羅列にあります。できるだけ、生身の人間が口にする言葉として、自然な文になるよう、心掛けて下さい。
NGワードはあるの?
ありません。将来的には実装(あるいはCollectorツールでフィルタリング)されるかもしれません。
使用すべきでない文字については、文章の編集について(使用文字の確認)を参考にして下さい。
できません。
でも不満は伝えておいたので(We need a Q&A)、いつかはできるようになるかもしれません。
→ Common Voice Sentence Collector
これって1つずつ追加するの? まとめて追加できないの?
できません。1つずつです。
文章抽出ツールもありますが、専門知識が必要です。プログラミングに関心のある方、見てみて下さい。
ぜひともまとめて追加したいですよね。私もテキストファイル(.txt)から追加できないか、要望を出してみました(Post #18 on Sentence Collector Open Discussions - Input needed)。
自作の文章なんだけど、出典を入力するところには、なんて書けばいいの?
とくに決まりはありません。
参考までに英語コレクションのsentence-collector.jsonを確認してみると、「私が作りました」と入力しているユーザーもいます。
- 「自分」であることを表現するために、WebサイトやソーシャルアカウントのURLを入力するのは、不適切です。厳密には「文章の出典」ではありませんから。なので、私がやっているように、(公開する媒体をお持ちなら)まず文章を公開して、そのURLを入力する、というのが無難かもしれません。
- 2020年10月7日より、レビューする文章の下には、出典が表示されるようになりました。日本語を理解している人がレビューすることを考えれば、「出典」の表記は必ずしも英語でなくて良いかもしれません。
出典欄の記載例
- 自作
- オリジナル
- I made that
- My own work
- Original
- My original
- Myself
- Me
- Author is me
- Creator is me
- Authored by me
- Created by me
- Author: me
- Creator: me
編輯した場合
URIは、他の文字と並んでいると紛らわしいので、文末に置いています。
- 「あなたの聲になれるうち」より編輯
- 芥川龍之介作、sinumade編
- 「あなたの聲になれるうち」原作、sinumade編
- 編:sinumade 出典:http://koe.sinumade.net/
- Edited from http://koe.sinumade.net/
- Author is 芥川龍之介; Editor is me
- Created by 芥川龍之介; Edited by me
- Based on http://koe.sinumade.net/ and edited by me
- Editor: me; Based: http://koe.sinumade.net/
- Editor: me; Original: http://koe.sinumade.net/
未レビューの文章のみ、出典を確認できます(2020年10月7日より、レビューする文章の下に、出典が表示されるようになりました)。
今できる簡単な方法は、ツールのJSONファイルをFirefoxで開いて、検索欄から検索(文章、ユーザー、出典を入力)することです。
2020年11月7日以降は、データベースの移行により、KintoインスタンスのJSONファイルは利用できなくなります。
そうですね、残念ながら……。
これも不満を伝えておきました(We need a Q&A)。
可否を判断できなくて「無視」した文章は、非表示にできないの? すんごい溜まってるんだけど……
できません。
これも要望を伝えておきました(Post #18 on Sentence Collector Open Discussions - Input needed)。
何人が承認すれば、ソーステキストに採用されるの?
3人のうち、2人の承認を獲得できれば、採用されます。
承認された文章は、いつソーステキストに追加されるの?
大体毎週、プラットフォームが更新を取得したときに追加されます。
total sentencesって、ソーステキストも含まれるの?
Collectorツールのみでの合計です。