文章収集・CollectorツールのQ&A（自家製）

一般的なトラブルシューティング（質問する前に）

→ 一般的なトラブルシューティング（Common Voice全般と共通）

公式のQ&Aはないの？

ありません。

sentence-collectionタグのトピックを見てみるのが良いかもしれません。

似たような文章は収集していいの？（語尾を変えるだけなど）

とくに決まりはありません。各自で判断して下さい。

ただ、似たような文章が続くと、プラットフォームで読み上げる人も、Collectorツールでレビューする人も、楽しくないかもしれませんね。

参考：
- How unique should a sentence be?

「明日」とか「昨日」みたいに、複数の読みがある言葉はどうするの？

そのまま書いても問題ありません。むしろ、必要です。

読み方に傾向はあっても、私たちは必ずしも同じ読み方をするわけではありません。
音声認識システムは、すべての読みを認識できるべきですし、学習には多様な読み方（発音）が必要です。

ただし、システムが学習しやすいように（話者から複数の読みを収集できるように）、ある程度文体で読み方を意図した方がいいかもしれません。

明日行くよ（くだけた文）
明日伺います（硬い文）

参考：
- Post #5 on Sentence collector for Japanese language (日本語の文章について)

スラング（俗語）は書いてもいいの？

書いても構いません。

語によっては知らない人がいることにも留意して下さい（意図どおりの発話感覚が得られない可能性がある）。
流行語は、短い時間で馴染みの無い言葉になってしまうことに注意して下さい。Common Voiceの意図は、日常でよく使う言葉や会話を収集することにあります。

参考：
- Discussion of new guidelines for uploaded sentence validation

文末の句読点は必須？

自由です。

音声認識システムは、句読点を無視します（できます）。

参考：
- Sentence ending punctuation

語尾の「っ」は書いてもいい？

例：負けてたまるかっ

書いても構いませんが、この用法には明確な定義が無いことに注意して下さい。
つまり、読み方（発音法）が決まっていないということです。
文法からいっても必須ではありませんし、できる限り用いないことを推奨します（私見）。

参考：
- 語頭・語末の「っ」 - っ - Wikipedia
- Post #2 on Sentence collector for Japanese language (日本語の文章について)

「会話」形式で書いてもいいの？

例：「どこ行くの？」「公園」

書いても構いません。
音声認識システムは問題無く認識できます。

しかし、私見では、一人の人間が「話す」には、不自然なように思われます。

参考：
- Post #36 on Discussion of new guidelines for uploaded sentence validation

単語だけではだめ？

単語を読むのと、文（単語の連結）を読むのとでは、発音も変わります。

現在のところ、Common Voiceは「会話」（長さの程度はあれ、完結した、意味のある言葉）を収集しており、「単語」を含めることは可能なものの、望ましくはないかもしれません。
もちろん、単語単位の会話は存在します。「おすわり」とか「おかえり」とか。そういった、「会話」として見たときに違和感の無い単語は歓迎されます。ここでいう望ましくない単語の収集とは、例えば「ああ」「あい」「あえぎ」「あお」「あか」……といった、単純な単語の羅列にあります。できるだけ、生身の人間が口にする言葉として、自然な文になるよう、心掛けて下さい。

参考：
- Word frequency lists
  - I suspect that reading individual words is less fun (or not fun at all) than reading sentences, also takes more time to gather a lot of hours of voice, while right now each sentence clip is giving us 4-8s of voice.
  - The goal is to get natural speech, which is easier with complete sentences.
- Single word utterances better than sentence?
- Post #5 on Sentence collector for Japanese language (日本語の文章について)
  - The sentence collector should contain sentences in most instances, not single words.

NGワードはあるの？

ありません。将来的には実装（あるいはCollectorツールでフィルタリング）されるかもしれません。

使用すべきでない文字については、文章の編集について（使用文字の確認）を参考にして下さい。

ソーステキストの変な文は修正できないの？

できません。

でも不満は伝えておいたので（We need a Q&A）、いつかはできるようになるかもしれません。

Collectorツールに関すること

→ Common Voice Sentence Collector

これって1つずつ追加するの？　まとめて追加できないの？

できません。1つずつです。

文章抽出ツールもありますが、専門知識が必要です。プログラミングに関心のある方、見てみて下さい。

ぜひともまとめて追加したいですよね。私もテキストファイル（.txt）から追加できないか、要望を出してみました（Post #18 on Sentence Collector Open Discussions - Input needed）。

自作の文章なんだけど、出典を入力するところには、なんて書けばいいの？

とくに決まりはありません。
参考までに英語コレクションのsentence-collector.jsonを確認してみると、「私が作りました」と入力しているユーザーもいます。

「自分」であることを表現するために、WebサイトやソーシャルアカウントのURLを入力するのは、不適切です。厳密には「文章の出典」ではありませんから。なので、私がやっているように、（公開する媒体をお持ちなら）まず文章を公開して、そのURLを入力する、というのが無難かもしれません。
2020年10月7日より、レビューする文章の下には、出典が表示されるようになりました。日本語を理解している人がレビューすることを考えれば、「出典」の表記は必ずしも英語でなくて良いかもしれません。

出典欄の記載例

自作
オリジナル
I made that
My own work
Original
My original
Myself
Me
Author is me
Creator is me
Authored by me
Created by me
Author: me
Creator: me

編輯した場合

URIは、他の文字と並んでいると紛らわしいので、文末に置いています。

「あなたの聲になれるうち」より編輯
芥川龍之介作、sinumade編
「あなたの聲になれるうち」原作、sinumade編
編：sinumade　出典：http://koe.sinumade.net/
Edited from http://koe.sinumade.net/
Author is 芥川龍之介; Editor is me
Created by 芥川龍之介; Edited by me
Based on http://koe.sinumade.net/ and edited by me
Editor: me; Based: http://koe.sinumade.net/
Editor: me; Original: http://koe.sinumade.net/

収集したユーザーや出典は確認できないの？

未レビューの文章のみ、出典を確認できます（2020年10月7日より、レビューする文章の下に、出典が表示されるようになりました）。

~~今できる簡単な方法は、ツールのJSONファイルをFirefoxで開いて、検索欄から検索（文章、ユーザー、出典を入力）することです。~~
2020年11月7日以降は、データベースの移行により、KintoインスタンスのJSONファイルは利用できなくなります。

参考：
- Sentence collector copyright issues
- CollectorツールのJSONファイルから文章のメタ情報を確認する
- Post #3 on [ACTION REQUIRED] New Sentence Collector Infrastructure and Improvements
  - the kinto instance will be deleted once we remove the migration on November 7th or after. All sentences now live in a MySQL database and not in Kinto anymore.

ページ送りは、矢印をクリックするしかないの？

そうですね、残念ながら……。

これも不満を伝えておきました（We need a Q&A）。

可否を判断できなくて「無視」した文章は、非表示にできないの？　すんごい溜まってるんだけど……