Sentence Collectorへの意見
何でも良いのですか? 言ひたい事はいつぱいありますよ。
- How toに關してですが、各言語のルールは絶對必要です。
- 各言語の案內。せめてPlaybookやCollectorのHow toは飜譯されてゐるべきだと思ひます。
- 特定の文章をフィルタリングする。例へば、外國の文字、文字數。各言語のルールが必要です。
- これはガイドラインに關係しますが、「グレーゾーン」にも言及されるべきです。例へば性的な言葉、政治、宗敎など、センシティヴな文章について、ある程度の取決めが必要です。
- 例へば、「歷史の事實」を述べた文章があるとします。でも、A國では「統治」とされる事が、B國では「侵略」とされてゐる事は、本當によくあります。私たちはあらゆる人々が文章を讀む事を理解してゐる必要があります。
- 性は、私たち人間にとつて、重要な表現です。でも、これもかなり難しい問題です。私はエッチですとか、彼女は彼に身を任せたとか、ぺちゃぱいですとか、一部の人には口にするのが躊躇はれる文章もある筈です。規約では未成年が讀める事にも注目すべきです。
- 實際、日本語のソーステキストには
私よりもっとエッチな人もいて安心しました。
なんて文もあります。皆さんどう思ひますか?
- エッチの譯し方が惡いのは認めます(lecherous, sexually active)。でもエッチと言つたら、間違ひ無く日本人はそこに性的なものを感じ取ります。(しかもそれを聲に出して讀むんです!)
- 補足しておくと、ソーステキストには無いが、
ぺちゃぱい
はTanaka Corpusにある言葉。現在ソーステキスト及びCollectorには、このEDRDG Wikiが公開してゐるパブリックドメイン版の文章が多數含まれてゐる。他、氣になる文章には大学生の時、有理子が愛欲に身を委ねた。
(これはCollectorに存在する)などがある。
- 英語版(Mozilla Discourse投稿文)では普通に「おっぱい」と書いておいた。
- レビューボタンのデザインを變へる。なぜ親指のデザインなのか? ええ、親指が上になつてゐればgoodで、下になつてゐればno goodですね。解りづらいです。この意味は2つあります。
- まづ、日本にはそんなジェスチャーはありません。つまり、親指を上げたり下げたりする文化の無い國や地域は他にもあるだらうといふ事です。YouTubeのやうなサービスもさうですが、かういつた地域性の强い表現を見ると、私はいつも「外國」にゐるやうな氣分になります。私は時々、Common Voiceが本氣で世界中の人々に關はらうとしてゐるのか疑問に思ふ事があります。
- 言ふなれば、ユニバーサルデザインです。私たちは特色のあるデータを集めようとしてゐます。しかし皮肉な事に、Common Voiceそのものは、「特色」を出してはならないのです。
- 次に、紛らはしいといふ點です。相違點はまさに「親指」だけです。なぜ單純に「yes」とか「no」とかにしなかつたんでせう?
- How toには、
"yes" button
、"no" button
といふ記載があります。これが餘計混亂を深めます。それとも、昔はyesとnoのボタンだつたのですか? だとしても、記載は改めて欲しいですが。
- 他の原因としては、文章同士のブロックが近いといふのがあるかも知れません。親指がずらーつと竝んでゐて、どれがどの親指なのか判らなくなる時があります。せめて境界線を引くか、ブロックの色を交互に變へるかなどした方が良いでせう。
- レビューボタンの色を變へる。ええ、上記でも觸れたやうに、紛らはしいからです。yesなら綠、noなら赤、といつたやうに、明確に區別できるのが理想です(はい、これらは色弱の人には見えにくい組合せです。他の組合せにし、文字や圖のみでも明確に「承認」と「拒否」が區別できるべきです)。押すと眞つ黑になるのは良いデザインだと思ひます。
- コーパスのリンク集。參考:我らテキストコーパスのリンク集を作るべし
- 文章ごとの、メタデータを參照するページ。(これは厖大な數になるので、現實的ではない?)
- 未レビューの文章數が正確に判る事。
- 文章の總計と未レビュー數について、進捗が可視化できる事。(色の附いたバーなどで)
- 「追加した文章」のページ。Rejected Sentencesのやうに。セルフレビューする時に便利です。
- 議論ボタン。レビューの判斷ができない文章について、他のユーザーと議論します。(このボタンが押された文章だけ、個別のページを設ける、といふのが良いかも知れない)
- 非表示ボタン(それが適當なら)。これは何で誰もQ&Aを作らないんですか?でも觸れました。非表示にしたものだけ確認できるようにもする(「非表示にした文章」のページ)。
- 文章を檢索できる事。
- 文章の出典が確認できる事。
- 文章の出典が檢索できる事。
- 文章を追加・レビューしたユーザーを確認できる事。
- 文章にフラグが立てられる事。後でレビューする爲に。「保留」ですね。例へば難しい文章について、辭書を引いてからレビューする時など。
- 保留期間を設けます。期間が過ぎると、フラグは外され、他のユーザーが文章をレビューできるようになります。
- テキストファイル(.txt)から文章を追加できる事。
- ファイルのフォーマットにもルールがあるべきです。一行一文など。
- 送信前に、ファイルのプレビューができる事。
- フィルタリングされた文章は通知され、どこが原因なのか判る。(文字が赤くなるなど)
- ダークモード。長時間の作業が樂になります。
ランダム順のソート
私は「無視」した文章を振返つてレビューする事があるので、ランダムはちよつと不便かな? でも、
- 氣になる文章にはフラグを立てられる事
- 文章が檢索できる事
が可能なら、導入してみても良いかも知れません。
確かに、似たやうな文章が竝んでゐると、間違ひに氣附きにくいですね。「つまらない」といふのは槪ね贊成ですけど。
でも、Irvinさんが投稿14で言はれてゐるやうに、それぞれの文章に「繫がり(關聯性)」を持たせる事のメリットも見逃せません。
拒否された文章
文章を拒否するユーザーが、なぜ拒否するのか示す必要があります。
例へば、
- 拒否ボタンを押す
- 選擇肢が表示される
- 間違ひ(誤字・脫字、缺落など)
- 不適切な表現(性的表現、ヘイトスピーチなど)
- 發音が難しい
- 意味が理解できない
- その他(ユーザーが入力)
- 選擇して、拒否する
修正後の再投稿は贊成です。でも、誰が修正するんですか? 文章を追加したユーザー? 他のユーザーですか?
拒否された文章は公開されてゐて、どんなユーザーでも修正できるようになつてゐれば、仕事はもつと早く片附くんぢやないでせうか?
いづれにしても、再投稿された文章は、
ようになつてゐる必要があります。中立性を保つ爲、拒否したユーザー以外がレビューできるようになつてゐると良いかも知れません。
拒否への抗議
文章を追加したユーザーが抗議できるようになつてゐる必要もあると思ひます(文章を修正せず再投稿する場合は必須)。例へば、「誤字」が原因で拒否されたとします。でも、それは拒否したユーザーが單語や文法を知らなかつただけかも知れません。ですから、
- 文章が拒否される
- 追加したユーザーが「抗議ボタン」(あるいは單純に「公開ボタン」とか「議論ボタン」とか)を押す
- 文章の議論ページが作成される
- ページに、各ユーザーが意見を述べる
こういつたプロセスで、中立性を保つのが妥當だと思ひます。
ユーザーフィルター
うーん、このフィルターつて、總てのユーザーが共有するんですか? それとも、ユーザーごとに設定できるんですか? 個人的には、兩方機能してゐる事がベストです。共有するフィルターは、愼重に檢討すべきだと思ひます。
文章を追加・レビューしたユーザーが、Collectorツールから明確に判る事は重要です。でも、文章をレビューする時、ユーザーの情報は邪魔になります。なので、「レビュー」畫面では非表示にして、「檢索」畫面では文章のメタデータ(追加したユーザー、出典など)を表示する。このやうに、文章についての判斷と、ユーザーについての判斷は、區別されてゐるべきです。
なぜユーザーフィルターを使ひたいか? そこが焦點です。ユーザーをフィルタリングする理由は、大抵、文章に問題があるからです。ですから、
- 拒否された文章
- 再投稿された文章
- 著作權に問題がある文章
以上について、關はつたユーザーを、總てのユーザーの個別フィルターに追加できるようにします。そして、問題の多いユーザーについて、共有フィルターに追加します。
私は寧ろ、出典のフィルターが必要だと思ひます。著作權違反の疑ひがある場合、それを除外できます。
Irvinさんの投稿3の意見は尤もだと思ひます。さうですね、出典を檢索できるようにしても、總てのユーザーが「出典」を提出するわけではないですよね……。私もフィルタリング自體には贊成です。
通知
オプションで良いと思ひます。私には不要です(自分で確認するので)。
例へば、
- 今日は200文が追加されました!
- 20文がユーザーのコメントを必要としてゐます
送信する頻度も重要ですね。一日、一週間、一箇月。あるいは、文章が追加される度? 拒否された文章のみとか、議論を必要としてゐる文章のみとか、通知のオプションも用意しておくと良いかも知れません。
セルフレビュー
多分、アップロードする時のセルフレビューは不要だと思ひます。どの道セルフレビューができるようになつてるなら。アップロード作業を中斷させる理由も無いでせう。これはSentence Collector - Review before Submitで言及すべきでしたね。すみません。
プラットフォームから人々に知らせる
プラットフォームにて、文章もボランティアが收集してゐると知らせる。多分、錄音やその檢證だけしてゐる人は知らないと思ひます。現在は讀上げる文章が無くなるとCollectorツールに案內されます。でも、文章收集は、プラットフォームから言及されるべき事項です。實際、文章收集は錄音と同じくらゐ重要なんですから!