2020年のお報せ (Notice for 2020)
2020年のお報せ (Notice for 2020)
日本語コレクション中心 (Focus on the Japanese language collection)
更新を簡単にするため、表記は最小限に留める
2020-11-12: Sentence Collector: 日本語コレクションから、不適切な文章が削除される
- 削除された結果、日本語の総文数は2,746から、774(1,972減)に
- 削除の主な理由は、出典がパブリックドメインでないこと
文章を読み上げた音声、及びそれを元にしたデータセットがどうなるかは未定
1,972 inappropriate sentences in the Japanese language collection were removed
2020-11-09: Sentence Collector: アカウント移行機能が終了
Migrate Account(旧アカウントからの移行)メニューが終了した
Account migrate feature ends
2020-11-07: Sentence Collector: 著作権問題の報告
Report on Copyright Issues
2020-10-08: Sentence Collector: Tanaka Corpus由来の文章の削除が決定
Decision to remove sentences from Tanaka Corpus
2020-10-07: Sentence Collector: URIの変更/commonvoice.mozilla.orgアカウントとの統合
レビューする文章の下に、出典が表示されるようになった
Changing URI / Integration with commonvoice.mozilla.org account
The source is displayed below the sentence to be reviewed
2020-09-26: Sentence Collector: 著作権問題の報告
Report on Copyright Issues
2020-09-20: 日本語の文章収集についてトピックが立つ
Topic on collecting Japanese texts was created
2020-09-09: Common Voiceの今後について
Mozillaの変革により、Common Voiceの活動は縮小している
貢献(音声、文章、技術面等)は問題無くできるが、プロジェクトに変更を加えるには時間を要する
- 新機能のリリースは無いが、バグ等問題に対処していく
- データセットはリリースするが、時間が掛かるかもしれない
- コミュニティマネージャーは不在だが、Discourse(フォーラム)とElement(チャット)でゆっくり対応していく
2020-09-07: アンケートの実施
万人が対象
Conducting Surveys
Mozilla Voice Community Playbook Ver. 1.1 is now available
2020-08-13: Mozillaの大幅な転向と、Common Voiceの展望について
- プラットフォーム/コミュニティサポートはメンテナンスモードに
- コミュニティマネージャーの不在
2020-08-08: Sentence Collector: ツールが一時的にダウン、9日には復旧
The tool was down temporarily, and it was fixed on the 9th
2020-07-31: ドメインとGitHubの移行完了と補完
2020-07-28: Common Voice公式サイトが、voice.mozilla.orgからcommonvoice.mozilla.orgへ
The official Common Voice website has been moved from voice.mozilla.org to commonvoice.mozilla.org
2020-07-23: Sentence Collector: 送信前のレビュー(セルフレビュー)についてのオープンディスカッションが開始
2020-07-22: アップデートの詳細について
- 目標セグメント(target segment)
- 録音回数の制限
- データセットの修正(Corpus 5.1)
- プラットフォームのインフラ整備
- チャンネルの整理(GitHub、Discourseの使い方など)
- 公式サイト(プラットフォーム)の新ドメイン
Update Details
2020-07-16: Sentence Collector: オープンディスカッションが開始
Open discussion has begun
2020-07-14: データセット (Corpus 5.1) がリリース
Corpus 5.0の修正
2020-06-30: データセット (Corpus 5.0) がリリース
目標セグメント(target segment)も含まれている
Target segments are also included
2020-06-21: Sentence Collector: Sentence Extractorの現状と、ワークフローについて
2020-06-19: 6月8日週より、“一文に一回の録音”に制限を開始
Last week, the limit started to be set at "one recording per sentence"
2020-05-14: アップデートの詳細について
ロードマップあり
Update Details. Roadmap available
2020-05-09: 目標セグメント(target segment)の収集を開始
数字認識、イエス・ノー検出、またFirefox Voiceのウェイクワード(起動音声)テストのため
以下、14個の音声を収集する
- 0-9までの10個の数字
- Yes
- No
- Hey
- Firefox
今後はクリップレベルでのタグ付け(情報の補完)も予定しているとのこと
2020-04-29: iOSアプリが廃止に
今後はSafariからWebアプリ(プラットフォーム)にアクセスして録音・検証するように
iOS apps have been discontinued
From now on, access the platform through Safari to recording
2020-04-17: 2月~4月(コロナ時期)の貢献度の比較
Comparison of contributions from February to April
2020-04-15: インフラの整備に伴い、21時(日本時間)から2時間程度のメンテナンス
メンテナンス中、プラットフォームは利用できなくなる
Maintenance will start at 12 PM UTC and last for 2 hours as the infrastructure is upgraded
Platform will be unavailable during maintenance
2020-03-26: 言語・訛り戦略について
プロファイルの重要性について
- 特定の需要(例えば、ある地域のある訛りを持つ人)に向けて、より正確なトレーニングをするため、話者がプロファイル(性別、年齢、住んでいた地域など)を提供することは重要な意味を持つ
- 今後はaccent(訛り)ではなく、住んでいる/いた地域と期間を収集する(訛りの自覚は難しく、曖昧なため)。プライバシーに配慮し、地域はおおよその位置とする
- 収集した情報は、言語学者と共に信頼に値するか精査していく
他、Common Voiceにおける「言語」の定義など
2020-03-18: Sentence Collector: Sentence Extractorの自動化が可能に
2020-02-27: データセットユーザー向けのアンケートが実施
Surveys for dataset users have been conducted
2020-02-19: 3月、チャットツールをSlackからMatrix(Element)へ移行予定
In March, the chat tool will be moved from Slack to Matrix (Element)
2020-02-03: 2月6日~10日まで、スタッフチームが不在に
この期間、フォーラム等で質問しても回答は得られない
2020-01-27: Sentence Collector: 著作権問題を報告するトピックが立つ
Topic to report on copyright issues has been created
2020-01-15: データセット (Corpus 4) リリースの詳細について
データセット (Corpus 4) は、2019年12月10日にリリース
Dataset (Corpus 4) was released on December 10, 2019