我らテキストコーパスのリンク集を作るべし

Common Voiceプロジェクトには、テキストコーパスのリンク集が必要不可缺である。

なぜテキストコーパスのリンク集を作らなのか？　なぜ誰がどのコーパスを使つたか判らないのか？

餘りにも不便過ぎる。

それとも、既にコーパスのリンク集はあるのか？　私が見逃してゐるだけか？

Wikipedia、OSCARといつた有名どころもあれば、個々のボランティアしか知らないやうな個人規模のソースもあるだらう。Creative Commonsを採用してゐるコミュニティもある筈だ。

その良い例が星空文庫で、2020年9月25日時點で682作ものCC0作品が投稿されてゐる。だが、このサイトはある程度知れてゐるので、既にCollectorに追加した人がゐるかも知れない。

知れない――現狀、私にはそれを知る術が無い。“誰かこのサイトを利用したか？”追加された文章を檢索する事も、その出典を知る事も敵はないのだ。これでどうやつてコーパスを最大限活用していくと？（確かに、方法はSentence collector copyright issuesに載つてゐた。だが、私はこのトピックを讀むまで、そんな事ができるとも知らなかつた。もつと簡單な方法で參照できるやうになつてゐるべきだ。）

2方向からのコーパスリンクが必要だ。

コーパスを發見したボランティアがリンクを追加する
Sentence Collectorに送信された出典をリンクにする

リンクをリスト化し、檢索できるやうにするのだ。

後書

これは先に英語に飜譯する文――つまり機械に理解させる文――を書いてから、それを下敷きに書起したものなんだが、日本語にするとスカスカなんだな。驚いた。

一々編輯するのも面倒だし、これからは「下書」の文で濟ませるかね。その方が早いし。