我らテキストコーパスのリンク集を作るべし

Common Voiceプロジェクトには、テキストコーパスのリンク集が必要不可缺である。


なぜテキストコーパスのリンク集を作らなのか? なぜ誰がどのコーパスを使つたか判らないのか?

餘りにも不便過ぎる。

それとも、既にコーパスのリンク集はあるのか? 私が見逃してゐるだけか?


WikipediaOSCARといつた有名どころもあれば、個々のボランティアしか知らないやうな個人規模のソースもあるだらう。Creative Commonsを採用してゐるコミュニティもある筈だ。

その良い例が星空文庫で、2020年9月25日時點で682作ものCC0作品が投稿されてゐる。だが、このサイトはある程度知れてゐるので、既にCollectorに追加した人がゐるかも知れない。

知れない――現狀、私にはそれを知る術が無い。“誰かこのサイトを利用したか?”追加された文章を檢索する事も、その出典を知る事も敵はないのだ。これでどうやつてコーパスを最大限活用していくと?(確かに、方法はSentence collector copyright issuesに載つてゐた。だが、私はこのトピックを讀むまで、そんな事ができるとも知らなかつた。もつと簡單な方法で參照できるやうになつてゐるべきだ。)


2方向からのコーパスリンクが必要だ。

リンクをリスト化し、檢索できるやうにするのだ。

後書

これは先に英語に飜譯する文――つまり機械に理解させる文――を書いてから、それを下敷きに書起したものなんだが、日本語にするとスカスカなんだな。驚いた。

一々編輯するのも面倒だし、これからは「下書」の文で濟ませるかね。その方が早いし。