Common Voice Sentence Collector 投稿文の注意點

Sentence Collectorに追加する文章の書き方について。

多く著者の私見に基づき、參考情報に過ぎない。多樣な意見、望ましい書き方についてはDiscourseの參照を奬める。


This document has not been submitted to Discourse and is written solely in the opinion of the author.

2020-09-20: I posted a few questions and created a topic on Discourse.

參考

パブリックドメイン

All sentences you submit must be under Public Domain (CC-0) license.

自作する場合

そのまま送信フォームに突つ込めば、パブリックドメインで提供した事になる。

私はこのサイトを作る前は、出典を明記するフォームには original と書いてゐたが、もしかしたら(自作である事の說明としては)不適切だつたかも知れない。

自分の管理する媒體にアップロードする場合、「著作權を放棄する」旨を記載しておくだけで良い(恐らく)。私はCreative CommonsCC0を利用してゐる。

參考

數字

Numbers. There should be no digits in the source text because they can cause problems when read aloud. The way a number is read depends on context and might introduce confusion in the dataset. For example, the number “2409” could be accurately read as both “twenty-four zero nine” and “two thousand four hundred nine”.

數字は避ける。數字の讀みが異なるのは日本語でも同じであり、英語と同樣に避けるべきである。例へば、「三〇一」は「さんびゃくいち」「さんまるいち」「さんれいいち」と、3通りの讀み方がある。

どうしても入れる場合は、假名にする。「ひとり」「みっか」「はたち」

私見

例外として、單語の一部になつてゐる場合は問題無い。例へば、「一緒いっしょ」「十分じゅうぶん」「三十路みそじ」「五十嵐いがらし」「九十九髪つくもがみ」。「ひと言」「ひと回り」など、單語が判別し易い範圍內で假名にするのもありか。

略語・頭字語

Abbreviations and Acronyms. Abbreviations and acronyms like “USA” or “ICE” should be avoided in the source text because they may be read in a way that does not coincide with their spelling. Additionally, there may be multiple accurate readings for a single abbreviation. For example, the acronym “ICE” could be pronounced “I-C-E” or as a single word.

外國語の略語・頭字語は、避けるべきである。

私見

日本語の場合は、殆ど讀み方が決つてゐる爲、用ゐても問題無いと思はれる。例:

但し、(株)のやうに「かぶ」「かぶしきがいしゃ」と讀みに迷ひを抱かせるものは避けるべきである。

句讀點・特殊記號

Punctuation. Special symbols and punctuation should only be included when absolutely necessary. For example, an apostrophe is included in English words like “don’t” and “we’re” and should be included in the source text, but it’s unlikely you’ll ever need a special symbol like “@” or “#.”

句讀點を始めとした記號は、必要な場合にのみ用ゐるべきである。

私見

用ゐる記號は、句讀點とクエスチョンマークに限定するべきではないか? 但し、中黑は慣習的な使用にのみ(外來語の單語を區切る時など)用ゐても良い。理由としちや、やはり讀むかどうか、話者に混亂を生じさせる(讀む者と讀まない者とが出て來てしまふ)爲。

  1. 私自身の經驗を言へば、括弧類は讀むべきかどうか惱んだ。“!”のやうな强勢は、發聲が苦手なので遣つて欲しくないし、遣はないつもりだ。
  2. ただ、發音(音聲パターン)の多樣性といつた面でどうなのかは解らない。Discourseの例文ではエクスクラメーションマークの附いた文が出てゐた。
  3. 機械は“!”の綴り――發音しない記號――に關しては無視するから問題無い?

參考

外國語の文字

Foreign letters. Letters must be valid in the language being spoken. For example, “ж” is a letter in the Russian alphabet but is never used in English and so should never appear in any English source text.

使用する文字は平假名・片假名・漢字のみにする。アルファベットを始め、外國語の文字は用ゐない。例:

參考

文章の長さ

Length. Sentences must be 14 words or less.

14 wordsが、日本語ではどの程度の長さなのか判然としない。

私見

句讀點を除き、3530文字以內。10秒以內に(錄音可能時間と思はれる爲)讀めるものが望ましい。以下、ネイティヴがゆつくりめに讀上げた參考時間:

  1. 今日は良い天気ですね。(10文字/3秒)
  2. 私はそれを恋だなんて思ってないけどね。(18文字/5秒)
  3. お父さんは箔が付くからって言うけど、あたしとしちゃどうだって良いね。(32文字/7秒)
  4. このサハラというのが本名から取ったにしろ、サハラ砂漠か何かから取ったにしろ、大して興味は無い。(44文字/11秒)
  1. 2020-09-20: Sentence collector for Japanese languageにて提案
  2. 2020-10-03: 「長いより短い方が良い」といふ意見があつたので、30文字に。でも、もつと短い方が良いかもなあ。

參考

その他

氣になつた點。

長呼ちょうこ

発音しやすいように、音節に母音を添えて長音化して発音すること。例えば、「しか(詩歌)」を「しいか」というなど。長呼(ちょうこ)の意味 - goo国語辞書

例:

私見

文章の意味は變らず、日常的に用ゐられる。スラングが可なら、これも可だらう。

不要な文字は、文章を把握するに當つての“ノイズ”になり得る。個人的には却下。畫的には親しみを持てるかも知れないが、あくまで「讀上げる」爲の文(とは言へ、「發聲し易い」事も確か)。

語尾の「っ」

例:

私見

この綴りに對する發音の仕方は不明瞭である。恐らく「っ」直前の音を强く發音する(つまりアクセントの指示)であらう事は推測できるが、確かではない。

しかし、强勢がどこに置かれてゐようと、文章の意味が變更されるわけではない。これはどちらかと言へば、“演出”的な綴りなのだ。

スラングを許容してゐる事を考へれば、「問題」は無いのだらうが……。

人によつて發音の解釋が異なり、檢證に差が出ないかが心配ではある。

2020-09-20: 「あっ」や「えっ」は、感嘆詞といふ扱ひ。參考:語頭・語末の「っ」 - っ - Wikipedia

  1. 2020-09-20: Sentence collector for Japanese languageにて質問
  2. 2020-10-03: Jindřichの投稿2 [2020-09-21]によれば、データを扱ふ人は特定の文字を削除できるとの事。つまり、感嘆符エクスクラメーションマークと同じ扱ひなら、何の問題も無いといふ事。

「會話」形式の文

例:

私見

錄音は原則として一人の話者がしてをり、一人が話す言葉として不自然な文章は、不適切である。

  1. 2020-09-19: Discussion of new guidelines for uploaded sentence validationにて質問 [2020-09-19]
  2. 2020-10-03: Jindřichの投稿36 [2020-09-21]によれば、音聲アルゴリズムが理解する分には、問題無いとの事。ぢや、2文でも問題無いといふ事か?(句點が複數ある文章)

單語のみ

例:

私見

提出するのはword(單語)ではなく、sentence(文)である。

參考

sentence” の定義

DiscourseでMichael Maggs氏は、

Although the website is misleadingly called the “Sentence Collector” don’t worry too much whether the text meets the formal definition of a sentence. For example, it’s not necessarily a problem if the text does not include a verb. Any phrase that you could imagine being used as a caption to an image should be OK.

と言つてゐる。「花瓶の載った教卓。」でも良いわけか。

すると小說の描寫から拔出したものでも良いと?(語彙自體は豐富になりさうだ)

ただ言葉としての表現を集めたいだけなら幾らでもあるんだが、それが“會話的conversational”であるか、“自然natural”であるかと言つたら違ふと思ふ。人間の「話す」言葉は割と限定的で、より限られた狀況、より限られた要點において、“肥えた”言葉が出て來る――豐富な語彙、豐富なパターンは、寧ろ「書く」時にこそ多いと思ふ。

色彩豐かな表現といふ事であれば、それこそAIにでも書かせたら良いのではないか? 「より多く」「より簡單に」といふ事であれば、最早マシンに。我々人間がわざわざ書出し、書出せ、書出す必要があるのは、まさしく「日常會話」ではないか。


同氏の例は以下である。

Some simple examples:

そんな短い單位で良いといふなら、一文を細切れにして數を稼いだ方が良いつて事にならないか? 例へば、

といふ文なら、

  1. 高校最後の夏。
  2. 教室の戸。
  3. まず眼に入った。
  4. 花瓶の載った教卓。

で良いといふわけだ。

なるほど、自然でも會話的でもなく、ただ“讀上げる文章”を集めると、さういふ解釋で良いのか?


――私は何か勘違ひしてゐたのかも知れないな。Collectorが、Common Voiceが必要としてゐるのは、「會話」でも「科白」でもない。あくまで言葉こゑのパターンなのだ。


要件としちや、この短い文章を“自然”にするつて事か。

  1. 高校最後の夏だった
  2. 教室の戸に触れる
  3. 彼がまず眼に入った。
  4. 花瓶の載った教卓があった

しかし動詞や副詞を省けばさくさく讀めるし、話者の時間と勞力を節約できる。今までが長過ぎたのかも知れないな。(とは言へ、無味乾燥だ)

前提―公衆性

生身の人間が讀上げる事から、平易である事、口にし易い事、親しみ易い事、が重要である。

場合によつては文學的にナンセンスとされる文も書かねばならないかも知れない。


既にソーステキストに收錄されてゐる文には內容にも質にも多種多樣なものがあるが、何も考へずに後追ひすれば良いといふものではない。

それは話者に特定の言葉を口にさせて辱める事でも、舌の滑らかさを競はせる事でもない。


Common Voiceの性質、參加する人々とその狀況について考へる事が執筆の助けになるだらう。