Sentence Collectorに追加する文章の書き方について。
多く著者の私見に基づき、參考情報に過ぎない。多樣な意見、望ましい書き方についてはDiscourseの參照を奬める。
This document has not been submitted to Discourse and is written solely in the opinion of the author.
2020-09-20: I posted a few questions and created a topic on Discourse.
All sentences you submit must be under Public Domain (CC-0) license.
そのまま送信フォームに突つ込めば、パブリックドメインで提供した事になる。
私はこのサイトを作る前は、出典を明記するフォームには original と書いてゐたが、もしかしたら(自作である事の說明としては)不適切だつたかも知れない。
自分の管理する媒體にアップロードする場合、「著作權を放棄する」旨を記載しておくだけで良い(恐らく)。私はCreative CommonsのCC0を利用してゐる。
Numbers. There should be no digits in the source text because they can cause problems when read aloud. The way a number is read depends on context and might introduce confusion in the dataset. For example, the number “2409” could be accurately read as both “twenty-four zero nine” and “two thousand four hundred nine”.
數字は避ける。數字の讀みが異なるのは日本語でも同じであり、英語と同樣に避けるべきである。例へば、「三〇一」は「さんびゃくいち」「さんまるいち」「さんれいいち」と、3通りの讀み方がある。
どうしても入れる場合は、假名にする。「ひとり」「みっか」「はたち」
例外として、單語の一部になつてゐる場合は問題無い。例へば、「一緒」「十分
Abbreviations and Acronyms. Abbreviations and acronyms like “USA” or “ICE” should be avoided in the source text because they may be read in a way that does not coincide with their spelling. Additionally, there may be multiple accurate readings for a single abbreviation. For example, the acronym “ICE” could be pronounced “I-C-E” or as a single word.
外國語の略語・頭字語は、避けるべきである。
日本語の場合は、殆ど讀み方が決つてゐる爲、用ゐても問題無いと思はれる。例:
但し、(株)のやうに「かぶ」「かぶしきがいしゃ」と讀みに迷ひを抱かせるものは避けるべきである。
Punctuation. Special symbols and punctuation should only be included when absolutely necessary. For example, an apostrophe is included in English words like “don’t” and “we’re” and should be included in the source text, but it’s unlikely you’ll ever need a special symbol like “@” or “#.”
句讀點を始めとした記號は、必要な場合にのみ用ゐるべきである。
用ゐる記號は、句讀點とクエスチョンマークに限定するべきではないか? 但し、中黑は慣習的な使用にのみ(外來語の單語を區切る時など)用ゐても良い。理由としちや、やはり讀むかどうか、話者に混亂を生じさせる(讀む者と讀まない者とが出て來てしまふ)爲。
Foreign letters. Letters must be valid in the language being spoken. For example, “ж” is a letter in the Russian alphabet but is never used in English and so should never appear in any English source text.
使用する文字は平假名・片假名・漢字のみにする。アルファベットを始め、外國語の文字は用ゐない。例:
Length. Sentences must be 14 words or less.
14 words
が、日本語ではどの程度の長さなのか判然としない。
句讀點を除き、3530文字以內。10秒以內に(錄音可能時間と思はれる爲)讀めるものが望ましい。以下、ネイティヴがゆつくりめに讀上げた參考時間:
氣になつた點。
発音しやすいように、音節に母音を添えて長音化して発音すること。例えば、「しか(詩歌)」を「しいか」というなど。
(長呼(ちょうこ)の意味 - goo国語辞書)
例:
文章の意味は變らず、日常的に用ゐられる。スラングが可なら、これも可だらう。
不要な文字は、文章を把握するに當つての“ノイズ”になり得る。個人的には却下。畫的には親しみを持てるかも知れないが、あくまで「讀上げる」爲の文(とは言へ、「發聲し易い」事も確か)。
例:
この綴りに對する發音の仕方は不明瞭である。恐らく「っ」直前の音を强く發音する(つまりアクセントの指示)であらう事は推測できるが、確かではない。
しかし、强勢がどこに置かれてゐようと、文章の意味が變更されるわけではない。これはどちらかと言へば、“演出”的な綴りなのだ。
スラングを許容してゐる事を考へれば、「問題」は無いのだらうが……。
人によつて發音の解釋が異なり、檢證に差が出ないかが心配ではある。
2020-09-20: 「あっ」や「えっ」は、感嘆詞といふ扱ひ。參考:語頭・語末の「っ」 - っ - Wikipedia
例:
錄音は原則として一人の話者がしてをり、一人が話す言葉として不自然な文章は、不適切である。
例:
提出するのはword(單語)ではなく、sentence(文)である。
I suspect that reading individual words is less fun (or not fun at all) than reading sentences, also takes more time to gather a lot of hours of voice, while right now each sentence clip is giving us 4-8s of voice.
The goal is to get natural speech, which is easier with complete sentences.
DiscourseでMichael Maggs氏は、
Although the website is misleadingly called the “Sentence Collector” don’t worry too much whether the text meets the formal definition of a sentence. For example, it’s not necessarily a problem if the text does not include a verb. Any phrase that you could imagine being used as a caption to an image should be OK.
と言つてゐる。「花瓶の載った教卓。」でも良いわけか。
すると小說の描寫から拔出したものでも良いと?(語彙自體は豐富になりさうだ)
ただ言葉としての表現を集めたいだけなら幾らでもあるんだが、それが“會話的
色彩豐かな表現といふ事であれば、それこそAIにでも書かせたら良いのではないか? 「より多く」「より簡單に」といふ事であれば、最早マシンに。我々人間がわざわざ書出し、書出せ、書出す必要があるのは、まさしく「日常會話」ではないか。
同氏の例は以下である。
Some simple examples:
- The giant dinosaurs of the Triassic.
- Sheet lightning.
- Fun with flags.
- The lure of the wild.
- Oh no, not again!
- The end of the rainbow.
- An example of running stitch.
- Under the arches.
そんな短い單位で良いといふなら、一文を細切れにして數を稼いだ方が良いつて事にならないか? 例へば、
といふ文なら、
で良いといふわけだ。
なるほど、自然でも會話的でもなく、ただ“讀上げる文章”を集めると、さういふ解釋で良いのか?
――私は何か勘違ひしてゐたのかも知れないな。Collectorが、Common Voiceが必要としてゐるのは、「會話」でも「科白」でもない。あくまで言葉
要件としちや、この短い文章を“自然”にするつて事か。
しかし動詞や副詞を省けばさくさく讀めるし、話者の時間と勞力を節約できる。今までが長過ぎたのかも知れないな。(とは言へ、無味乾燥だ)
生身の人間が讀上げる事から、平易である事、口にし易い事、親しみ易い事、が重要である。
場合によつては文學的にナンセンスとされる文も書かねばならないかも知れない。
既にソーステキストに收錄されてゐる文には內容にも質にも多種多樣なものがあるが、何も考へずに後追ひすれば良いといふものではない。
それは話者に特定の言葉を口にさせて辱める事でも、舌の滑らかさを競はせる事でもない。
Common Voiceの性質、參加する人々とその狀況について考へる事が執筆の助けになるだらう。
Common Voice は 20 歳以上の誰もが利用できます。20 歳未満の方の利用には保護者の同意が必要となり、Common Voice への参加を監督してもらう必要があります。