The way a number is read depends on context and might introduce confusion in the dataset.
このHow toの一節が氣になつて仕方無かつた。
漢字の讀み方は文脈に依存してゐる! そして多くの漢字は、複數の讀みを持つてゐる。
思ひ附く限り、擧げてみよう。
「どうやつて使ひ分けてゐるの?」「どうしてその言葉を選んだの?」――意外にも、私たちはそれ程意識せず言葉を「選擇」してゐる事が判るだらう。
恐らく、Jindřich Dítěが懸念してゐた事である:as long as there is not multiple ways to pronounce what you have written in the context it is in, it should be fine.
(Jindřich Dítěの返信 [2020-09-21])
確かに、文脈である程度は讀み方を絞り込む事はできるが、それは「傾向」であつて、絶對ではない。どう讀むかは話者の知識量、生活習慣(例へば職業、讀書量など)に依存する。何なら“好み”で選擇してゐる節さへある。なので、「正しく讀んで下さい」と言はれた時、私たちは困惑する――「どれも正しいよなあ」と。
音聲アルゴリズムは、總ての讀みを理解してゐる必要がある。
それぞれの字の意味で使ひ分ける。あるいは、好み。
讀み方は、文脈や單語に依存する。
このやうな短い文脈では、讀み方は判斷できない(もつと文脈――判斷に足る情報――を必要とする)。
所謂、同音異義語。
日本語の發音は總て平假名で書けるが、ここにさうすべきでない理由がある。勿論、「書けて」と「欠けて」ではイントネーションが違ふ。だが、「記事」と「生地」は同じである。平假名の文章から意味を把握しようとするなら、もつと「背景」が必要になるだらう。
よくある洒落。“Ice Cream”と“I Scream”のやうなものか? 上記の場合、多少發音が違ふが。