句読点とか小数点とかのメモ

電子書籍アクセシビリティにおける頭字語(略称)の表記
http://a11ytips.info/2017/02/%E9%9B%BB%E5%AD%90%E6%9B%B8%E7%B1%8D%E3%82%A2%E3%82%AF%E3%82%BB%E3%82%B7%E3%83%93%E3%83%AA%E3%83%86%E3%82%A3%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B%E9%A0%AD%E5%AD%97%E8%AA%9E%E7%95%A5%E7%A7%B0%E3%81%AE/

このエントリーでMoyaさんがいろいろと書かれておられるのですは、「小数点「.」を「,」と表記した時の視覚的問題点に関する追記」の節を読んでの追補というか参考資料みたいなものをば。

句読点について

これは句読点 - Wikipediaにあるように、

日本語の文章では、縦組と横組とで句読点を変えることがある。縦組では「、。」だけであるが、横組では「、。」「,。」「,.」の組合せがある。

ということで、文書次第かと(著者の好みもあれば、書籍であれば出版社のルールによる縛りもあるかと)。他の資料としては、九州大学 渡部善隆先生による横書き句読点の謎(PDF注意)なんかがものすごく詳しいと思います。

小数点について

もちろん視覚的な問題はわかりますし、日本語の慣習に反するだろうわけですが、本題とはややそれるものの小数点の表記は国によって違う、ということをまず抑えておきべきかなあと。これも小数点 - Wikipediaがわかりやすいでしょうか。

まあコンピューターの処理の観点からは、言語のロケールWindows 10でいうなら、「コントロールパネル」→「地域」で設定できるあれやこれやだと理解してもらえばよいかと)の影響を強く受けるので、当該書籍については、読み上げソフトの認識に不備がある(だからこそ、カンマを小数点として認識しうる)、というところを突いたハックだと思うんですよね…。


そんなこんなで、句読点から小数点の是非を問うよりかは、言語によって小数点に使う記号が違う、ってところを抑えておいたらいいんじゃないですかねえ、とかなんとか。

Re: 頭字語に空白文字を挿入することの是非とWebアクセシビリティ

頭字語に空白文字を挿入することの是非とWebアクセシビリティ
http://kidachi.kazuhi.to/blog/archives/039320.html

大元の話題は『電子書籍アクセシビリティの研究』公刊記念シンポジウムもあわせてあたってもらうとして、当該本については筆者は先月の28日に茶屋町でちょっと立ち読みした程度なんですが、まあEPUBを「E PUB」と書いている時点で読者を馬鹿しているのかな、という感想です。

それはさておき、リンク先の木達さんのエントリーでも触れられていますが、「E PUB」と記述することがTechniques for WCAG 2.0のF32日本語訳)に触れる可能性があるんですよね。F32の解説(原文のDescription)改めて引用してみると、

この文書は、単語を視覚的にフォーマットするために、単語の中でスペース、タブ文字、改行文字又は行送り文字のような空白文字を用いると、それらを意味のある並びとして適切に提示するのが困難になるという不適合事例について解説する。文字間を制御するために空白文字を挿入すると、単語の解釈を変えてしまうかもしれないし、それが一つの単語であるとプログラムで解釈できないようにしてしまうことがある。

頭文字語の文字間に空白文字を挿入することはこの不適合事例には当たらない。空白文字が頭文字語の解釈を変える訳ではないし、むしろ理解しやすくするかもしれないからである。

F32: 達成基準 1.3.2 の不適合事例 - スペースを用いて、単語内の文字間を空けている|WCAG 2.0 実装方法集

という塩梅で、要するに「単語間に空白文字を入れるなと。ただし、頭文字語は除く。」ということになるかなと。ここで頭文字語というのは、実は略語の一種でWCAG 2.0本体(日本語訳)に規定されています。日本語訳では頭文字語と頭字語との区別がつきにくいのが難点なのですが、これはまあそのなんですか、無理に日本語にしなかった方がよかったのではなどと思いつつ。頭文字語(initialisms; イニシャリズム)、頭字語(acronyms; アクロニム)と補足するとまだ区別が付きやすいかもしれませんが、いずれにせよWikipediaの頭字語の説明が両者の違いはわかりやすくて、

  • イニシャリズム (initialism):頭文字を一字ずつアルファベットの名のままで読むもの。例: FBI(エフ・ビー・アイ)、OECD(オー・イー・シー・ディー)、WHO(ダブリュー・エイチ・オー)など。
  • アクロニム (acronym):連なったアルファベットを通常の単語と同じように発音して読むもの。例: AIDS(エイズ)、OPEC(オペック)、NATO(ナトー)など。

となると。つまり、現時点でF32が言わんとしていることは、イニシャリズムならば(1文字ずつ)空白文字で区切りを入れればむしろ、機械はアルファベットとして認識せざるを得ないから、その意味では好ましかろうということでしょうか。たとえ聴覚系で認識しやすくても視覚系で認識しづらくなるわけですが。いずれにせよ、機械をだますことが主眼に思えて、その場しのぎのハックという感じがしますねえ…。


あと、F32の解説でいうところの空白文字、原文では"white space characters, such as space, tab, line break, or carriage return"というのがどのような集合を指すのかがあやふやなのが気になるところ。少し意地の悪い見方をすると、ゼロ幅スペース(U+200B)は空白文字に入るのかどうか、とか考えてみるとか(Unicodeでコードポイントをちゃんと指定しないと機械チェックできないでしょう)。それからF32のTestsには、Procedureとして、

For each word that appears to have non-standard spacing between characters:

  1. Check whether any words in the text of the content contain white space characters .

これを訳せば*1「文字間に標準的でない空白があるように見えるすべての単語について、コンテンツのテキストを構成する単語が空白文字を含んでいる。」とあって、やはり曖昧さが残るというか、むしろ"any words"とあるけれども、上で引用した頭文字語(イニシャリズム)が除外されるみたいな文言と矛盾しませんか…。


まとめると、

  • F32のDescriptionにある頭文字語(イニシャリズム)に関する文言はTestsと矛盾するように見える。
    • どうせ機械で頭文字語(イニシャリズム)と頭字語(アクロニム)の区別なんてつけられないだろうから、DescriptionをTestsに合わせたほうがよろしかろう。
  • F32でいうところの空白文字は曖昧さが残る。
    • 空白文字をUnicodeのコードポイントで明示したほうが好ましいかろう。たとえばUnicode spacesの表のように。

といったところでしょうか。


ところで、EPUBのバージョンに依存しないEPUB Accessibility 1.0(日本語訳)の4.3.1 WCAG 適合性要件によれば、

EPUB 出版物は、この仕様に適合するために [WCAG 2.0] レベル A を満たさなければならないが(must)、レベル AA を満たすことを推奨(recommended)する。

ということらしいですよ?

*1:ちょっと今のWAIC訳文が古いので原文を引いていた上で改変