Bug #10382: s = '\x80'; /#{s}/ raises an exception in US-ASCII script - Ruby - Ruby Issue Tracking System

Actions

Copy link

Bug #10382

closed

s = '\x80'; /#{s}/ raises an exception in US-ASCII script

Bug #10382: s = '\x80'; /#{s}/ raises an exception in US-ASCII script

Added by akr (Akira Tanaka) almost 12 years ago. Updated almost 12 years ago.

Status:

Closed

Assignee:

Target version:

ruby -v:

ruby 2.2.0dev (2014-10-14 trunk 47915) [x86_64-linux]

Backport:

2.0.0: UNKNOWN, 2.1: UNKNOWN

[ruby-dev:48626]

Description

以下のふたつのスクリプトの動作は一致するべきだと思うのですが、
前者と異なり後者は例外となります。

% cat z1.rb          
# -*- encoding: US-ASCII -*-
r = /#{'\x80'}/
p [r, r.encoding]
% ./miniruby -v z1.rb
ruby 2.2.0dev (2014-10-14 trunk 47915) [x86_64-linux]
[/\x80/, #<Encoding:ASCII-8BIT>]

% cat z2.rb          
# -*- encoding: US-ASCII -*-
s = '\x80'
r = /#{s}/
p [r, r.encoding]
% ./miniruby -v z2.rb
ruby 2.2.0dev (2014-10-14 trunk 47915) [x86_64-linux]
z2.rb:3:in `<main>': invalid multibyte escape (ArgumentError)

後者のスクリプトは前者のスクリプトの文字列 '\x80' を変数に代入してから
使っているだけの違いなので動作が変わる理由はないと思います。

ここでどちらが正しいかというのが問題ですが、前者が正しいのだと思います。

正規表現リテラルはスクリプトエンコーディングというのが原則で、
それだけなら US-ASCII なので \x80 は invalid で例外という後者が正しいのですが、
US-ASCII のスクリプト内で \x80 などを使うと自動的に ASCII-8BIT になるという仕様 ruby-dev:33348 があって、
動的な正規表現に対してこれが実装されていないように思います。

(静的な正規表現に関しての実装は reg_fragment_setenc_gen だと思います。)

Related issues 1 (0 open — 1 closed)

Updated by nobu (Nobuyoshi Nakada) almost 12 years ago Actions
Copy link
#1 [ruby-dev:48630]

RegexpはASCII-8BITになってもStringはスクリプトエンコーディングのままなので、意図的なCODERANGE_BROKENなのか、意図しないバグによるものなのか、区別する方法がないというのが問題ですね。

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#2 [ruby-dev:48631]

えぇと、ここでの string 自体は US-ASCII で valid なのです。
'\x80' というのは US-ASCII な 4文字の文字列なので。
CODERANGE_BROKEN な文字列ではありません。

それを regexp として解釈した時に US-ASCII としては invalid なことに気がついて現在は例外になりますが、
US-ASCII な文字列の中にエスケープされた 8bit なバイトを示す記述があったら、
ASCII-8BIT な regexp にしたほうが一貫しているんじゃないか、という話です。

Updated by duerst (Martin Dürst) almost 12 years ago Actions
Copy link
#3 [ruby-dev:48636]

UTF-8 や Windows-31J で試してみたところ、両方とも (/#{s}/ も /#{'\x80'}/ も) invalid multibyte eｓcape となっています。なぜ US-ASCII の場合片方しかなってないのか分かりませんが、両方ともエラーになった方が筋が通るのではないかと思います。

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#4 [ruby-dev:48637]

筋が通るというのは原則どおりなのでそれはそうですが、
US-ASCII の場合は例外扱いでそうはしないことにしたという経緯があるので
筋が通るということのみではそうする理由にはならないと思います。

Updated by duerst (Martin Dürst) almost 12 years ago Actions
Copy link
#5 [ruby-dev:48646]

US-ASCII で色々例外があることは分かっています。しかし、例外を増やすのではなく、減らす方向で考えた方がいいかと思います。US-ASCII のではなく、 UTF-8 がデフォールトソースエンコーディングとなった今では /#{'\x80'}/ などはソースのエンコーディングを考えなかったら通らなくなりました。そこで実際に US-ASCII のではなく、ASCII－8BIT を使いたかったら、その通りに -*- encoding: ASCII-8BIT と書けばいいかと思います。その意味で最近になって US-ASCII を特別扱いする理由が減っていると思います。

[もともとの原因は、Ruby でソースエンコーディング以外にエンコーディングで文字列リテラルが作れないことかと思います。その為に #10391 を提案しました。]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#6 [ruby-dev:48654]

デフォルトのソースエンコーディングが UTF-8 になったことはこっちも仕様を変更する理由になるかもしれませんね。

Updated by nobu (Nobuyoshi Nakada) almost 12 years ago Actions
Copy link
#7 [ruby-dev:48657]

Status changed from Open to Closed
% Done changed from 0 to 100

Applied in changeset r47992.

re.c: mak eregexps with binary escapes ASCII-8BIT

re.c (unescape_nonascii): make dynamically compiled US-ASCII
regexps ASCII-8BIT encoding if binary (hexadecimal, control,
meta) escapes are contained, as well as literal regexps.
[ruby-dev:48626] [Bug #10382]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#8 [ruby-dev:48658]

なかださんが（最初の報告における前者の挙動に）直してくれたようです。

後者の挙動にしたければ、それは仕様変更なので、別のチケットにするのが適切かと思います。

Updated by nobu (Nobuyoshi Nakada) over 11 years ago Actions
Copy link
#9 [ruby-dev:48793]

Related to Bug #10670: char-class matching same character with different encodings raises exception added

Actions

Copy link

Also available in: PDF Atom

Project

General

Profile

Ruby

Custom queries

Bug #10382

s = '\x80'; /#{s}/ raises an exception in US-ASCII script

Updated by nobu (Nobuyoshi Nakada) almost 12 years ago Actions
Copy link
#1 [ruby-dev:48630]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#2 [ruby-dev:48631]

Updated by duerst (Martin Dürst) almost 12 years ago Actions
Copy link
#3 [ruby-dev:48636]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#4 [ruby-dev:48637]

Updated by duerst (Martin Dürst) almost 12 years ago Actions
Copy link
#5 [ruby-dev:48646]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#6 [ruby-dev:48654]

Updated by nobu (Nobuyoshi Nakada) almost 12 years ago Actions
Copy link
#7 [ruby-dev:48657]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#8 [ruby-dev:48658]

Updated by nobu (Nobuyoshi Nakada) over 11 years ago Actions
Copy link
#9 [ruby-dev:48793]

Project

General

Profile

Ruby

Custom queries

Bug #10382

s = '\x80'; /#{s}/ raises an exception in US-ASCII script

Updated by nobu (Nobuyoshi Nakada) almost 12 years ago ActionsCopy link #1 [ruby-dev:48630]

Updated by akr (Akira Tanaka) almost 12 years ago ActionsCopy link #2 [ruby-dev:48631]

Updated by duerst (Martin Dürst) almost 12 years ago ActionsCopy link #3 [ruby-dev:48636]

Updated by akr (Akira Tanaka) almost 12 years ago ActionsCopy link #4 [ruby-dev:48637]

Updated by duerst (Martin Dürst) almost 12 years ago ActionsCopy link #5 [ruby-dev:48646]

Updated by akr (Akira Tanaka) almost 12 years ago ActionsCopy link #6 [ruby-dev:48654]

Updated by nobu (Nobuyoshi Nakada) almost 12 years ago ActionsCopy link #7 [ruby-dev:48657]

Updated by akr (Akira Tanaka) almost 12 years ago ActionsCopy link #8 [ruby-dev:48658]

Updated by nobu (Nobuyoshi Nakada) over 11 years ago ActionsCopy link #9 [ruby-dev:48793]

Updated by nobu (Nobuyoshi Nakada) almost 12 years ago Actions
Copy link
#1 [ruby-dev:48630]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#2 [ruby-dev:48631]

Updated by duerst (Martin Dürst) almost 12 years ago Actions
Copy link
#3 [ruby-dev:48636]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#4 [ruby-dev:48637]

Updated by duerst (Martin Dürst) almost 12 years ago Actions
Copy link
#5 [ruby-dev:48646]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#6 [ruby-dev:48654]

Updated by nobu (Nobuyoshi Nakada) almost 12 years ago Actions
Copy link
#7 [ruby-dev:48657]

Updated by akr (Akira Tanaka) almost 12 years ago Actions
Copy link
#8 [ruby-dev:48658]

Updated by nobu (Nobuyoshi Nakada) over 11 years ago Actions
Copy link
#9 [ruby-dev:48793]