Feature #14352
closedArray#pack("M") Quoted-Printable with binary mode
Description
英語で書こうと思ったのですが、うまく伝えられないかもしれないので日本語で書かせてください。すみません。
mail libraryというgemを使ってメールをパースしたり、書きだしたりしているのですが、
Quoted-Printableでエンコードされたバイナリがメールに含まれていた場合に、メールを破壊する
可能性があるということが分かりました。
調査してみると、RubyのArray#Pack("M")を使ったときに、以下のように
\rは=0Dに変換してくれるのですが、\nは=0Aではなく、そのまま\nで維持するのが問題のようで、
mail libraryはパース前の処理に\nを\r\nに変換するという処理を加えるのですが、その時に\nが
\r\nに変換され、オリジナルのバイナリを破壊してしまうことが分かりました。
puts ["あいうえお\r\nかきくけこ"].pack('M')
実行結果
=E3=81=82=E3=81=84=E3=81=86=E3=81=88=E3=81=8A=0D =E3=81=8B=E3=81=8D=E3=81=8F=E3=81=91=E3=81=93=
Quoted-Printableにおいては、レイアウトのための改行は=\r\nにする、ということが決まっているので、
このように\nが単独で残るということはないような気がするのですが、昨年末にまつもとさんにご質問
させていただいた際にPerlの実装を参考にした、ということを伺ったので、Perlについても調べて
みたのですが、Perlは$binmodeというフラグで、バイナリ時の挙動と分けているようです。
http://perldoc.perl.org/MIME/QuotedPrint.html
(もしかすると、参考にした実装とは関係ないかもしれません)
今からpack('M')の挙動を変えると、影響範囲が大きそうなので、バイナリをQuoted-Printableでエンコード
するためのオプションがあれば、いいと思うのですが、packにどういうオプション名をつければよいか、
またpack.cのqpencode関数にbinmode用の拡張しても良いかを含めてご相談させてください。
出来れば今使っているrubyのバージョンは2.3とかだったりするので、2.3.x, 2.4.xにバックポート可能かどうかも
含めて相談させてもらえれば、と思います。
Updated by mame (Yusuke Endoh) almost 7 years ago
遠藤と申します。ご報告ありがとうございます。
Quoted-Printable を規定しているのは RFC 2045 の "6.7. Quoted-Printable Content-Transfer-Encoding" だと思います。関連しそうなところを中心にルールを要約すると
(1) canonical form での CRLF 改行の CR と LF 以外の文字は、原則として =0C のようにエンコードする。ただし他のルールが別表現を許している場合はそれ以外でもよい。
(2) イコール以外の printable な文字(32〜60、62〜126)はそのままエンコード結果に出してもよい。
(3) 空白文字(9 と 32)もそのまま出してもよい。ただし行末に置く場合は =20 みたいにしないとダメ。
(4) テキスト内の CRLF 改行は、出力でも CRLF にしないといけない。メディア形式によっては CRLF 改行表現がないこともあるので、そういう形式ではハード改行を含めてはダメ。非テキストのエンコードでは =0D や =0A や =0D=0A が普通に現れる。
(5) 一行は 76 文字まで。行末に = をつけること。
と書いてあるように読めました(規格の誤読に定評と実績があるので、他の人にも確認してほしいです)。
この解釈が正しければ、現在の挙動である "...=0D\n..." は明確に否定されていると思います。
今からpack('M')の挙動を変えると、影響範囲が大きそうなので、バイナリをQuoted-Printableでエンコード
するためのオプションがあれば、いいと思うのですが、packにどういうオプション名をつければよいか、
互換性は大切ですが、規格違反だとしたら(少なくともいつかは)直すべきであると思います。
また、テキストか非テキストかでエンコード結果を変えることは、規格によって事実上要求されているように読めました。
思いつきですが、できればオプションを増やしたくはないので、エンコード対象の文字列の文字コードが ASCII-8BIT かそれ以外かで切り替えるのはどうでしょうか。> 成瀬さん
Updated by usa (Usaku NAKAMURA) almost 7 years ago
遠藤さんのRFCの解釈内容に同意します。
直さなければいけないのも同意しますが、互換性はやっぱり大切、というか、
テキストかバイナリかは本来必ず指定されなければいけない(判断のしようがない)と
思いますので、やはりここはオプションを追加して、
M
: 従来挙動。ただし将来削除するものとして警告を出す
M0
: RFC2045テキスト準拠
M1
: RFC2045バイナリ準拠
というのを提案します。
0
と 1
は安直にbinmode指定フラグとみなして言ってますが、ちょっと
暗号的に過ぎるのかなあ、という懸念はあります。
(もっとも、packテンプレート自体が元々暗号的ですが)
Updated by matz (Yukihiro Matsumoto) almost 7 years ago
うささんの案には惹かれるものがありますが、 M を削除するよりは将来の挙動を変更すると警告するほうが良いと思います。で、デフォルトでどちらかによせるかというとバイナリかな?
Matz.
Updated by naruse (Yui NARUSE) almost 7 years ago
まず報告の\rと\nが逆なように思います。
で、検討にあたって互換性というかまず現状を考えたいのです。
そもそも quoted-printable は改行がCRLFであるべきところ、pack("M")の出力はLFだけを通すんですよね。
という挙動だけ見るとこれはバイナリモードなのかと最初考えますが、
LFのままではネットワークに流せませんからこの出力をメールなどで出す場合は s/\n/\r\n/g すればよい……
とみせかけてそうすると今度は物理改行がLFだった情報が無くなるので、そもそもLFもエンコードして
すべてソフト改行にしないと元の情報が残りません。
これは現状のpack("M")でやるより自分でgsubした方が早いですし、そもそもBASE64使った方がいいですね。
現状は基本的にはテキストモードであって、後処理の便宜のためにLFになっているだけであり、
ヘッダとつなげるなりした後 s/\n/\r\n/g すればよいのだと仮定すれば、そこそこ使えるものだと考えられます。
すると、この場合 =0D\n が出力結果に含まれるのは明らかに意図せぬものとなります。
というようなことを考えると、入力のCRLF(や単独のCR)は誰かがLFに正規化するべきなのでしょう。
べき論としては出力をCRLFに変えるべきなのかもしれませんが、
トラップとしては大きすぎるので自分で気付くだろうからまぁそのままでいいかな。
RFC2045バイナリ準拠だとCR、LF、CRLF全てエンコードになると思うのですが、それって必要なのですかね。
それが必要な場合すでにgsubを使って独自実装しているような気がします。
Updated by kirika (Toshio Maki) almost 7 years ago
- Description updated (diff)
2018/01/13 10:53追記 \rと\nの表記が逆になっていたため訂正しました。
Updated by kirika (Toshio Maki) almost 7 years ago
皆様ご意見いただきありがとうございます。
成瀬さんのおっしゃる通り、私の手元では現状はpack("M")の出力にgsubを付加して、呼び出し側で回避するコードを入れています。
また、Mailライブラリ側でも同種の議論があり、バイナリの場合はto_crlfで改変しないようにするのか、
pack("M")呼び出し時に、後処理をするのかなど、試行錯誤していますが、まだ落ち着いていない状況です。
https://github.com/mikel/mail/issues/1010
https://github.com/mikel/mail/pull/1113
Ruby側でバイナリモード時のQuoted-Printableがサポートされれば、それを呼び出すのが一番いいのではないかと思っているのですが、
pack("M")の出力に加工を加える、でも対応はできると思うので、ここでの方針が決まれば、mailライブラリのコミュニティにも報告しようかと思っています。
Updated by naruse (Yui NARUSE) over 6 years ago
- Status changed from Open to Closed
Updated by naruse (Yui NARUSE) over 6 years ago
議論したのですが、結論としてドキュメントイシューということになりました。
大本のPerlもそうですが、pack/unpackは前提として、Unix環境で入力をとり、LFのまま出力し、
その出力をsendmail等に流して、それらがLFをCRLFに変換することを想定したものであろうという見解に至りました。
よって、現状の挙動はその用途においては妥当なものなので、変更せず、ドキュメントの追記のみを行いました。
kirika (Toshio Maki) wrote:
また、Mailライブラリ側でも同種の議論があり、バイナリの場合はto_crlfで改変しないようにするのか、
pack("M")呼び出し時に、後処理をするのかなど、試行錯誤していますが、まだ落ち着いていない状況です。https://github.com/mikel/mail/issues/1010
https://github.com/mikel/mail/pull/1113Ruby側でバイナリモード時のQuoted-Printableがサポートされれば、それを呼び出すのが一番いいのではないかと思っているのですが、
pack("M")の出力に加工を加える、でも対応はできると思うので、ここでの方針が決まれば、mailライブラリのコミュニティにも報告しようかと思っています。
バイナリモード時の Quoted-Printable はハード改行をどう扱うかが一般にはよくわからないので、
汎用ツールであるRubyでは扱わないことになりました。
ad-hocな対応はmailライブラリの側で対応をお願いします。
Updated by kirika (Toshio Maki) over 6 years ago
なるせさん
ご検討いただきありがとうございました。
mailライブラリとしてはこの結果をベースに修正案を出してみようと思います。
Updated by shyouhei (Shyouhei Urabe) over 6 years ago
- Related to Bug #14741: [].pack('M') quoted printable RFC2045 contains only LF, does not contain CRLF, Messages added