MHonArc
 URL
 help
  version
  -help
Namazu
  ML 質疑応答
Mailing List
 fml
 mlist2html
resource
 mhonarc.mrc
  SPAMMODE
 日本語の問題
  *.mrc
  その他
  TEXTENCODE
  CHARSETALIASES
  CHARSETCONVERTERS
  DECODEHEADS
  MIMEARGS
  MIMEFILTERS
  設定例
変換例
 headers
  その他
 導入記録

MHonArc @ki.nu

Namazu: FAQ: MHonArc で処理するときに日本語の Subject: をデコードさせたいのですが
http://www.namazu.org/FAQ.html.ja#mhonarc-mime
MHonArc の日本語化 for v2.6.x
http://www.shiratori.riec.tohoku.ac.jp/~p-katoh/Hack/Docs/mhonarc-jp/mhonarc-jp-2_6-draft.html
MHonArc の日本語化
http://www.shiratori.riec.tohoku.ac.jp/~p-katoh/Hack/Docs/mhonarc-jp/
MHonArcでメールHTML化
http://www15.xdsl.ne.jp/~vfr/debian/namazu/create-mhonarc.html
メールアーカイブの公開
http://bug.org/~momo/comp/mail-archive.html
メールからHTMLへの変換(MHonArc)
http://www.geocities.co.jp/SiliconValley-Cupertino/9120/mhonarc.html

日本語の問題

2.4.5 から Mime の処理が出来るようになった
2.6.0 から 省略時設定が変更になった
日本語ないし charset の問題 (現在更新中)

*.mrc

.mhonarc.mrc の中に
<CharsetConverters>
ISO-2022-JP; MHonArc::CharEnt::str2sgml; MHonArc/CharEnt.pm
</CharsetConverters>
のような字を書いておくと、us-ascii 以外は
  • HTML 4 standard character entity references (e.g. &#Aelig; );
  • Unicode character entity references (e.g. &#x017D; (Ž))
のどちらかに変換される。早い話が ISO-2022-JP は &#xc6a3; のような文字になる (なので採用しない)。

.mhonarc.mrc は (もし日本語を書くなら) EUC-JAPAN で作っておく。 そうすると、実は文字が化けてしまう。そこで、 iso2022jp.pl を Jcode を呼出すように変更 して、 EUC に変換する。更に、もう一工夫として apache 側のコード設定を euc-jp に変更するため、 .htaccess に次のように書いておく

AddType "text/html; charset=EUC-JP" html
ゴミ箱の中の技術メモに書いてあるのも同じようなことだろうか ? (ちょっと違う気がする)。

関係のある resource

resource説明本家英文
TEXTENCODE 内部での Encoding 方法の指定 *
DECODEHEADS 見出部分(header) を復号してからデータべースに保存 *
CHARSETCONVERTERS Charset と、それを処理する関数の関係 *
CHARSETALIASES Charset の別名 *
MIMARGS MIMEFILTERS に引数を渡す *
MIMEFILTERS MIME の Filter を設定。形式は
content-type;routine-name;file-of-routine
*

TEXTENCODE と CHARSETCONVERTERS の違い

大雑把には

 message-text --> TEXTENCODE --> CHARSETCONVERTERS --> HTML
だそうであるが、更に DECODEHEADS も入れると..
Last Update: Sat, 07 Jun 2014 13:16:17 GMT 1.66 2008/03/08