2009年6月29日月曜日

あれ?

別にそれほど困った話ではないけど、xyzzyのsha-1,emacsのsha1関数を使った ファイルのチェックサムを求める方法がよく分からない。

テストしたファイルは newLISPv10.1(UTF-8_win32)

SHA1(newlisp.dll)= 5ef2a160350fde6312baa2a6fa3d964c308f7faf
SHA1(newlisp.exe)= 561ff028b606c3671393848e279b845c5fdf60c1

で、以下が結果。

# [cygwin]
/cygdrive/c/Program Files/newlisp$ sha1sum.exe newlisp.exe
561ff028b606c3671393848e279b845c5fdf60c1 *newlisp.exe

;; [xyzzy]
(with-open-file (fp "C:/Program Files/newlisp/newlisp.exe")
  (si:sha-1 fp))
;; => "ce3a7fd7fb67ddf2aff136dd1a16b943128b70f5"

;; [emacs]
(require 'sha1)
(with-temp-buffer
  (insert-file-contents "c:/Program Files/newlisp/newlisp.exe")
  (sha1 (buffer-string)))
;; => "5fc949c2297b7d890e086ec1b0293fb3b33f627b"

見事に3つとも別のハッシュ値が返ってきた。

http://www.newlisp.org/downloads/UTF-8_win32/SHA1.txtを見る限りはcygwinのsha1sum.exeの結果が正しいらしい。じゃあxyzzy,emacsの方は何を間違ったんだろうね。

[追記@2009-07-04T17:47:05]

NANRIさんからのコメントより、xyzzyの方は単なるエンコード指定忘れでした。

(with-open-file (fp "C:/Program Files/newlisp/newlisp.exe"
                    :encoding :binary)
  (si:sha-1 fp))
;; => "561ff028b606c3671393848e279b845c5fdf60c1"

残る問題はNTEmacs。 Emacs@ubuntuで上と同様にチェックサムを求めたら正しい値になりました。 sha1.el(sha1-el.el)を見る限り、それなりにファイルサイズが大きいときは外部プログ ラムsha1sumに処理を投げているようだが...

(つづくかも)

2009年6月3日水曜日

[xyzzy]regexp-optを移植

Emacsのregexp-opt.elをxyzzyに移植してみました。

一応Emacs移植キットは使わずに自前で動くようにしてあります。 あまり実用的な出来ではないですが、よかったらどうぞ。

https://github.com/kosh04/xyzzy-lisp/tree -> site-lisp/ -> regexp-opt.l

から入手できます。

regexp-opt.elとは?:

GNU Emacs Lispリファレンスマニュアル: 探索と一致
 -- Function: regexp-opt STRINGS &optional PAREN
    この関数は、文字列STRINGSのいずれかに一致する効率よい正規表現を返
    す。これは、たとえばフォントロック(font-lock)モードなどで、可能
    な限り高速な一致や探索を行う必要がある場合に有用である。

使い方:

regexp-opt.lを$XYZZYHOME/site-lisp/ディレクトリ内に置いてバイトコンパイル。 .xyzzyに(require "regexp-opt")と書いてxyzzyを再起動する。

コード例:

(regexp-opt '("aa" "ab" "ba" "bb"))
;;=> "a[ab]\\|b[ab]"

(regexp-opt '("defun" "lambda"))
;;=> "defun\\|lambda"

(regexp-opt '("defun" "defsubst" "defmacro" "defalias" "defvar" "defconst") t)
;;=> "\\(def\\(?:alias\\|const\\|macro\\|subst\\|un\\|var\\)\\)"
バグ・問題点:
  • Emacsが返す値と違う(というより冗長な)場合がある
    (regexp-opt '("define" "lambda" "fn" "define-macro" "lambda-macro") 'words)
    ;;=> "\\<\\(define\\(?:-macro\\|\\)\\|fn\\|lambda\\(?:-macro\\)?\\)\\>" [xyzzy]
    
    (regexp-opt '("define" "lambda" "fn" "define-macro" "lambda-macro") 'words)
    ;;=> "\\<\\(define\\(?:-macro\\)?\\|fn\\|lambda\\(?:-macro\\)?\\)\\>" [Emacs]
  • 引数の文字列リストが長すぎると、明らかに遅くなる
  • マクロのfsetって大丈夫? (si:*fset 'save-match-data #'ed::protect-match-data)