Diary?::2005-08-14

Webサイトとか雑誌とかのレビューで100点満点とかで判定をしてる所、あれって本当に基準が曖昧に見えるんだけど。

具体的には、その77点と78点の違いはどうやってつけてやがるとかって思ってる。俺がもしもこのサイトにレビュー系のコンテンツを作るとしたら、絶対に点数とかABCとかでの評価はしないな。

俺が一度見てみたいのは、レビューをするにあたって1個あたり2点で50項目とか、1点で100項目のチェックリストを公開していて、厳密にそれに沿ったレビューをするサイト。


ここ最近だけど、句読点をカンマとピリオドにしたりとか、全角文字と半角英数字の間は半角空白を入れた方がいいんじゃないかと思うようになった。なんとなく、そっちの方が読みやすそう。

俺の考えとしては、究極的にはこれらは全て個々のユーザが変更可能な方が望ましい。句読点/カンマ変換オプションとか。何かユーザーJavaScriptで出来そうだな。


ところでこのサイトは宣伝らしいものは一切していない。誰かがやってくるには

以上三種類しかない。ちなみに俺の友人の多くはここを見ていない(アクセス解析の結果でわかる)。よって最初の項目は事実上存在しないことになる。

検索エンジンについてはまだまだというか、そもそも外部からのリンクが殆んどないのでやってくる可能性は極めて低い。

アクセス解析? そもそも読者がリンクをクリックしなかったらそれまでだろ。

それでなんで俺が宣伝をしないのかというと、面倒というか検索エンジンが拾ってくれるからいいじゃねえかとかまぁそういう理由。あんまりそういうことしないで伸び伸びやってた方が長続きするしね。


カレントディレクトリの下の全ファイルの合計サイズだけが知りたくなったけど、それをコマンドやシェルスクリプトでどうやるのかがさっぱりわからず、調べる手間よりもPythonを書く手間の方が全然少なくて済むことに気がついたので久しぶりにちょぼくさいスクリプトを書いた。

#!/usr/bin/env python

import os, sys
SIZE=0
for r, d, f in os.walk("./"):
	for i in f:
		SIZE += float(os.stat("%s/%s" % (r, i)).st_size)

try:
	f = sys.argv[1]
except:
	f = "k"

if f.lower() == "k":
	print "%fK" % (SIZE/1024)
elif f.lower() == "m":
	print "%fM" % (SIZE/(1024**2))
elif f.lower == "g":
	print "%fG" % (SIZE/(1024**3))

久しぶりというのは嘘だ。役に立たないものを含めて、こういうささやかなプログラムはしょっちゅう書いている。


W3CのVaidatorを通らないようなHTML文書を公開している連中は心の底から反省するように。HTMLの処理を行う際に何が問題かというと、ぶっちゃけた話が不正なマークアップの施された文書。エラー補正にどれだけ苦労していると思ってるんだ。

それでも相手がXHTMLで、well formedな文書であればそこまで文句はいわない。一応、XMLパーザで処理できるからだ。別に俺はHTMLのレンダリングエンジンを作っているわけではないし、大雑把な事しかやってないからな。

俺としてはXHTMLでない文書は公開しないで欲しい(というのも、HTML4.01以前の奴はXMLでないから処理を分けなきゃいけない)のだが、流石にそれはわがまま言い過ぎか。

でも不正なXHTMLとかマジで勘弁してほしいよ。


壮絶なニッチスクリプトシリーズ。

#!/usr/bin/env python
from urllib2 import urlopen
import re, sys

def code_getter(s):
	r = re.compile("<pre>(.+?)</pre>", re.S+re.I)
	rp = re.compile("<[^>]+>")
	for i in r.finditer(s):
		yield rp.sub("", i.group(1)).\
			replace("&lt;", "<").\
			replace("&gt;", ">").\
			replace("&quot;", '"').\
			replace("&amp;", "&")

if __name__ == "__main__":
	url = sys.argv[1]
	data = '\n\n'.join([i for i in code_getter(urlopen(url).read())])
	print data

特定のWebページの中からpreで成形された部分を抜き出して表示するというだけの代物。全ての文書がXHTMLで書かれるようになればDOMでいけるんだろうけどねー。でもDOMと正規表現とどっちがわかり易いかといわれると微妙。この程度なら正規表現の方がわかり易いか?


俺はApacheのアクセスログのフォーマットを結構弄ってて、用途ごとにログを使い分けているのだけれど。間違って殆んどのログを廃棄する設定にしてしまっていた。死ねよ俺。

誰一人としてアクセスしない日があっておかしいとは思っていたが、まさかこんなミスとは。普通にBloglinesの登録を解除されたと思っていたよ。


FeedBringerが購読者数をUA情報に含めるようになった。ここを購読しているのは現在一人。ちなみにBloglinesは二人。


Softwareをもうちょっと細かく分けた方がいいかしれないっていうか、ライブラリとアプリケーションとちょっとしたスクリプトが同列に配置されているのは混沌としすぎ。

あんまりURLを変えるのは好きじゃないけど、まだろくすっぽ参照されてないから実害はないかな。どうせ前のコンテンツも残しておくし。


ていうか俺ってURIの設計が絶望的に下手糞なのかも。

Written by Kuwata Chikara
Creative Commons