2008 年 4 月 29 日

バグじゃないけれど・・・

Filed under: CMC海賊版,日記 — わぴこ @ 2:23 AM

データベースを引き継いでからのアクセス数と反応に思わずワロタ。 
明日はCMC海賊版のことは忘れて別のことをしようと思います。

検索ロボットの攻撃が結構効いているのでキャッシュをオンにしました。
検索キャッシュの生存期間は5時間に設定してます。
しかし・・・キャッシュをオンにしたのになんか検索が遅いなぁ・・・
とか思っていろいろ考えていたらどうもキーワードから
リンクを生成するのに時間がかかっている疑惑が浮上しました。

いやあ、MobilePentium4 2.2GHzでこの様とは思いもよりませんでした。
クロール時も結構負荷がかかってファンがまわっているので
もしかしたら別のマシンに変更するかもしれません。
これより高性能となると録画用のXeon2基のマシンしかないです。
それとも一部のキーワードに絞るかこの機能自体を取っ払うか・・・
とりあえずクローラーはバックグラウンドマシンで動かすようにしました。
巡回時間が下手すると倍以上になるかも・・・

にちゃんねるのスレ
密かに新着更新順にしたのにもかかわらず
誰にも気づいてもらえませんでした。・゚・(ノД`)・゚・。
しんせさちのシステム上完全に新着更新順とはいってないですが。
今回の件に対応するために更新日付の初期化を行いました。
CMCから引き継いだデータで自動更新日付が無いサイトは
更新日付が1970/01/01 00:00:00や登録日と同じになってます。
ほんとはこのまま放置して登録抹消されるがままにして
楽をしようと思ったんですけどね(笑

う~~ん・・・仕様変更した私が言うのもなんですが
海賊版独自の仕様は標準ではありません。
なのでこれから互換サイトを開設する方は海賊版独自の
仕様については一切無視してくださって構いません。
もちろん実装したからといって
「勝手に実装するのはやめて~~(●´ー`●)」
なんてことは言いませんのでご自由にどうぞ。
Tag is freedom~~♪Tag is freedom~~♪
ちなみに最初からCMCの後を継ぐつもりで作ったなら
この仕様は実装しなかったかもしれません。
海賊版だったので好き勝手に仕様が変更できたわけです。

ちなみに昔作った海賊版です。
http://wapiko.ddo.jp/wapi/cgi-bin/kensakun.cgi
今のデータベースを検索できるようにしました。
ページ機能が無いので最大50件に制限されます。
でも負荷が大きいのでお試し以外では使わないでください。

2008 年 4 月 28 日

今日のオク

Filed under: CMC海賊版,パソコン,日記 — わぴこ @ 1:07 AM

安室奈美恵の曲(90年代TK作曲)を聴きながらJD-800を弾いている
今日この頃皆様はいかがお過ごしでしょうか?
ラーララーラーラーー♪ラララーララーラーラーー♪

今日のオク
実験用に中古の5インチFD30枚程度を落としました。
なんかうちにあるやつは滅茶苦茶に使うことに抵抗があるので
これで心置きなく実験が出来ることになるでしょう。

ついにPC-9821Afが出品されましたがあっという間に2500円を突破!!
早くも戦線離脱です。・゚・(ノД`)・゚・。
はあ・・・まあ動作確認が取れてないヤツだからいいかな・・・

うーん・・・オクの履歴を見ると家族によって落としているものが
全然違うので傾向がよく分かるなあ・・・(笑
まあ私が全て交渉&手続きはしているわけだが・・・

ちゃっと
ちゃっとに管理人呼び出し機能を装備することを考えてみました。
問題は窓側のプログラムになりますが窓のプログラムは組めないので
あくまで妄想です。
起動->タスクトレイに常駐->TCP/IP経由で呼び出し->画面がポ○モン並にフラッシュ
->画面を見た私が画面の前で脂肪->(゚д゚)マイウー
みたいな感じで・・・
VCは持っているのですが完全にHDDの肥やしと化しています。

CMC海賊版
テストロボットにバイナリデータを食べさせてみました。
特に何もおきませんでした。多分・・・
UNIXのコマンドを食べさせてみました。
特に何もおきませんでした。多分・・・
大容量のデーを食べさせてみました。
処理が終わりませんでした_| ̄|○
結論から言うと大容量のデータに弱いみたいです。
容量が増えるごとに加速度的に遅くなる感じです。
タイムアウト用の処理が必要になるかもしれません。

あとキャッシュをオンにしないといけなくなるかなあ・・・
サーバーの負荷状況によっては結構検索に
時間がかかっているみたいなので・・・

にちゃんねるのスレ
登録されているサイトの管理人の方へ引継ぎ報告のメールはしません。

追記:
文字化けに関するバグを一応修正しましたが
sjisのまま手を加えるために別の個所で問題が起きるかもしれません。
特定のパターンで文字化けする場合は最悪対処しきれない可能性があります。
なるべく全角スペースや記号などは使用しないようにしてください。
よろしくお願いします。

2008 年 4 月 26 日

うがぁぁぁぁ。・゚・(ノД`)・゚・。

Filed under: CMC海賊版,日記 — わぴこ @ 10:57 AM

CMC海賊版のクロールの件ですが現在完了してません。
無限ループに陥ったかクローラーにとって凶悪なHTMLを
食べさせられたのかCPUを使い切ってずっと処理中のままです。
netstatを見てもアクセスの形跡が残っていないので
すでにかなりの時間処理をしているのでしょう。

一旦中止しました。これから改造します。
こういうときSQLを使っていたほうが楽だったなあとおもいます。

追記:
とりあえず無限ループになりそうな部分を修正して
こまめにセーブするようにしてクロールを再開しました。
searchc.cgiのバグが見つかりまくりで鬱になりました_| ̄|○
さっきからバグのオンパレードです_| ̄|○
影響が無い地味なところでバグってます。

クロールの状況を見ていると最終的には半分以下になりそうです。
5/10までにはおそらく1000ページを下回るでしょう。

さらに追記:高速化とレジューム機能を搭載しました。
高速化はHTMLボティを徹底的に捨てることで実現しました。
10秒間のアクセスウェイトも取っ払いました。
見違えるようにはやくなりました(笑
しかし更なる問題が発覚_| ̄|○
ISO-2022-JP(JIS)を認識することが出来ませんでした。
文量が少ないのかJcode.pmでは自動認識できないみたいです。

サーチエンジンと文字化けは切っても切れない縁なので
何とかしないといけませんが最終的にどうにもならないかもしれません。
METAからIOS-2022-JPの文字列を検出するかなあ・・・
この件の修正は時間がかかると思います。

追記:
最初のクロールが完了しました。
次から次にバグが発覚して炎上しております。
消化班マダー

追記:
文字コードのバグを修正しましたのでもう一度巡回中です。
一部文字化けの問題が発生しましたが修正しました。
次回のクロールでは大丈夫でしょう。
Jcode.pmではJISのみまとまった量のテキストを食べさせないと
うまく変換してくれないようです。

« 前ページへ次ページへ »

HTML convert time: 0.524 sec. Powered by WordPress ME