2008 年 4 月 26 日

うがぁぁぁぁ。・゚・(ノД`)・゚・。

Filed under: CMC海賊版,日記 — わぴこ @ 10:57 AM

CMC海賊版のクロールの件ですが現在完了してません。
無限ループに陥ったかクローラーにとって凶悪なHTMLを
食べさせられたのかCPUを使い切ってずっと処理中のままです。
netstatを見てもアクセスの形跡が残っていないので
すでにかなりの時間処理をしているのでしょう。

一旦中止しました。これから改造します。
こういうときSQLを使っていたほうが楽だったなあとおもいます。

追記:
とりあえず無限ループになりそうな部分を修正して
こまめにセーブするようにしてクロールを再開しました。
searchc.cgiのバグが見つかりまくりで鬱になりました_| ̄|○
さっきからバグのオンパレードです_| ̄|○
影響が無い地味なところでバグってます。

クロールの状況を見ていると最終的には半分以下になりそうです。
5/10までにはおそらく1000ページを下回るでしょう。

さらに追記:高速化とレジューム機能を搭載しました。
高速化はHTMLボティを徹底的に捨てることで実現しました。
10秒間のアクセスウェイトも取っ払いました。
見違えるようにはやくなりました(笑
しかし更なる問題が発覚_| ̄|○
ISO-2022-JP(JIS)を認識することが出来ませんでした。
文量が少ないのかJcode.pmでは自動認識できないみたいです。

サーチエンジンと文字化けは切っても切れない縁なので
何とかしないといけませんが最終的にどうにもならないかもしれません。
METAからIOS-2022-JPの文字列を検出するかなあ・・・
この件の修正は時間がかかると思います。

追記:
最初のクロールが完了しました。
次から次にバグが発覚して炎上しております。
消化班マダー

追記:
文字コードのバグを修正しましたのでもう一度巡回中です。
一部文字化けの問題が発生しましたが修正しました。
次回のクロールでは大丈夫でしょう。
Jcode.pmではJISのみまとまった量のテキストを食べさせないと
うまく変換してくれないようです。

HTML convert time: 0.555 sec. Powered by WordPress ME