2008 年 4 月 26 日

うがぁぁぁぁ。・゚・(ノД`)・゚・。

Filed under: CMC海賊版,日記 — わぴこ @ 10:57 AM

CMC海賊版のクロールの件ですが現在完了してません。
無限ループに陥ったかクローラーにとって凶悪なHTMLを
食べさせられたのかCPUを使い切ってずっと処理中のままです。
netstatを見てもアクセスの形跡が残っていないので
すでにかなりの時間処理をしているのでしょう。

一旦中止しました。これから改造します。
こういうときSQLを使っていたほうが楽だったなあとおもいます。

追記:
とりあえず無限ループになりそうな部分を修正して
こまめにセーブするようにしてクロールを再開しました。
searchc.cgiのバグが見つかりまくりで鬱になりました_| ̄|○
さっきからバグのオンパレードです_| ̄|○
影響が無い地味なところでバグってます。

クロールの状況を見ていると最終的には半分以下になりそうです。
5/10までにはおそらく1000ページを下回るでしょう。

さらに追記:高速化とレジューム機能を搭載しました。
高速化はHTMLボティを徹底的に捨てることで実現しました。
10秒間のアクセスウェイトも取っ払いました。
見違えるようにはやくなりました(笑
しかし更なる問題が発覚_| ̄|○
ISO-2022-JP(JIS)を認識することが出来ませんでした。
文量が少ないのかJcode.pmでは自動認識できないみたいです。

サーチエンジンと文字化けは切っても切れない縁なので
何とかしないといけませんが最終的にどうにもならないかもしれません。
METAからIOS-2022-JPの文字列を検出するかなあ・・・
この件の修正は時間がかかると思います。

追記:
最初のクロールが完了しました。
次から次にバグが発覚して炎上しております。
消化班マダー

追記:
文字コードのバグを修正しましたのでもう一度巡回中です。
一部文字化けの問題が発生しましたが修正しました。
次回のクロールでは大丈夫でしょう。
Jcode.pmではJISのみまとまった量のテキストを食べさせないと
うまく変換してくれないようです。

2008 年 4 月 25 日

HDDがあっ_| ̄|○

Filed under: CMC海賊版,パソコン,日記 — わぴこ @ 10:24 PM

7時ごろ自作機でテレビを見ようと起動したらHDDから異音が発生しました。
これ以上現状で使いつづけるのは危険と判断したので
サーバーに使用していたHDDのミラーリングの片割れに
全データを移すことにしました。

I/O DATA(挑戦者)のHDR-S/INにてコピー。
コピーしたHDDを起動するとあっさり起動しましたとさ。
特に何も無かったのでつまらない記事かも・・・(–;;;

やばいほうのHDDはサーバーのミラーディスクにします。
これで直らなかったらHDDよりもMBが悪かったりして??

にちゃんねるのスレ
CMCのメタタグの他のサイトにおける使用に関することですがこの件も
私に一任されてますのでしのぶさんに代わって私が答えておきます。

互換サイトに対してむやみに使用禁止にするようなことは考えていません。
そのほうが私が死んでも安心ですし。
ただ、互換性をある程度確保するためにベースとなる仕様の
統一みたいなことは必要かもしれませんね。
でないと複数のサイトに登録する人は大変ですから。

追記:
>>441氏
CMCのほぼ全てのことに関して私が引き継ぐということで
しのぶさんとお話をさせていただいてます。
・・・うまく表現できてなくてすみません。

この辺のことは追ってHTML化します。

追記:
*都合により0時からクロールを開始します。

さっきから定期的にこめかみのあたりが痛む予感_| ̄|○
脳出血とか脳梗塞とか歯医者の呪いとかでなければいいですが・・・
現在ちゃっとでは私の叫び声が聴けます(笑
初日からこんなことで大丈夫かなあ・・・
DDR1のSO-DIMM(512MB)ってすんごく高いんですよ(T.T)

この調子だと最低でも7時半以降でないと検索に反映されないと思います。
8時を過ぎそうな感じですね。

CMCに関する引継ぎについて

Filed under: CMC海賊版,日記 — わぴこ @ 12:33 AM

にちゃんねるのスレをご覧になった方はしのぶさんの書き込みで
ご存知とは思いますがしのぶさんとちゃっとで表題の件について話し合いました。
とりあえずメモ代わりにここに書いておきます。

結論から申しますと私に全てを一任してくださるということです。

データベースについて
データは検索データのみが現存しておりすでに私のもとにあります。
検索データにはメールアドレスが含まれております。

CMC海賊版においてはメールアドレスは必要ありませんので
暗号化して格納するか破棄するかどちらかの方法をとります。
暗号化して格納するのは将来感想フォームを設置したときのためです。
全ての方が感想フォームを必要とされるとは思いませんので
おそらく破棄すると思います。メールアドレスの登録は別の方法を用意します。

生のメールアドレスが載っている状態で運用することは
決していたしませんのでご安心ください。
データベースを海賊版に移植することが完了した時点で
CMCより引き継がれたデータベースの生のテキストデータは
ネットワークに繋がっているマシンから全て削除します。
また、移植が完了した時点でCMCのサーバーも
一度フォーマットする予定だということです。

データ削除を希望される方はお早めに連絡をお願いします。
URLと何かご自身のサイトを証明できるものがあればそれを
添えていただければ早く削除できると思います。
CMC海賊版には即時にデータを削除する機能が無いので
手作業で削除することになりますのでよろしくお願いします。
なお、CMCのタグを削除すれば10日ほどで自動的に削除されますので
連絡するのがめんどくさい方は自動削除機能をご利用ください。
スレでURLを貼り付けて宣言してもいいですが本人確認が
出来ないので時間がかかるかもしれません。

データベースの移植にどれだけ時間がかかるかは未定ですが
一応4/28 2:30の巡回までには間に合わせたいと思います。

ドメインに関して
ドメインに関しては自然の成り行きに任せることになりました。

とりあえずそんなところです。

にちゃんねるのスレ
>>423氏
私は孔明ではないので策は練ってません。
孔明の罠でもありませんので。

>>425氏
そうですね。事情としてはそれであっていると思います。

回線が突如繋がらなくなってあせりましたが工事のようです。
朝までまた断続的に繋がらなくなるかもしれません。

追記:データコンバートのスクリプトが完成しました。
データコンバートまで済ませましたがクロールなどのテストはしてません。
削除する暇も与えずにこんなに早く出来てすみません。
クロール+検索データ生成まで成功したらデータ移行終了とします。
メールアドレスは移行しませんでした。
明日以降に正式に予告をしてクロールを開始します。
第一回のクロールが無事に成功すれば検索可能になると思います。
デッドリンクやタグをはずしているページは10日で一掃されると思います。
しかし・・・データ量が半分になったけど大丈夫かなあ・・・成功したか少し心配です。

« 前ページへ次ページへ »

HTML convert time: 0.541 sec. Powered by WordPress ME