68user's page 掲示板

Prev< No. 927〜932> Next  [最新発言に戻る] [過去ログ一覧]
No. 927 # とろと 2000/06/19 (月) 11:48:19
どっかのホームページを読み込んできて
タグ以外と、コメントを削除する
ということをやりたいんですが、

http://www.din.or.jp/~ohzaki/perl.htm

タグを削除する
というのがあったので、これをタグ以外を削除
にしてみたのですが、
コメントタグが消えてくれません、、

<!-- -->で囲まれている中身と、<!--、-->も消えてほしい。。

消したいんですが、どのように改造するといいで
しょうか?

---ソース---
$tag_regex_ = q{[^"'>]*(?:"[^"]*"[^"'>]*|'[^']*'[^"'>]*)*}; #'}}}}
$comment_tag_regex =
        '<!(?:--[^-]*(?:(?!--)-[^-]*)*--(?:(?!--)[^>])*)*(?:>|(?!\n)$|--.*$)';
$tag_regex = qq{$comment_tag_regex|<$tag_regex_>};
$text_regex = q{[^<]*};

$result = '';
while ($str =~ /($text_regex)($tag_regex)?/gso) {
    last if $1 eq '' and $2 eq '';
    $result .= $2;
}
------
あ、本当はとほほラウンジに書きたかったのですが、
書き込みできなかったので、、

No. 928 # hobbes 2000/06/19 (月) 18:10:26
こちらで質問をさせて頂きたいのですが、unix commandで、OS及びHWが
32bitか64bitと知るにはどの様なコマンドを打てばよろしいのでしょうか?
教えていただきたいと思います。

No. 929 # 68user 2000/06/19 (月) 20:04:37
> <!-- -->で囲まれている中身と、<!--、-->も消えてほしい
まずタグ以外を消して、再度 <!-- --> を消すような正規表現を
使うというのはダメですか。

# ちょっとその正規表現を読む気力がないので…。

> OS及びHWが32bitか64bitと知るにはどの様なコマンドを
> 打てばよろしいのでしょうか?
思い付くのは printf("%d\n",sizeof(int)); くらいですかねぇ。

これが「OS及びHW が32bitか64bit」という判断の基準として
ふさわしいかどうかはわかりません。

No. 930 # hobbes 2000/06/20 (火) 09:25:59
68userさん、

回答ありがとうございました。

No. 931 # 腐れ厨房 [E-mail] 2000/06/20 (火) 17:03:17
初めましてです。このサイトはとてもわかりやすく書かれていて嬉しいです。
ところでHTTPクライアントを作りたいのですが、その前にブラウザがどんな環境変数やデータを吐いてるか尻たいです。
tcpdump -i ul0
などとやってみましたが意味不明でしたです。
GET / HTTP/1.0
Referer: http://hoge/hoge
っていうようなテキストベースでのデータや相手の送信内容を知るにはどしたらいですか?

No. 932 # 68user 2000/06/21 (水) 00:04:18
http://X68000.startshop.co.jp/~68user/cgi-bin/wwwboard.cgi?log=658
でいいですか。

あと、tcpdump の吐く hex データから tcp 部分を抽出する
スクリプトを作るというのも、TCP と IP の勉強になります。

Prev< No. 927〜932> Next  [最新発言に戻る] [過去ログ一覧]