HTMLのスクレイピング
PHP Simple HTML DOM Parserというのを使ってみました。tidyが有名っぽいけど、windows環境でインストールする方法がいまいちよくわからなかったので。ここから落とせます。
参考にしたのはphpでhtmlをPHP Simple HTML DOM Parserでパースした - ナントカ嬢とかPHP Simple HTML DOM Parser - Hatotech::Kumatchとか。
ブログの最新記事を取得して出力する、手動RSSみたいなことがしたかったんです。実は結構詰まったりしたんですが、わかってみたらあほほど簡単にスクレイピングできました。
まずは
require_once('simple_html_dom.php'); $html = file_get_html('http://d.hatena.ne.jp/wen000/'); $articleTitle = $html->find('h3',0);
で0個目のh3タグの中身が$articleTitleに格納されます。全てのh3タグを取り込みたい時は、
foreach ($html ->find('h3') as $node) { $articleTitle[] = $node; }
とかかな?一番上の記事だけ欲しかったので全部確認はしてませんが、上記記事参照するといいかと思います。