HTMLのスクレイピング - にっきちょう

PHP Simple HTML DOM Parserというのを使ってみました。tidyが有名っぽいけど、windows環境でインストールする方法がいまいちよくわからなかったので。ここから落とせます。
参考にしたのはphpでhtmlをPHP Simple HTML DOM Parserでパースした - ナントカ嬢とかPHP Simple HTML DOM Parser - Hatotech::Kumatchとか。
ブログの最新記事を取得して出力する、手動RSSみたいなことがしたかったんです。実は結構詰まったりしたんですが、わかってみたらあほほど簡単にスクレイピングできました。
まずは

require_once('simple_html_dom.php');
    $html = file_get_html('http://d.hatena.ne.jp/wen000/');
    $articleTitle = $html->find('h3',0);

で0個目のh3タグの中身が$articleTitleに格納されます。全てのh3タグを取り込みたい時は、

foreach ($html ->find('h3') as $node) {
    $articleTitle[] = $node;
}

とかかな？一番上の記事だけ欲しかったので全部確認はしてませんが、上記記事参照するといいかと思います。