1. TOP
  2. WordPressプラグイン
  3. スクレイピングができるWordPressプラグイン「WP content crawler」

スクレイピングができるWordPressプラグイン「WP content crawler」

WP Content Crawler

photo by WP Content Crawler

簡単にWEBサイトのスクレイピングができる「WP content crawler」を紹介します。
このプラグインはWordPressのブログに殆ど全てのWEBサイトから記事を取得して自動的に投稿してくれます。

使い方によっては、お気に入りの記事コレクションなどができて便利です。

このページでは、「WP content crawler」の特徴や使用方法を紹介します。

プラグインの特徴

  • お気に入りのサイトからニュース、投稿などを収集して1か所で見る個人サイトを作成する
  • ショッピングサイトから商品を一覧表示で集める
  • アフィリエイトプログラムから商品を自動で集める
  • 他のWEBサイトの記事投稿を収集して自動で投稿する。
  • 他のWEBサイトから画像を収集してコレクションを作成する。

色々なスクレイピングができて、アイデア次第ではコンテンツの制作方法が広がります。
もちろん、他の記事を取得して公開することは著作権にも問題がありますので、自分の趣味の範囲で使用してください。

使用方法

このプラグインは、CSSやHTMLの知識は必要ありません。一度条件設定すれば、全て自動で記事を作成し続けてくれます。

1、firebugなどを使って、記事を囲んでいるソースタグを確認します。

例<div class="post">記事内容</div>

2、「WP content crawler」にURLと確認したソースタグを設定します。

WP content crawlerの設定

3、後は設定したURLサイトのソースタグを含む記事が新規作成される度に、自動で取得し続けます。

非常に便利で簡単なスクレイピングプラグインです。

プラグインの内容

・スクレイピングしたいWEBサイトの全ての記事を保存する。

タイトル、日付、抜粋、コンテンツ、タグ、メタキーワード、画像、カスタムフィールド等の情報が取得可能です。

・ソースタグを設定

スクレイピングしたいWEBサイトのソースタグを見つけて条件設定するだけで、簡単に記事取得ができます。

・記事の取得設定

プラグインが訪問先をクロールして、自動的に記事が作成されます。訪問する更新間隔を設定したり、古い投稿記事は除外したり設定できます。

・検索と置換

検索置換や正規表現を使用して、ページ内容を変更したり、独自のhtmlを追加したりできます。また画像のURLを自動変更可能です。

・不要な要素を削除

広告やコメント等を取り除いて削除そしてから取得することができます。

・重複した投稿のチェック

取得記事が重複しないように同じURL、投稿のタイトルを認識して除外してくれます。

・多くのサイトから記事を取得可能

多くのサイトから記事を取得できます。設定することによっては毎分100個の投稿を保存可能です。しかし、サーバーに負担もかかりますので慎重に検討してください。

以上がプラグインの特徴や内容です。

まとめ

「WP Content Crawler」を使うと、簡単にスクレイピングができます。お気に入りの記事等をスクレイピングしてコレクションすることもできますし、アイデア次第ではまとめサイトやアンテナサイトも作成できます。

しかし、オリジナル記事を取得して自分のサイトで公開することは、著作権に問題があります。また、コピーコンテンツはSEO的にも不利ですので十分に注意して使用してください。

このプラグインですが、有料プラグインのため価格は24ドル必要です。クレジットカードかpaypalで支払いが可能です。少し高いですが、一度良いか悪いかは試してみる価値はあります。また、プラグインのサポートも6カ月間受けられます。わからないことがあればGoogle翻訳を使って、内容を記入し気軽に訪ねることができます。概ね、細かい設定やアドバイスをしっかりとしてくれる良心的な方でした。

また、プラグインの動作環境には、PHP5.6以上が必要です。更にmbstringが有効になっていることを確認してください。普通のレンタルサーバーでは問題なく動作すると思います。

元々WEBスクレイピングは、PHPのライブラリを使用して簡単に取得できますが、そもそも使い方などを覚える必要がありますし、WordPressに設定するのにはそれなりの知識が必要です。「WP Content Crawler」を使えば、一度設定するだけで後は自動でコンテンツを取得してくれます。英語のプラグインのため覚えるまで少し難しいですが、一度設定方法を理解すれば後は簡単なのでお勧めします。

このプラグインは使い方によっては、全て自動で記事取得ができて大幅な時間短縮が可能です。使い方によっては良いプラグインだと思いました。

WP Content Crawler