スクレイピングはWP Web Scraperプラグインが便利
WP Web ScraperはWordPress用のWebスクレーパーを簡単に実装できます。これは、任意のウェブサイトからのリアルタイムデータをあなたの投稿、ページ、またはサイドバーに直接表示されて使用できます。
これを使用してリアルタイム株価、多くの記事の取得、またはその他の一般的なコンテンツを含めることができます。
主な機能
機能は次のとおりです。
- スクラップ出力は、カスタムテンプレートタグ、ページ、ポスト、サイドバーのショートコード(テキストウィジェットを使用)で表示できます。
- スクレイプされたデータの設定可能なキャッシング キャッシュタイムアウト(分単位)は、スクラップごとに分単位で定義できます。
- スクラップ用の設定可能なユーザーエージェントは、すべてのスクラップに設定できます。
- 有効化、ユーザーエージェント、タイムアウト、キャッシング、エラー処理などの設定可能なデフォルト設定。
- コンテンツを照会する複数の方法 – CSSセレクタ、XPath、または正規表現。
- コンテンツを解析するためのさまざまな引数。
- ポスト引数をスクラップするURLに渡すオプション。
- スクラップを指定された文字エンコーディングに動的に変換し、異なるcharsetを使用してサイトからデータをスクラップします。
- ページのget引数またはpost引数に基づいて引数をスクラップまたはポストするURLの動的生成を使用して、即座にスクラップページを作成します。
- スクラップされたデータの高度な解析用のコールバック関数。
スクレイピングとは
ウェブスクレイピング(ウェブ収穫またはウェブデータ抽出)は、ウェブサイトから情報を抽出するコンピュータソフトウェア技術である。
ウェブスクレイピングはウェブインデックス作成と密接に関連していますが、ウェブスクレイピングはウェブ上の非構造化データ(通常はHTML形式)の変換と、保存および分析が可能な構造化データに重点を置いています。
Webスクレイピングは、コンピュータソフトウェアを使用して人間のブラウジングをシミュレートするWebオートメーションにも関連しています。
ウェブスクレイピングの用途には、オンライン価格比較、コンタクトスクレーピング、気象データ監視、ウェブサイト変更検出、調査、ウェブマッシュアップ、ウェブデータ統合などがあります。
WP Web Scraperを使用すると、Webサイト(HTML)、構造化データフィード(RSS、ATOM、XML、JSON、CSVなど)からの外部コンテンツを、簡単にコーディングする必要なしに簡単に埋め込むことができます。このプラグインをどう使うかはあなたの想像力にかかっています。
スクレイピング中は、コンテンツ所有者の著作権を考慮する必要があります。少なくとも、コンテンツ所有者をリンクバックで属性付けするか、書面による許可を得るのが最良です。権利とは別に、一般にスクレイピング作業は非常にサーバーに負担がかかる作業です。サーバーの帯域幅とコンテンツ所有者のサーバーの帯域幅に負担がかかります。十分に注意して使用してください。
システムの最適化
使い方を最適化するためのヒントをいくつか紹介します。
- タイムアウトはできるだけ低く(最小1秒)してください。遅いサーバー上のコンテンツを扱う場合は、タイムアウトを長くするとページ処理時間に影響を与える可能性があります。
- キャッシュプラグインを強く使用することをお勧めします。より良いキャッシュのパフォーマンスのためにディスクまたはメモリベースのオブジェクト・キャッシュを有効にします。非常に多くのスクレイピングを実行して、キャッシュプラグインを使用していない場合は、サーバー負担が起こる場合があります。
- キャッシュ・プラグインを使用していない場合は 、基礎となる Transients API がワードストア・オプション・テーブル(wp_options)に置き換えてキャッシュを保存します。これにより、このスレッドで詳述されている問題が発生する可能性があり ます。そのような問題を回避するには、キャッシュプラグインまたは期限切れのトランジェントを削除してください。
- スクレイピングを実行するなら、キャッシュサイズも注意してください。キャッシュをクリア/フラッシュします。
- 1つのページに複数のスクレーパを使用する予定がある場合は、キャッシュタイムアウトをより長い期間に設定してください。可能であれば1日(すなわち1440分)以上です。これにより、サーバー上のコンテンツがキャッシュされ、スクレイピングが削減されます。
- 高速ロードページ(URLソース)をコンテンツソースとして使用します。また、パフォーマンスを最適化するためにサイズの小さいページが推奨されます。
- プラグインの作動状況を注意深く観察してください。ウェブサイトのページレイアウトが変更された場合、セレクタが正しいコンテンツを取得できないことがあります。
設定オプション
WP Web Scraperでは、特定のコンテンツを取得するためのURLソースとクエリを指定できます。WP Web Scraperは、Webコンテンツをスクラップして表示するためのショートコード(投稿、ページまたはサイドバーの場合)またはテンプレートタグ(テーマに直接統合する場合)を通じて使用できます。実際の使用方法の詳細は次のとおりです。
ショートコード:
1 |
[wpws url = "https://www.yahoo.com/" query = "ol.trendingnow_trend-list" output = "text"] |
テンプレートタグ内:
1 |
<pre></pre><?php echo wpws_get_content( "https://www.yahoo.com/"、 "ol.trendingnow_trend-list"、array( 'output' => 'text')); ?> |
上記のショートコードとテンプレートタグは、投稿、ページ、またはサイドバーのURL ‘https://www.yahoo.com/’のCSSセレクタ ‘ol.trendingnow_trend-list’のコンテンツをプレーンテキスト(HTMLストライプ)として出力します。
テンプレートタグ(wpws_get_content)の場合には、最初の引数はURLである3番目の引数は、他のすべての連想配列であるが、第二の引数はクエリである引数です。
WP Web Scraperには、URLリクエストを制御し、高度な解析と出力管理を行うための様々なオプションがあります。別にCSSセレクタ、WPのWebスクレーパーものXPathや正規表現のクエリをサポートしています。
システム構成
WP Web ScraperはWordPressのプラグインなので、WordPressの最小限のシステム環境が必要です。
- PHPのバージョン5.3.3以上(必須)です。これはSymfonyのCssSelector Componentによって必要とされ ます。
CssSelectorコンポーネントは、CSS SelectorをXPath式に変換するために内部的に使用されます。 - サーバーに負担がかかるため、任意のキャッシュプラグインを使用すことにキャッシュのパフォーマンスのために(強く推奨)されます。
- WP Web Scraperは可能な限りWordPress APIを使用します。これは、使用する HTTP APIを HTTPリクエストと作るための 過渡APIをキャッシュするためです。
コンテンツの投稿
[設定]> [WP Webスクレーパー]画面のインポート機能を使用して、外部コンテンツを投稿またはページとして投稿することができます。
以上です。著作権に注意しながら使用してください。