Pocket

サポートフォーラムでの要望

公開しているプラグイン、Markup (JSON-LD) structured in schema.orgサポートフォーラムで増えてきた問合せがありまして、「ArticleやBlogPosting、NewsArticleのschema.orgタイプでImageObjectを出力したいが、アイキャッチ画像を設定していなので出力されない。」というもの。AMPでは必須のこの項目ですが、AMPでなければ推奨なので設定しなくても問題はないはずなのですが、Googleの構造化テストツールでエラー(警告)が出てしまうので気持ち悪い。ImageObjectの定義は以下の通り。

アイキャッチが設定してある場合は、その画像のURLをwp_get_image_editor関数の引数として渡して、画像のサイズ(幅・高さ)を取得してセットしています。以前、「画像サイズの取得にWP_Image_Editorクラスを使う」という記事でもまとめた内容です。
そこで、投稿記事内に含まれる最初のimgタグのURL(src属性)を正規表現で抜き出して、アイキャッチ画像と同じようにサイズを取得してセットできるようにしようと思います。

preg_match関数で正規表現

PHPの関数、preg_matchを使用して投稿記事内の最初のimgタグにマッチする正規表現を書きました。

※PHP:メタ文字参照

  • $pattern ・・・ 正規表現のパターン文字列
  • $content ・・・ 投稿記事全文(HTML)
  • $image ・・・ 正規表現の結果配列保存変数

正規表現のポイントは、(.*?)の部分。正規表現のサブパターンでキャプチャされる部分にsrc属性の値を設定しています。これで、imgタグ全体とsrc属性の値が取得できる…はず。

出力例は以下のようになりました。

とれた!\(^o^)/
配列の0番目にimgタグ全体、1番目にsrc属性の値がちゃんと取得できました。あとは、これを関数化して使いやすくしたかったので(src属性の値を返すだけの関数)、以下のような関数にしてみました。

引数に投稿記事の文字列を渡して、文字列内の最初のimgタグのsrc属性の値を返す関数。いろいろ使えそう。

preg_match_all関数

preg_match関数は、最初に正規表現でマッチした文字列を取得しますが、preg_match_all関数は、マッチした文字列を全て取得します。投稿記事内にimgタグを全て取得したい場合にはこちらを使用します。先程のpreg_match関数をpreg_match_all関数に変えるだけでOKです。

これを出力すると…

このように2次元配列で取得できました。こちらも使用する機会がありそうなのでおぼえておくことにします。

4.1.0リリース

この正規表現を使用したMarkup (JSON-LD) structured in schema.orgのバージョン4.1.0をリリースしました。サポートフォーラムから学ぶこと多い。

Markup (JSON-LD) structured in schema.org