Blog

【寄稿記事】インターネット広告で統計学の視点からワンランク上のABテストをするためのポイント

2015.06.10

インターネット広告業界でよく行われている広告のABテストについて、統計学の視点からワンランク上のテストをするためのポイントを紹介します。

ABテストとは

インターネット広告の世界では広告案のABテストが広く使われています。改めてABテストの定義を簡単にしておきますと、”複数の広告案（リスティングTDやクリエイティブ、LPなど）に対し、それぞれの広告案をユーザーに実際に配信して効果を検証し、より成果の高いものを見つける“というもの。ユーザー一人ひとりに配信されるインターネット広告は、その広告を見たユーザーの反応（クリック or コンバージョンしたか否か）の計測が簡単です。ゆえに、実際に広告案をユーザーに配信してその効果を検証するということが広く行われています。

また、代理店の人の目線で見ると、ABテストをすることで

・（リスティング広告）「TDトライアル（タイトルと説明文のABテスト）の結果、このTD案の効果が高いことが分かりました。そこで、これだけ上限CPCを上げてみませんか？」
・（バナー広告）「新しく考えたバナーデザインと現状のバナーデザインでABテストを実施したら、現状のバナーの方が効果が高いという結果になりました。どうやらまだ今のバナーでいけるみたいです。」

というコミュニケーションをお客様（広告主）とでき、今後の運用方針などを検討する材料になります。

このABテストについて、インターネット上では以下の注意点が挙げられることが多いのではないでしょうか。（ためしに「ABテストコツ」とかで検索してみてください。）

・比較するポイントは絞らないとダメ。（比較項目が複数あるとどの要因で差がでたか判断できない。）
・広告案を配信するユーザーはランダムじゃないどダメ。（例えば、片方の広告案を男性、もう片方を女性に配信しても広告案よりは性別という要因が結果に影響してしまう。ゆえに、できるだけ配信ユーザーの条件は揃えなければいけない。※配信ユーザーの数はアンバランスでも何も問題はありません。）

また、ABテストを実際に実行する際に問題となるのは、テスト期間（何日間テストを実施すれば良いのか）や結果の解釈（結果は統計的に有意なのか）でしょう。ただし、これらのものについては、比較的簡単に解決策を見つけることができます。（例えば A/B Significance Test は機能がシンプルな上に結果の解釈までしてくれます。）
そこで、今回はそれ以外について、統計学の視点からワンランク上のABテストをする為のポイントを紹介します。

統計学の理論を使って分かること

ABテストは統計学では「2群の比率の差の検定」と言い、実は統計学、特に数理統計学という分野ではとてもメジャーな問題になります。
ちなみに、統計的検定はご存知でしょうか？まず最初にこれから説明しましょう。

例えば、ある広告のIMPやCTs、CVsなどのデータがあったとします。（※余談ですが、「データ」は「datum（与件とか前提の意）」の複数形のことで、計測された値の集まり全体のことを言います。）このデータからインターネット広告業界の大人たちはCTRやCVRを計算し、その広告の良し悪しを判断しますが、この値は「その広告を見た人たち限定」で計測されたデータに過ぎません。（凄く当たり前のことを言ってます。）しかし、広告主や代理店の担当者が知りたいのは「この広告は（本当に）効果があるのか？」ということ。すなわち、今回「たまたま」広告を見た人たちだけでなく、今回は残念ながら広告に遭遇できなかった人たちも含むすべての人のこの広告を見たときの反応を、そして、例えば前の広告よりもすべての人に効果があるのかを知りたいのです。

ここで登場するのが統計学の「標本（サンプル）から母集団（全体）を推定する」という考え方です。以前、中学校の全国学力テストで中学生全員にテストを受けさせないで一部の生徒だけの結果を見るというものがあったのをご存知でしょうか。これも統計学の「母集団の推定」という考え方に則っています。

「すべての中学生の学力を測る」ためには

・学力をきちんと測れるテスト問題を作成
・全国の中学生全員に対して同じ日に試験を実施
・すべての答案を採点
・成績を集計する

をする必要があり、とんでもないレベルの予算や工数がかかります。（ちなみに平成25年度時点で中学生は350万人もいるそうなので、テスト結果はエクセル1sheetでは収まりませんね。※参考：統計局ホームページ/日本の統計 2015－第22章　教育）

ただ、全国学力テストで知りたいのは中学生の学力の現状です。すなわち、「A県のB市のC中学の3年D組のE君」のような特定の生徒の点数には興味がなく、「全国の中学生」のような「集団」の情報を取得することが目的となります。ゆえに、必ずしも中学生全員のテスト結果は必要ではなく、サンプリングし、その結果から全体の情報を推測することができれば、それで良いということになります。そしてこれにより、多額の予算も、学校の先生方に追加で負担して貰わなければならない時間も節約することができます。

では、どうすればサンプルから全体の情報を推測することができるのでしょうか？その答えこそ「統計学を使う」です。統計学では「x人のサンプルをとれば全体の情報をどれぐらいの精度で推測できる」という理論が確立されています。（ちなみに全国学力テストの例で言えば、どうやってテストを受ける生徒を選ぶかも統計学ではきちんと決まっています。）ゆえに、統計学の理論に則って学力テストを受験する生徒を選び、統計学の理論に則って生徒の成績を処理すれば、中学生の学力の現状を推測でき、また、その推測精度についても把握することができます。

ここで話を広告に戻しましょう。先ほどの例では、「今回広告を見てくれた人」が「サンプル」、「本当に効果があるのか知りたい対象」が「全体」とすれば、統計学の理論を使えば今回広告を見てくれた人の反応からすべてのユーザーの反応を推測することができます。特に、統計学の手法の1つである統計的検定とは、サンプルで複数の比較対象の間に差があるかをテストし、その結果が全体でも有効かどうかを判定するものであり、「サンプルのテスト結果」から「全体のテスト結果」を推測するものです。すなわち、統計学の理論を使うことで、本当はデータが手元に無いもの（「全体」の特徴）を手元にあるデータ（「サンプル」のデータ）から推測することができるのです。

ABテストの統計学上のポイント

さて、統計学から見たとき、ABテスト、すなわち「2群の比率の差の検定」において重要となるのは

・有意水準
・検出力

の2つと言ってよいでしょう。（他にも色々ポイントはありますが、最低でもこの2つは抑える必要があります。）

有意水準とは、平たく言えば「どのぐらい稀な結果を偶然と判断するか」という偶然と必然の境目を決める指標です。例えば打率2割8分のイチロー選手が10打席のうちに3本ヒットを打てば「必然」ですが、10打席で9本ヒットを打ったらさすがに「偶然」ではないでしょうか。（10打席回って1回しか凡退しないというのは滅多にない。もしそれが毎回起こるのであれば、イチロー選手の打率は9割ということになります。）では、10打席中5本ヒットを打つのは「必然」でしょうか、それとも「偶然」でしょうか。非常に曖昧な境目ですが、このような境目を定めるのが有意水準です。有意水準が無ければ、そもそもテストの結果を判定することができず、統計的検定では当然重要です。（※「意味が有るか」を決める「水準」で「有意水準」）

検出力とは、平たく言えば「テストでちゃんと判定できる確率」の指標です。統計的検定は正式名称を「統計的仮説検定」というのですが、これは「ある仮説（例えば「広告Aは広告BよりCVRが高い」など）が間違っているかをデータから判定する」というものです。そして、「ちゃんと判定」とは「仮説が間違っていればきちんと”仮説は間違っている”と判定する」ということです。これはできて当然と思うかもしれませんが、例えばデータの量が不十分だったり、仮説が非常に微々たる違いを主張するものだったりするとき、必ずしもデータからは「仮説が間違っている」とは言えなくなります。（※ただし「仮説が正しい」とも言いません。）ゆえに、検出力＝「仮説が間違っているときに間違っていると判定できる確率」の高低を確認することはテストの信頼性を確認する意味で重要となります。なお、検出力は80%程度は欲しいと言われますが、インターネット広告で扱う指標（CTR、CVRなど）ではそれが難しいことが多く、私個人としては70%程度でも良いと考えています。

ワンランク上を目指すのなら「効果量」を見よう

以上の「有意水準」と「検出力」を抑えた上で、もうワンランク上を目指すときに是非見て欲しいのが「効果量」です。

実際の広告のABテストの場面を広告主の目線で考えて見ましょう。

代理店担当者：「ABテストをした結果、新しいバナー広告は従来のものよりも効果があると統計的に言える結果になりました。」
広告主（あなた）：「それは良かったです。ちなみにどのぐらい上がりました？」
代理店担当者：「だいたいCVRが1.67倍ぐらいになりました。」

このやりとりで、きっとあなたは「本当に意味があるのか？」と疑問になるはずです。なぜなら、従来広告のCVRの値によって意味が異なるからです。従来広告のCVRが3%あれば新しい広告のCVRは5%ですが、従来広告のCVRが0.3%なら新しい広告のCVRは0.5%です。これでは、いくら統計的に有意な差とは言ってもあまりに微々たる差であり、ビジネス的な意味で本当に意味があるのか、そして新しい施策として採用するかどうかの判断は難しくなります。かといってCVsの数は商品によって異なるものであり、商品一つひとつで判断するのは現実的でないことが多いかもしれません。

そこで登場するのが「効果量（effect size）」です。効果量の細かい定義は今回は避けますが、平たく言えば偏差値のようなもので、比較対象の間の差を基準化した値です。

ある学校で数学と英語のテストがあり、数学のテストは難しく、ほとんどの生徒は40～60点ぐらいで平均点が50点だったとし、英語のテストは結果がばらけ、生徒たちは30～90点の点数を取り平均点は60点だったとします。このとき、生徒の評価をこのテストの総合点で判断しようとすると、数学70点、英語50点の人と数学50点、英語70点の人が同じ評価になります。しかし、みんなが60点しか取れなかった数学の70点と90点とれた生徒もいる英語での70点では価値は違いますよね。ゆえに偏差値（他の生徒の点数をもとに得点を基準化したもの）が必要になります。

効果量も概ね意味は同じです。CVR の値の上昇率や上昇幅を直接見るのではなく、「全体のユーザー」のCVRの推定幅を考慮してCVRの上昇幅を基準化したもの、つまり、比較対象間の差の本質的な大きさを捉えるのが効果量です。具体的には、広告AとBのCVRの検定では次のExcel 関数で効果量を求めることができます。

ABS(CVR_A – CVR_B) / SQRT(AVERAGE(VAR_A, VAR_B))

ただし

・CVR_A : 広告A のCVR
・VAR_A：CVR_A × (1 – CVR_A) / CTs_A
・CTs_A：広告A のCTs
・CVR_B : 広告B のCVR
・VAR_B：CVR_B × (1 – CVR_B) / CTs_B
・CTs_B：広告B のCTs

です。

先ほどのCVRの例では、CVR:3%→5%（CTsはともに3000）での効果量は約5.60、CVR:0.3%→0.5%（CTsはともに3000）での効果量は1.74となります。この値が何を意味するのかは非常に分かりにくいのですが、例えば2つのABテストをしているとき、代理店の人は

「2つのABテストはともに統計的に有意な結果となりましたが、効果量は5.60と1.74でした。ですので、効果量が低かった方についてもう一度新たな広告案を検討してみてはいかがでしょうか？」

というようなコミュニケーションを広告主と取れます。これはテストの結果が統計的に有意であったか否かだけのコミュニケーションよりも踏み込んでおり、より具体的に次の方策を検討することが可能です。また、効果量は基準化された値なので、様々な商品の広告案で共通のスケールになるので単純に値を比較することもできます。

ABテストの成果とは？

さて、話がとても長くなってしまいましたが、今回伝えたいことは「ABテストでは効果量も見ましょう」ということです。そもそもABテストの成果とは何でしょうか？新しく考えた広告案の有効性を検証できたらそれで良いのでしょうか？私はそれでは不十分だと思います。

ABテストの本当の成果とは、ユーザーの反応に基づいて次の方針を検討できることだと私は思います。すなわちABテストでは「A or B」というシンプルかつ分かり易い結論だけでなく、その中身についてもきちんと情報を取り出してあげることが重要なのです。その意味で効果量はABテストの情報を取り出しつつ、複数の商品の広告についても統一的に取り扱えるので、便利な道具ではないでしょうか。もし興味を持たれたら是非ABテストの際に効果量も計算してみてください。きっと今までは無かった何かを掴めると思います。

なお、今回は効果量をテスト結果の解釈に使いましたが、この効果量をABテストに必要なデータの量（CTsとか）やテスト期間の算定に使うこともできます。
（※参考：銀座で働くデータサイエンティストさんのブログ）

以上。お読みいただきありがとうございました。

この記事を書いた人

名前：I.H.
経歴：大学院で統計学を勉強した後にインターネット広告代理店大手に入社するも半年程度で退職し、大学院に戻って研究をする世捨て人（♂）。好きな酒はVictorian Vat、今欲しいのは日常的に話せる女性。
HP：https://sites.google.com/site/jibuhoshina/