最もシンプルにデータのバラツキを確認できるのがヒストグラム
アナリティクスアソシエーション会長の大内氏による2月24日付のメールマガジン
『統計をこれから学ぶ際の「出口戦略」』で紹介されたのが、『「それ、根拠あるの?」と言わせない データ・統計分析ができる本』という書籍です。
その書籍では、平均値が必ずしも代表値ではないのに、われわれがともすると、根拠もなく、平均値の左右に均等に分布する形でのデータのバラツキを想定してしまうことの危険性が分かりやすく説明されています。
データのバラツキを確認するには、平均値と中央値を比較してみることや、標準偏差を計算してみることでも可能ですが、最もシンプルで、だからこそ最も説得力が高いのがヒストグラムを描いてみることです。
本ブログ記事では、そのヒストグラムを、エクセル(表計算ツール)とTableau(BIツール)という2つのツールで描いてみて「どちらの操作が簡単か?」、「どちらのツールの方が短時間で描けるか?」を比較してみます。
ヒストグラムとは
ヒストグラムは、e-wordsでは以下の通りに説明されています。
ヒストグラムとは、データの分布を表す統計図の一つで、縦軸に値の数(度数)、横軸に値の範囲(階級)を取り、各階級に含まれる度数を棒グラフにして並べたもの。
出典:http://e-words.jp/w/%E3%83%92%E3%82%B9%E3%83%88%E3%82%B0%E3%83%A9%E3%83%A0.html
例えば階級の幅を1,000とした時、直近の5日のセッション数が、900, 1250,1750,1800, 2200だった場合、
度数分布表が以下の通りに描けます。
階級 | 度数 |
1 – 1000 | 1 |
1001- 2000 | 3 |
2001 – 3000 | 1 |
上記の度数分布表にもとづき、階級をX軸に度数をY軸に取り、縦棒グラフの間隔をなくして描くのがヒストグラムです。
※どのようなヒストグラムが描けるかは、階級の幅(上記の例では1-1000, 1001-2000とセッション数を
1000単位で区切っていますので、1000が階級の幅です)が規定する階級の数(上記の例で1-1000, 1001-2000, 2001-3000と3つの階級の数ができています)によって変わります。
階級の幅、数について、どのように設定すべきか?については、平方根選択や、スタージェスの公式に基づくものなど、いくつかのやり方があるようですが、どのような場合にも利用できる方法は定まっておらず、データのバラツキ具合を最も適切に表現できるよう、ヒストグラム作成者が調整する必要があります。Wikipediaのヒストグラムのページも合わせてご参照ください。
対決!ヒストグラム作成におけるエクセルとTableau
それでは、全く同じデータを利用して、2つのツールでヒストグラムを描いてみましょう。実際の操作は動画にまとめていますので、ご参照ください。
お題となる操作は2ツールとも以下の通りです。
1. 1月1日~2月29日までの日別のセッション数についてヒストグラムを作成します。
2. 階級幅はまず2000とし、その後1000に変更します。
3. ヒストグラムと同時に、平均値、中央値、及びデータの個数を表示します。
エクセルによるヒストグラムの作成
お題に沿ったヒストグラムの作成をエクセルで行いました。対決ですので、操作にかかる時間をストップウォッチで測定しています。
2分05秒 という結果となりました。また、上記動画は、エクセル2016を利用していますが、古いバージョンでは、上記動画に表示されたオプションが見当たらない、という場合があるかと思います。
その場合、以下の画像による操作を行ってください。古いバージョンではお題の完遂に4分17秒かかりました。
Tableauによるヒストグラムの作成
次に、全く同じデータを用いてTableauでヒストグラムを作成しました。
所用時間は1分22秒。最新版のエクセルでの操作時間の2/3(古いエクセルでの操作の所要時間の約1/3)で同じお題を完遂しました。
この対決、Tableauの勝利と言えそうです。(もちろん、エクセルを私よりも早く操作できる人はいるでしょう。あくまでも筆者の操作による所要時間比較です。)
ビジュアライズが短時間で終わることのWEBマーケターにとっての意味
「データからビジネスにインパクトを与える知見を抽出し、組織を動かして成果を出す」という仕事には、大きく分けて以下の5つのステップがあるかと思います。
1.分析に使えるデータを探す、入手する
2.データをビジュアライズする
3.ビジュアライズされたデータを元に分析する
4.必要に応じてビジュアライズに修正を加える
5.抽出した知見を誰でも分かるようにプレゼンテーションする
冒頭にあげた書籍では、ステップ1の部分にも工夫が必要であると述べられていますが、われわれWEBマーケターはデータが、Googleアナリティクス、リスティング広告、Googleサーチコンソールなどにあるかぎりは素早くアクセスできるため、あまり苦労することはないと思います(CRMデータや、他のリアルデータとの結合を行う場合はもちろん別の話です)。
次に、
- ステップ2に相当するヒストグラムの作成
- ステップ4に相当する階級幅の調整や、平均値、中央値の表示
については、動画でご紹介しました。
一方、ステップ3や、5こそが、われわれWEBマーケターが時間をかけて頭をつかうべきステップであることは明らかです。そのためので、限りある時間の中、2、4はできるだけストレスなく、早く完了させたい、また、フレキシブルに調整ができて欲しい訳です。
ビジュアライズが短時間で完了するのは、マーケターが頭を使う時間を増加させてくれる、という意味があります。
どのツールにも一長一短がありますので、絶対的に優れたツールはないと思います。また、ツールは進化しますので、ある時点では製品Aが優れていても、その後のバージョンアップで製品Bの方が機能的に逆転する、ということもあるかもしれません。
それらを考えると、ツールは何でも良いが、自分がストレスなく、フレキシブルに、早くビジュアライズを終えることのできる「自分の得意ワザ」ツールを持つことが最も重要だと言えます。弊社がパートナーとなって販売しているTableauは、ポストエクセルのビジュアライズツールとしてその最有力候補になるかと思います。