本ブログ記事で相愛している Project Maestroはβ版ですが、2018年4月にTableau Prepという名称の製品としてローンチされました。
Tableau Project Maestro概要
Project Maestroは、Tableau社がローンチを予定しているデータプレパレーションツールです。(本記事初出日の2018年1月時点では最新版がベータ2でしたが、その後、2018年2月現在、公開されている最新のベータ版はベータ3です。)Tableau Desktopは基本的にはきちんと整形されたデータのビジュアライズを行うツールであり、例えば、エクセルが人間が見やすい形に整形されていて、分析には不要な行や列が混ざっている場合、望みどおりのビジュアライズができない場合があります。
そうしたデータをビジュアライズしたい場合、Tableau Desktopでは、「データインタプリタ」や、「項目名への別名の付与」、「計算フィールドの利用」でなんとかデータを整形しますが、そうした「Tableauにデータを読ませる前の下準備の作業」を切り離して一つの製品にしたのがProject Meastroと考えることができます。
Tableau社が提供しているベータプログラムでProject MaestroのBeta2に触ることができましたので、その使用感をレポートします。(追記:その後、Beta3にも触っています。本記事に掲載している動画2つのうち、2つめの動画はBeta3によるものです。)
Project Maestroでできること
Project Maestroでできることを、を筆者なりに以下の10個にまとめてみたのが以下です。
1.データの俯瞰
データをProject Maestroに取り込むと、データを俯瞰して見ることができます。
例えば、全体のレコード数、カラム数、特定ディメンションのディメンションメンバーの内訳(例えば、「ユーザータイプ」カラムには「New Visitor」と「Returning Visitor」の2つのディメンションメンバーが存在すること)、ディメンションメンバーごとのレコード数
2.データインタプリタ
エクセルファイルが人間が見やすいようにデータを格納していた場合、表のタイトル、セルの結や、データ以外の説明文などTableau Desktopでの分析からすると余分な要素が含まれています。
そうした要素を除外し、エクセルの中の表組み部分を取り出すのがデータインタプリタです。Tableau Desktop本体にも実装されているので、ご存じの方も多いと思います。
Project Maestroにもこの機能が実装されています。
3.データのフィルタ
Tableau Desktopでの分析に利用しないデータ、テストの結果残ってしまったデータ、明らかに入力間違いと思われるデータなどをフィルタで除外することができます。
4.データの整形
項目の名前やデータ型の変更はもちろん、データ=値の修正が可能です。
例えば、「部署名」というカラムに、「営業1部」と「営業一部」という値があり、実態が同じ場合、2つを同じ値に修正できます。
また、列自体をマージすることができます。
2つの表をユニオンする際、片方の表のヘッダーが、「Impression」、もう一つの表が「表示回数」となっているが、同じ列として扱いたい。という場合に大変便利です。
5.データのピボット
いわゆる横持ちのデータを縦持ちに変形することができます。
国名が複数列にまたがっています。こうしたデータを横持ちと呼びます。一方、「国名」という項目が1列だけあり、その列の中に、アメリカ、中国、台湾、、、と値が格納されるデータの持ち方が縦持ちと呼ばれます。一般的にはTableauは縦持ちのデータを上手にビジュアライズすることができます。
6.データの集計
例えば、日付、デバイスカテゴリ(PC/Mobile/Tabletの3つのメンバー)、ユーザータイプ(New Visitor/Returning Visitorの2つのメンバー)、都道府県(47個のメンバー)セッションの4列のデータがあったとします。
1日分のレコードは、3x2x47=282レコードとなります。これが1年分だと282行x365日分=102,930レコードになります。
ランディングページや参照元などの列があると、非常に多くのレコードを持つテーブルになるのが想像できると思います。
一方、今分析したいのが、「日別のデバイスごとのセッション数」だった場合、ユーザータイプ、都道府県のレコードを集計(SUM)して小さなデータソースに変換することができます。また、データに「率の指標」が存在していた場合、それらは(AVG)で平均して集計することもできます。
7.データのユニオン
1月分の「部署別売上高」に2月分のデータを追加する。という場合に利用します。
表の行が増えてゆくイメージを持っていただければ良いと思います。Beta3からは、csvファイルに加えてエクセルに対してもワイルドカードユニオンが利用できるようになりました。ワイルドカードユニオンとは、*(=アスタリスク)を「なんでも良い文字列」として取り扱うことで、例えば、一つのエクセルファイルの中に「売上高2017」と「売上高2018」が存在する場合、「売上高*」と指定することで、2つのシートを、個別に指定することなくユニオンの対象とする機能です。
8.データの結合(JOIN)
「製品別売上高」の製品が、実際には製品コードで表現されている場合で、分析には製品名を出したい場合「製品コード別製品名」のテーブル(マスターテーブル)が必要になります。
「製品別売上高」と「製品コード別製品名」の2つの表をJOINすることができます。
表の列が増えるイメージを持っていただければ良いと思います。
9.データのアウトプット
整形、集約、結合、集計したデータをTableau Desktop等で利用できるようにファイルとしてアウトプットします。
hyper(Tableau10.5のデータエンジン)、tde(Tableau10.4までのデータエンジン)に加え、csvファイルでのアウトプットが可能です。
(10.データの複製)
少々番外編の「できること」ではありますが、Maestro内でデータを「複製」することができます。ただし、明示的に「複製」や「コピー」メニューがある訳ではなく、一つの「ステップ」から処理を分岐させることで、実質的に分岐する前のデータをコピーして利用していることになります。例えば、以下の画像では「項目名の整形」ステップから2つのピボットに分岐していますが、これは「項目名の整形」データをコピーしていることに他なりません。以下に掲載している2つの動画の2つめでこの「データの複製」を利用していますので、詳しくはそちらを御覧ください。
実際のProject Maestroの操作
それでは、実際のProject Maestroの操作を2つの動画でお見せします。
最初の動画は10個に分類したProject Maestro(Beta2)で「できること」のうち、
- 1.データの俯瞰
- 2.データインタプリタ
- 3.データのフィルタ
- 4.データの整形
- 7.データのユニオン
- 9.データのアウトプット
を利用しています。
千葉県柏市が公開している人口データ(エクセル)を利用して、Tableauで人口ピラミッドを描く。
というお題に対して、エクセルが少々手強い形をしています。
その部分をProject Maestroで前処理する手順を御覧ください。
2つ目の動画は10個に分類したProject Maestro(Beta3)で「できること」のうち、
- 1.データの俯瞰
- 2.データインタプリタ
- 4.データの整形
- 7.データのユニオン(ワイルドカードユニオン)
- 8.データの結合(JOIN)
- 9.データのアウトプット
- 10.データの複製
を利用しています。
政府が発表した企業規模別、勤続年数別、退職理由別の退職者数と退職金のエクセルファイルが複数シートで記述されていたり、退職理由毎に退職者数と退職金が別の列になっているのをMaestroで整形しています。
プリンシプルでは、DMP(複数のデータベースを結合し、より深くお客様や商品を知るためのデータ基盤)構築支援を行っています。
DMPに格納するデータがファイルで供給される場合、Project Maestroなどの利用価値がある場面があるかもしれません。
ご興味のあるお客様は、info@principle-c.com までご連絡ください。