今回のブログでは Tableau Prep 使用した効率的なデータ加工についてお伝えします。
多くの方が、Tableau Desktopで使用するデータソースを作成する際、多くの方が下記のような手段を使ってデータを整形しているのではないでしょうか。
- Tableau Desktop で(表計算関数や LOD 計算を用いて)なんとか頑張る
- エクセルでデータの前処理を頑張る
- IT 部門に依頼する( SQL 文を開発してもらう)
これらの手段はデータソース整形の基本ではあります。しかし、Tableau上級者でないケースや、一部の人しかメンテナンスができず不便、使いたいときにすぐにデータソースを使えないといった問題が生じ、業務が非効率になってしまうことがあるかと思います。
そんな時、「 Tableau Prep 」を使用することでデータ加工の幅が広がり、データソース整形を効率化できます。
今回は「Tableau Prep」を使うことでどんな効率化が実現できるのかを、主にTableau Desktopを使用した時と比較してご紹介したいと思います。
Tableau Prep って何?
「 Tableau Prep Builder 」と「 Tableau Prep Conductor 」
「Tableau Prep」と呼ばれる製品は実は2つあります。「Tableau Prep Builder」と「Tableau Prep Conductor」です。
Tableau Prep Builder
「Tableau Prep Builder」は可視化対象のデータを整形するデータプレパレーションツールで、広く「Tableau Prep」として認識されています。これにより効率よく可視化できます。
「Tableau Prep Builder」はTableau Creatorのライセンスに含まれているため、Tableau Desktopユーザーにとっては試しやすいツールです。
Tableau Prep Conductor
一方「Tableau Prep Conductor」は「Tableau Prep Builder」で整形したデータソースをサーバー環境で更新し、Tableau Server や Tableau Onlineへ自動でパブリッシュできるツールです。
「Tableau Prep Conductor」は Data Management Add-onというオプション扱いになり、システム導入レベルになるため、導入している企業様も2020年8月現時点では非常に少ない状況です。
こちらの記事では「Tableau Prep」=「Tableau Prep Builder」を指してご説明します。
※使用バージョン:Tableau Prep 2020.2.3
Tableau Prep と Tableau Desktop の違い
Tableau PrepはTableau社のデータプレパレーションツールで、一言で言えばTableau Desktopで扱うデータの「下ごしらえ」ができるツールです。
どのような「下ごしらえ」=データ加工が可能かというと、大きく下記4つが挙げられます。
- 結合
- ユニオン
- ピボット
- クリーニング(集計・フィルター・データ型の変更・グループ化と置換)
Tableau Desktopユーザーの方であればここで、「そんなのTableau Desktopできるし」と思われるかもしれません。
そうなんです。データ加工においてTableau PrepとTableau Desktopではできることが被っています。
ただTableau Prepのほうがデータ加工の工程が見やすく、操作も分かりやすいです。Tableau初心者~上級者まで簡単にデータ整形を行うことができ、業務の効率化を考えると断然Tableau Prepがおすすめです。
どのような効率化が実現できるのか、次の章でご紹介します。
Tableau Prep で叶う4つの効率化
Tableau Prepで叶う効率化は以下の4つがあります。
- 加工中のデータをビジュアライズしながら作業できる
- 難しい計算式を使わなくても簡単にデータ処理ができる
- ファイルのサイズ減量ができる
- データソースを作成フローごとシェアできる
効率化① 加工中のデータをビジュアライズしながら作業できる
Tableau Prepの機能で一番のポイントは、実際のデータを見ながら加工できることです。
どんなカラムが存在し、どのくらいのボリュームで、そのうち必要なデータはどのくらいかを把握することで、Tableau Desktopでの作業が俄然効率的になります。
実際にデータを表示し、加工している場面をTableau PrepとTableau Desktopで比較してみましょう。使用したデータはサンプルストアの注文データ(エクセル、下図)です。
比較1. データの全体像の把握
>Tableau Desktop
全カラム指定した行分(デフォルトは1000行)見ることができ、どんなカラムがあってどのようなデータが入っているのかをざっくり確認ができます。
>Tableau Prep
各列で何種類のデータが存在するのか、何年分のデータ存在するのか、nullが含まれているのか等を見ることができ、データの全体像を見渡せます。データに異常値がないか、nullは除外してもよいかなどの判断が容易にできます。
比較2. 不要な値の除外
>Tableau Desktop
「出荷日」にnullが含まれていることを知った上で、昇順に並び変えたところ1000行中1行見つけることができました。ただ、他の列にもnullが存在するかの確認はシートでの確認が必要です。
>Tableau Prep
nullの存在チェックも容易ながら、nullが含まれる行を見ることができるので、除外しても問題ないnullなのか、除外すべきでないnullかを簡単に確認できます。
除外しても問題ないnullの場合、右クリック→「除外」で除外することができます。除外後のデータもすぐに確認ができ便利です。
比較3. 結合
>Tableau Desktop
Tableau Desktopでは結合句の選択や結合タイプ(内部結合など)の選択ができますが結合結果はその場で見ることができません。
>Tableau Prep
Tableau Prepで結合する際は、何行結合できているのか、結合時に不一致の値はあるか、ということを確認しながら処理をすることができます。
Tableau Desktopでもデータソース同士の結合自体は可能ですが、結合したあと検算してみると数値が合わず、結合句が足りなかったり結合タイプが異なるといったケースも多いです。Tableau Prepであれば設定したその場で結合結果が確認できるので、時短と正確性の効果があります。
効率化② 難しい計算式を使わなくても簡単にデータ処理ができる
複雑な結合など、Tableau初級者にとってハードルが高いことも、Tableau Prepであれば簡単にデータの整形ができてしまいます。
例として異なるデータソース同士のユニオンを見てみましょう。
異なるデータソースのユニオンしたい場合、Tableau Desktopではユニオンできないため結合と計算式を駆使してどうにかこうにかやりくり…と上級者の方でしたら可能かもしれません。ただ、初級者には不可能かつメンテナンスが大変ですよね。
Tableau Prepなら異なるデータソースのユニオンも可能です。
データソースは10個までしかユニオンできませんが、ワイルドカードユニオンの機能を使えば、同じフォルダ内にあるファイル名に「mothlyreport」を含むファイル、というような条件ですべてユニオン可能です。
またTableau Desktopでは「csvはユニオンできるけれどエクセルはできない」という難点がありますが、Tableau Prepではエクセルのユニオンも可能です。
効率化③ ファイルのサイズ減量ができる
Tableau Prepで無駄なデータの排除してからTableau Desktopで読み込むことで、サイズの減量および読み込みのスピード改善に繋がります。
実際に、「分析には使用しない列やデータ」を削除したものをhyperで出力してみると、以下のようにサイズを減量できました。
列数 | 行数 | ファイルサイズ | |
---|---|---|---|
元データ | 21 | 21866 | 1280KB |
不要列を削除 | 15 | 21866 | 960KB |
2015年オーダーのデータ除外済 | 21 | 18008 | 1152KB |
データ量が大きければ大きいほど効果があり、ダッシュボードでの描画時だけでなく作業時のパフォーマンスも改善できます。
効率化④ データソースを作成フローごとシェアできる
Tableau Prepで作成したデータソースは以下の3種類のファイルで出力ができ、hyperはTableau PrepからTableau Serverへのパブリッシュも可能です。
- Hyper Extract hyper(.hyper)
- Tableau Data Extract(.tde)
- Comma Separated Value(.csv)
またデータだけではなくフローも共有ができ、作成者以外でも同じフローでデータの更新やメンテナンスが可能です。
Tableau Prepではデータ加工のステップに名前や説明をつけたり、変更(フィルタや列削除など)履歴が追えたりできるため、作成者以外に加工工程も共有が可能です。
フローはTableau Prep Builder フロー (.tfl)とデータを含むTableau Flow ファイル (.tflx)で保存されます。
まとめ
この記事では、データ加工の効率化を実現するツール「Tableau Prep」をご紹介しました。
もちろん他の手段でもデータの整形はできますが、Tableau Prepなら加工した結果のデータを見ながら作業が進められるので、スピードと正確性の両面で効率化に繋がります。
また、Tableau Desktop上であまりに難しい計算式やデータ加工をしてしまうと、他のメンバーがメンテナンスできなくなってしまう…という問題が生じます。属人化せず社内で幅広くデータソースを活用するために、「Tableau Desktop側はなるべくシンプルにして、データソース側で処理をしてしまう」ことが実現できる点においても、Tableau Prepはおすすめです。
ぜひTableau Prepを使ってデータ整形の煩わしさから抜け出してください。