はじめに
Tableau Pulseを活用してメトリクスを作成・管理するためには、適切なデータソースの準備が不可欠です。ここでは、データソースの必須要件とベストプラクティスについて、Tableau Pulse実用化プロジェクトでの気づきを踏まえて、具体例を交えながらわかりやすく解説します。
なお、Tableau Pulseの目的、開発方法や活用方法に関しての情報をお求めの方は下記リンクのブログにてご紹介しております。
関連記事:Tableau Pulseの使用方法
Tableau Pulseにおけるデータソースの必須要件
データソースの必須条件には以下の4つがあります。
- 単一のパブリッシュデータソースであること
- メジャーとディメンションの存在
- 時系列ディメンションの設定
- フィルタリング用ディメンション
必須条件1. 単一のパブリッシュデータソースであること
Tableau Pulseでは、パブリッシュされた単一のデータソースが必要です。
これは、Tableau Cloud上にパブリッシュされたデータソースであり、ワークブックに埋め込まれたデータソースや複数のデータソースを組み合わせたものは使用できません。
例:
営業成績データをTableau Pulseでモニタリングする場合、営業成績のデータを含む一つのデータソースをパブリッシュする必要があります。また、パブリッシュ後に他のデータソースと結合、リレーション、ブレンドを行うことはできません。
必須条件2. メジャーとディメンションの存在
データソースには、メトリクスを作成するためのメジャーとディメンションが含まれている必要があります。
例:
営業データの場合、メジャーとして「売上金額(合計、平均)」や「取引件数(カウント)」が必要です。また、ディメンションとして「担当者名」や「地域」を設定します。
これらのメジャーは、Tableau Pulse上で合計、平均、中央値、最大値、最小値などの形式で集計されます。もし比率をメトリクスにしたい場合は、Pulseの編集画面で「集計値/集計値」として設定可能です。
必須条件3. 時系列ディメンションの設定
メトリクスを効果的に活用するためには、時系列ディメンションが必要です。
例:
売上データに「日付」や「週」、「四半期」といった粒度が設定されている必要があります。
注意点:
単一時点のデータ(例: 2024年3月29日のみ)ではメトリクスが正常に表示されないため、定期的な更新が行われるデータが求められます。より細かい粒度(時間や分)のデータは適していません。
必須条件4. フィルタリング用ディメンション
データやインサイトをフィルタリングするためのディメンションが少なくとも1つ必要です。これにより、ユーザーはメトリクスを柔軟にカスタマイズできます。
例:
「商品カテゴリー」や「地域」といったディメンションを設定しておくことで、特定の商品や地域ごとのメトリクスを容易に確認できます。
ベストプラクティス
Tableau Pulseでのデータソースに関するベストプラクティスとして以下の6つをご紹介します。
- パブリッシュデータソースの参照制限
- データの粒度とカラム名
- メジャーとディメンションの設計
- メジャーの設計
- パブリッシュデータソースの更新タイミング
- パフォーマンスの最適化
1. パブリッシュデータソースの参照制限
データソースの参照制限は、個別のデータソースで設定するのではなく、プロジェクトレベルで管理するのが推奨されます。
例:
営業部門のデータソースは、営業チームのみがアクセスできるように、プロジェクト全体に対してパーミッションを設定します。これにより、誤ったアクセスが防止され、管理が容易になります。
2. データの粒度とカラム名
Tableau Pulseでは、規則的かつ日次等の細かい期間の時系列データが適しており、粒度が細かいデータであるほど深いインサイトを得ることが可能です。
例:
地理データの場合、「市区町村レベル」までの詳細なデータがあると、特定地域での販売動向を詳細に分析できます。
また、カラム名は、データマート作成段階で認識しやすい名称にすることが推奨されます。
例:
「Seg」ではなく「Segment」といった具合です。
もしメトリクス上のディメンション名を日本語で表示したいなら、データマート作成時に日本語表記でカラムを作成するか、データソースのパブリッシュ直前にTableau上でカラム名を日本語に修正します。
3. メジャーとディメンションの設計
ディメンションフィルターは複数選択式であり、重複した値が表示されないように設計することが重要です。
例:
「全チャンネル」と「EC」のディメンションがある場合、同時選択によりECのデータが重複して集計されることがないように設計します。
また、カラムの値が数字の場合、自動的にメジャーとして認識されることがあります。そのため、カラムの設計にはとくに注意が必要です。
例:
「purchase_flg = '1'」といったカラムがメジャーとして認識されるのを避けるために、適切なカラム値を使用するか、数字以外のデータ型で設計することを推奨します。
Tableau Pulse上ではディメンションの作成ができないため、必要なディメンションはデータマート作成時に事前に処理しておく必要があります。
4. メジャーの設計
Tableauの表計算機能(合計に対する割合、差の割合など)は、Tableau Pulseでは使用できないため、これらの計算は事前にデータマート側で処理しておく必要があります。
例:
売上金額に対する成長率をPulse上で表示したい場合、その計算をデータソースに組み込んでおく必要があります。
5. パブリッシュデータソースの更新タイミング
Tableau Pulseのダイジェスト作成(通知)タイミングは1:00 PM JSTです。抽出を用いている場合、その前にデータソースの更新を行っておく必要があります。
例:
毎朝10時に営業成績データが更新される場合、Pulseの通知タイミング前にその更新を完了しておくことが重要です。
6. パフォーマンスの最適化
データソースのボリュームが100万行以下であれば、パフォーマンスは保証されます。
例:
顧客データが膨大で100万行を超える場合は、事前に集計や絞り込みを行うことで、パフォーマンスを維持することが推奨されす。また、データボリュームの増大が懸念される場合、Tableau Desktopでリレーションを組むことで行数を抑えることも可能です。
まとめ
この記事ではTableau Pulseを活用してメトリクスを作成・管理するためのデータソースの必須要件とベストプラクティスについて、Tableau Pulse実用化プロジェクトでの気づきを踏まえて解説しました。
Tableau Pulseでのメトリクス作成を成功させるためには、データソースの準備段階での注意が不可欠です。必須要件を満たし、ベストプラクティスに従うことで、データ分析の精度とパフォーマンスを最大化できます。
データソースの設計や管理においては、特定のユースケースに応じた適切な構成を心掛け、Tableau Pulseのポテンシャルを最大限に引き出しましょう。