Excelでデータを操作するのは簡単ですが、特に複数のデータソースやデータ形式を扱う場合は大変で時間がかかる作業になることがあります。データは行と列に収まる必要があり、サイズの制限もあります。また、複数のスプレッドシートからデータを結合するには複雑な数式が必要で、結果エラーになりやすいのです。さらに、データが変更されるたびに、データの準備とブレンディング処理で各ステップを繰り返す必要があります。
Alteryx は、ワークフローベースの環境という異なるアプローチを採用しているため、非構造化データを含む複数のデータソースとデータ型を持つデータを準備、ブレンド、分析することが可能になります。 また、データの操作方法を正確に文書化した反復可能なワークフローの構築に時間を費やすため、データを変更する場合にはワークフローを再実行するだけで済みます。その結果、データの分析にかかる時間が短縮されてエラーも削減され、一貫性が高まります。
このガイドでは、Excel で行われることの多い一般的なデータ関連タスクを取り上げるとともに、 それらのタスクの横には、Alteryxで実行する方法が示されています。 Alteryx のツールやワークフローで、Excel の知識をどのように活かせるかを、さまざまな例を交えながら詳しく解説していますので、ぜひご活用ください。
ExcelユーザーがAlteryxでどのように作業を効率化できるかの詳細については、電子書籍『スプレッドシートユーザーのためのモダンアナリティクスガイド』をぜひダウンロードしてご一読ください。また、Alteryxの無料トライアルはこちらからダウンロードいただけます。
Excel のプログラムを開くには、[ファイル] をクリックし、次に [開く] をクリックします。
Alteryxでデータにアクセスするには、データ入力ツールをキャンバスにドラッグアンドドロップして、データベースを指定および選択します。次に、設定セクションのドロップダウンから [ファイルまたはデータベースを接続する] をクリックします。
ファイルが格納されている任意のフォルダを指定し、クリックすることで開くことができます。
次に、所定のフォルダに格納されたファイルを指定します。
Excel ではローカルファイルから構造化データを開くことができますが、利用環境などでファイルサイズが制限されることがあります。
Alteryxは、ユーザーに複数のデータソースおよびデータ構造への広範なアクセスを提供します。ユーザーは入力ツールを使用して、Excel、Access、XML、SAS、SPSS、MapInfo、さらにはデータベースやHDFSに格納されたデータからローカルでアクセスできます。
さらに、各種コネクタも豊富に提供されているため、Amazon S3、Twitter、Foursquare、Marketo、Salesforce、Microsoft Sharepoint などのクラウドシステムや Amazon Redshift、Impala、Spark などのビッグデータ環境に格納されたデータにも簡単に直接アクセスできます。
Web、テキスト、および広範な他のデータソースからデータにアクセスすることで、ファイルの種類、ソース、構造を柔軟に拡張できます。
Excel の場合、1 つのフォルダに同じ種類のファイル(CSV など)が複数ある場合、1 つずつ選択する必要があります。また、各ファイルは別々のワークシートとして開かれます。
Alteryxでこれを行うには、入力ツールをキャンバスにドラッグし、フォルダを見つけワイルドカード (*) を挿入します。この例では、2つの.CSVファイルを取り込みます。
入力ツールを使用して、探しているディレクトリとファイルを見つけます。この例では、POS_Dataを使用します。
その後、POS_Dataファイルを取り込むと、設定セクションに移動し、(_*.csv) を追加してディレクトリパスを編集します。これにより、すべての.CSVファイルが同じディレクトリに取り込まれ、それらが同じテーブル構造と形式である限り結合されます。
Excel で、列の名前を変更するには、 該当する項目のセルをクリックすると名称を変更できます。
Alteryxでも簡単にできます。セレクトツールを使うことで、列名を自在に変更できます。
Excel で、列の名前を変更するには、 該当する項目のセルをクリックすると名称を変更できます。
Alteryxでは、セレクトツールを使って、データ型を必要な形式に変更することができます。
セレクトツールの他に、オートフィールドツールも使えます。その名前が示すように、このツールはデータを解釈し、コンテンツに適したタイプとサイズを割り当てることができます。これは、テキスト文字列を含むフィールドに特に便利です。
もう少し複雑な変換もいくつかあります。セレクトツールでは希望の日付形式を理解できない可能性があるため、日付は扱いにくい場合があります。この問題を解消するため、固有の現在日時ツールがあります。
計算フィールドで使用されている列を削除する場合には、削除前に元の値をコピーして貼り付けておかないと、計算式が壊れてしまいます。
Alteryxでは簡単に行えます。セレクトツールを使用して、必要のない項目または非表示にしたい項目の横にあるボックスのチェックを外すと、数式に影響を与えずにワークフローから削除されます。
Excelでは手動で選択するか、クイックフィルタを使用して不要なものを見つける必要があります。
条件を一覧にできる場合は、フィルタツールを使用できます。複雑な場合は、数式を使用してIF式を作成するか、SWITCH()関数を使用できます。
Excelで新しいフィールドを作成する最も一般的な方法は、新しい列を挿入して列に名前を付け、必要に応じて数式を書き込むことです。
Alteryxでは、テーブルに列を挿入するのではなく、フォーミュラツールを使用してワークフローに新しい出力フィールドを追加するだけで済みます。新しいフィールド (この場合Value Targets) に入力するだけで、すべての行で新しいフィールドが計算されます。
ヒント1: 姓と名を連結して結合する必要がある場合は、+記号付きの数式を使用します。他のほとんどのテキストベースの数式は、Left()またはRight()のような同じ名前と構文を使用します。Alteryxのマニュアル (F1を押す) は、上記以外のものを識別するのに役立ちます。
ヒント2: フィールドを通常の書式 (たとえば、コンマ区切りのアドレスフィールドを分割する場合など) で分割している場合は、列分割ツールを使用します。
Excel の IF 文は、 これは、プラットフォームで最も一般的な意思決定機能の 1 つです。 スコアを高、中、低のいずれかに分類する新しい Sales Potential 列を作成するには、Excel で次の IF 文を使用します:
=IF(V2>2500, “High”, IF(V2>1499, “Medium”, “Low”))
フォーミュラツールは、データと数式の強力なプロセッサです。これを使用して、入力テーブルにフィールドを追加したり、式やデータの関係に基づいて新しいデータフィールドを作成したり、同じ前提に基づいて既存のフィールドを更新したりすることができます。Alteryxで同じIF文を作成するには、Sales Potentialという新しい出力フィールドを作成し、Total Salesフィールドを使用して次の式を入力するだけです:
IF [Total Sales] > 2500 THEN “High” ELSEIF [Total Sales] > 1499 && [Total Sales] < 2501 THEN “Medium” ELSE “Low” ENDIF
ExcelでオートSUMを作成するには、関連するフィールドと行を選択してから、オートSUMのマークをクリックする必要があります。または、SUM関数を入力しても同様の結果が得られます。
集計ツールを使うと、グループ化、集計、カウント、空間オブジェクト処理、文字列連結など、多数の集計処理を実行できます。この例では、集計ツールを使用して顧客別に取引を分類し、取引を合計して顧客の総経費を確認しています。
Excelで行の累積合計を出すには、新しい列を作成してから累積範囲を設定する必要があります。この場合、開始点は=S2で、2行目に=S2 + R3を追加します。これを設定すると、残りの関連情報の数式をコピーすることができます。
複数行フォーミュラツールは、フォーミュラツールの概念をさらに進化させ、ユーザーが数式作成の一環として行データを利用できるようにしました。このツールは、複雑なデータを解析し、累計、平均、パーセンテージ、その他の数学的演算を作成するのに便利です。この場合、新しいフィールドを作成し、次に式を作成します。
Excelの合計に基づいて各フィールドのパーセンテージを計算するには、まずデータの表を作成し、そのデータに基づいてピボットテーブルを作成する必要があります。もう1つの方法は、SUMIF()文を作成してそれぞれの月と金額のパーセンテージを計算することです。以下はピボットテーブルを利用した例です。
複数フィールドフォーミュラツールを使用すると、複数のフィールドで1つの関数を簡単に実行できます。この例では、各月のパーセンテージを表示する新しい列とフィールドをデータに作成します。
Excel でフィルタリングを行う場合には、 フィルタリングするワークシートまたは列を選択し、フィルタードロップダウンを選択するだけです。
Alteryxのフィルタツールを使用すると、データを2つのストリーム、つまりTrue (式を満たすデータ) またはFalse (式を満たさないデータ) に分割する基本的なフィルタを実行できます。
Excel で複数の列のデータを並べ替えるには、 ワークシートを強調表示し、ソートまたはカスタムソートを実行するだけです。
Alteryxのソートツールを使用すると、必要に応じて簡単にデータを整理できるようになります。列の名前を選択し、昇順または降順のどちらかを選択するだけです。
Excel でデータをピボットする(データの転置やクロスタブの作成など)には、通常は必要な形式でデータを取得するためにピボットテーブルを作成する必要があります。
転置ツールを使用すると、データテーブルの方向をピボットすることができます。水平データフィールドを垂直軸上に表示できるようにデータを変換します。このツールは、非適合データの抽出に役立ちます。転置できるレコードまたはフィールドの量に制限はありません。
クロスタブツールは、データテーブルの向きをピボットします。これを使って縦方向のデータフィールドが横軸上に表示されるようにデータを変換し、指定された場所でデータを集計します。
Excelで列またはフィールドを並べ替えるには、列を強調表示してからShiftキーを使用して、必要な範囲に列をドラッグアンドドロップする必要があります。
Alteryxで列を並べ替えるためには、セレクトツールを使うことができます。またはフォーミュラツールでも列を並べ替えることができます。
Excelでは、2つのテーブルの列が全く同じで、同じ順序であることを確認する必要があります。 確認後、2 番目のテーブルの内容全体をコピーし、最初のテーブルで最初の空の行に貼り付けます。
Alteryx では簡単にできます。 ユニオンツールを使用すると、各列の位置を維持しながら、フィールド名に基づいて複数のワークシートを組み合わせることができます。 各ワークシートの列ヘッダーの順序を簡単に変更して一致させることができます。
Excelでは、複数のワークシートを結合するために、VLOOKUP関数またはINDEX MATCH関数を使用して、異なるソースまたはテーブルのデータセットに情報を取り込むことができます。INDEX MATCH関数は、参照値が一番左の列になくVLOOKUP関数が使用できない場合に、VLOOKUP関数の代わりに使用されます。
固有の行を持つために複数の一致が必要な場合は、結合を使用するとよいでしょう。2つのデータセットを入力し、結合ツールを使用して結合することができます。互換性のあるデータソースに接続する場合は、入力ツールで結合することもできます。
結合ツールを使用すると、共通のフィールド (主キー) を持つ2つのテーブルを結合して、以下を作成します。
データベース内のデータを操作する場合は、In-DB結合ツールを利用することもできます。AlteryxのIn-DB結合ツールを使用すると、データベースからデータを移動することなく大規模なデータセットに対してブレンディングと分析を行うことができ、従来の分析方法よりも大幅にパフォーマンスが向上します。
In-DB結合ツールを使用すると、内部結合、左結合、右結合、さらには完全外部結合を行うことができます。
Alteryxのインデータベースツールの詳細については、こちらをご覧ください。
Excel でデータを集計する場合は、ピボットテーブルを作成します。
Alteryxの集計ツールは、Excelのピボットテーブルのように機能します。データをグループ化し、集計、カウント、または他のフィールドで別の計算を実行することができます。
まだAlteryxをダウンロードされていない場合は、無料トライアルをお試しください。
Alteryxのその他の機能について、Alteryxユーザーから詳細情報やヘルプが必要な場合は、Alteryx Communityにアクセスしてください。
AlteryxのパートナーであるInformation Lab社にご協力いただき、心より感謝いたします。Information Lab社の詳細はこちら。