多くのアナリストが、より良い分析結果を得るために、Excelなどの表計算ソフトでデータを統合しています。Excelでのデータ統合は、データ準備プロセスの一環として行われますが、統合するデータソースが増えると難易度が上がりがちです。
Excelで「結合(Merge)」と「統合(Consolidate)」は、別々の機能を指すことがあります。そこで、最適なデータの結合方法や、Excelでのデータ統合が煩雑で時間がかかる場合の対処法について、簡単なガイドを作成しました。また、ビジネスアナリストの皆様の生産性向上をサポートするため、データ準備プロセスを効率化するためのポイントも併せてご紹介します。
Excelでデータを統合する方法
この例では、あるグループが年間に借り入れたローン額に関する2つのデータセットが、別々のExcelワークブックに保存されているとします。各メンバーごとの借入総額を把握したい場合、Excelでデータをどのように結合すればよいのでしょうか。
両方の数値データが、価格が常に「$1.00」の形式で統一されているなど、同じ形式が用いられている場合は、Excelの「データ」ドロップダウンメニューから「統合」機能を使用することができます。
まず、使用したい各シートを開き、統合したいデータの形式が一致していることを確認します。
- 次に、空の新規ワークシートを開き、「統合」を選択します。
- 「関数」ボックスで使用する関数を選択します。今回は、各メンバーの総ローン額を集計するために「合計」を選択します。
- 「参照」フィールドで「参照元」を選び、統合したいデータが含まれるExcelのワークブックを指定します。ソースを追加します。
- 重要:ラベルが一致していることを必ず確認してください。その後「OK」をクリックすると、データが反映され、新しいシートに統合されたデータが表示されます。そこから、内容の確認や分析を行うことができます。
Excelで複数のワークシートのデータを結合する方法
ExcelのPower Queryエディターを使って、複数のワークシートからデータを統合する方法をご紹介します。例として、2つのデータセットを使用します。1つ目は基本的な会員情報(収入、学歴、電話番号など)を含むデータで、2つ目は会員のローン情報(ローン金額、利率、ローンの状況など)を含むデータです。
各データセットには会員IDが含まれているため、この共通フィールドを基にデータを結合し、すべての情報を横並びで比較できるようにします。手順は以下の通りです。
- まず、各データセットの内容をざっと確認してから、統合用の新しいワークシートを開きます。
- 次に、新しいワークシートの「データ」タブで「テキスト/CSVから」を選択します(今回扱うファイルがCSVファイルのため)。Excelファイルをインポートしたい場合は「データの取得と変換」を選択します。
- まず、会員の基本情報ファイルをインポートし、「Power Queryエディター」に移動します。
- 次に、「新しいソース」、「ファイル」、「テキスト/CSV」の順に選択し、ローン情報のデータセットを左側に追加します。
- この2つのデータセットを統合するため、「クエリの結合」、「クエリを新規クエリとして追加」を選択し、統合用の新しいスペースを作成します。
- 「会員ID」が共通のデータフィールドであるため、両データセットで会員IDの列を選択します。
- 次に、会員情報のデータセットから不要な列を削除します。必要な操作が完了したら、「member_loans」横のアイコンをクリックし、先ほど取り込んだデータセットを展開します。
- ここで、会員のローンのデータセットから必要な列を選択します。すでに会員情報のデータセットに含まれているため、「会員ID」の列は含める必要はありません。
- 選択が終わったら、分析に適した順番に列を並べ替えます。
- 最後に、「閉じて読み込む」をクリックすると、統合されたデータセットが新しいワークシートに表示されます。
Excelでセルと列を結合するその他の方法
Excelで、セルや列を結合する方法は他にもたくさんありますが、以下にいくつかご紹介します。
異なる列のテキストを結合する
- セルのテキストはアンパサンド記号(アンド記号)を使って新しい列に結合できます。例えば、=A1&B1とすればスペースなしで結合され、=A1&" "&B1とすれば間にスペースを挟んで結合できます。アンパサンドの代わりにCONCATENATE関数も使用できますが、この関数には255個の文字列までしか結合できない制限があります。
- TEXTJOIN関数を使うと、複数のセルや列を結合できます。例えば、=TEXTJOIN(" ", TRUE, A1:B1)という数式では、まず区切り記号を指定してテキストの区切り方を決め、次に空セルを無視するかどうかを指定し(TRUEを指定すると空セルは無視されます)、最後に結合するセル範囲を指定します。
パターンに基づいてデータを自動入力する
- 「フラッシュフィル」を使用すると、特定のパターンに基づいてデータを自動入力できます。「データ」タブから「フラッシュフィル」を選択して手動でオンにするか、新しい列に必要な情報を入力してEnterキーを押すと、パターンに沿った情報が自動的に入力されます。
共通の識別子でデータを結合する
- VLOOKUP関数は、共通の名前やIDでデータを結合する際に使用します。例えば、=VLOOKUP(A2, 'Different Table'!$A$2:$B$100, 2, TRUE)といった数式を使います。最初の引数には検索するセル(A2)を指定し、次に検索範囲を指定します。3番目の引数には戻り値を返す列番号を、最後に完全一致(FALSE)か近似一致(TRUE)かを指定します。
セルを結合する
- Excelでセルを結合するには、まず結合したいセル範囲を選択します。次に、右クリックして「セルの書式設定」を選択し、「配置」タブをクリックします。「テキストの制御」セクションで「セルを結合する」にチェックを入れてください。注意点として、セルを結合すると、左上のセルの値のみが保持され、他のセルの値は破棄されます。
Alteryxでデータを準備・ブレンドする
Excelでデータを結合する際、データソースに応じて結合機能をカスタマイズして保存し、それを簡単に他の人と共有したり、再利用できたら便利だと思いませんか?
Alteryxを使えば、誰もが簡単かつ直感的にデータ準備を行えるようになり、組織全体でデータ活用を推進できます。また、データ探索、構造化、ダッシュボード作成をサポートするアプリが利用できるため、迅速で正確な分析が実現します。
Alteryxは、データのクレンジングと準備作業を効率化する設計が施されており、扱いやすく高度で視覚的なデータ分析を提供することで、プロジェクトや組織全体でのデータの活用を強力に支援します。ぜひExcelからAlteryxへの移行ガイドをご確認いただき、無料トライアルにお申し込みください。