前回に引き続き、データ分析の紹介です。
前回までにデータ分析の流れについてお話しました。今回はその中で大事なデータクレンジングの話をします。
データクレンジングとは
データクレンジングはその名の通り、データを洗って汚れを落とす作業です。クレンジングそのものは和製英語のようです。そのため、データクリーニングやデータスクラビングといった表現もあります。
目的はデータの正確性や一貫性をよくして、正しいデータ分析を行うためです。不正確なデータをそぎ落とすことや不足しているデータを追加することもあります。
具体的な作業としては、全角・半角、大文字・小文字、略称のバラツキといった表記ゆれの統一が多いです。日付形式や電話番号のハイフンの有り無しの統一も大事です。入力ミスも注意します。これらは統一しておかないと集計の際に、別の値として集計されるため、正しい結果が出せないからです。
これ以外にも重複データの削除や統合、必須データの空欄補完やサンプルデータ等意味のないデータの削除も行います。本来は運用時にはないはずのサンプルデータが受入テスト時のまま残っているケースは少なくなく、意外と気づかずに集計に悪影響を及ぼしている話を聞きます。注意してください。
困った時はツール頼み
かなり地道な作業ですが、重要なので避けて通れません。とはいえデータ量によってはとても手作業ではできないケースもあるので、専用ツールを利用することもあります。データ分析ツールには機能としてついている場合もあります。ご利用の際は確認してみてください。
もちろん、データクレンジングを行わなくて済むように日々の管理が重要なのはいうまでもありません。本格稼働時のサンプルデータの除去や曖昧さを回避するための各種コードの設定も大事です。
住所なら郵便番号、都道府県、市区町村、残りの住所と分けておくと省略形をなくせますし、郵便番号があれば、都道府県も市区町村も連動して埋めることが可能です。都道府県、市区町村は総務省より全国地方公共団体コードが出ているので、こちらを利用するのもいいと思います。
手入力を減らして、コード化とマスタ化することでデータはかなりきれいな状態を維持できます。データのきれいさが分析精度をあげることは間違いありません。
◆データクレンジングとは?目的や具体例もわかりやすく解説!
https://usonar.co.jp/blog/5927.html
DBマーケティングのユーソナーが提供するデータクレンジングのページです。目的から実際の作業まで上手にまとめています。
◆データクレンジングとは?エクセルでのやり方や具体例をわかりやすく解説
https://www.salesforce.com/jp/blog/jp-what-is-data-cleaning/
Salesforceのデータクレンジングのページです。目的はもちろん、手順は実際エクセルでやる場合の例が簡単ですがわかりやすく記載されています。
◆データクレンジングとは?たった6ステップでわかる手順と注意点
https://www.tableau.com/ja-jp/learn/articles/data-cleansing
データ分析ツールtableauのデータクレンジングのページです。こちらもエクセルで関数を使った手順を記載してあります。ツールにAIを利用したクレンジングができることも記載してあります。
◆BtoBにおすすめのデータクレンジングツールを徹底比較
https://flued.jp/eigyou-dx/dx-tool/data-cleansing-tools/
BtoBマーケティングのFLUEDが運営する営業DX.jpのページです。有償でもいいからデータクレンジングをしたい方は参考にしてください。ExcelとOpen Refineも紹介しています。
◆OpenRefineで神エクセルと戦う
https://qiita.com/higa4/items/5c2b2630bfd91e064f67
実際にOpenRefineを使って、複雑なエクセル帳票をデータ化する流れを図入りで説明しているページです。どんなふうに使うかイメージしやすいです。