データクレンジングの方法を教えてもらうプロンプト
このプロンプトでできること
汚いデータを整理・クリーニングする方法を教えてもらえます。重複削除、表記ゆれ統一、欠損値処理などの手順を解説します。
プロンプト
以下のデータのクレンジング方法を教えてください。
【データの状況】
{どんなデータか、どんな問題があるか}
【問題点】
例:
- 重複データがある
- 表記ゆれがある(株式会社/㈱など)
- 空白セルがある
- 日付形式がバラバラ
- 余分なスペースがある
【使用ツール】
{Excel/Googleスプレッドシート/Python等}
【最終的にしたいこと】
{クレンジング後の用途}
以下の形式で回答してください:
1. 問題の診断
- データの問題点の整理
- 優先的に対処すべき項目
2. クレンジング手順
- ステップバイステップの手順
- 使用する機能/関数
3. 各問題への対処法
- 具体的な操作方法
- 使える関数や数式
4. 自動化のヒント
- 繰り返し使えるテクニック
5. 品質チェック方法
- クレンジング後の確認ポイント
カスタマイズ例
- 「Excelのみで完結する方法で」と追記
- 「10万行のデータを効率的に」と追記
- 「再発防止のルールも提案して」と追記
出力例
データクレンジング手順書
1. 問題の診断
問題 件数 優先度 重複レコード 約200件 高 会社名の表記ゆれ 約500件 高 電話番号形式不統一 約300件 中 空白セル 約100件 低 2. クレンジング手順
Step 1:バックアップ作成 元データのコピーを別シートに保存
Step 2:重複削除
- 全データを選択
- データ → 重複の削除
- 判定基準の列を選択
Step 3:表記ゆれ統一
会社名の統一(新しい列で変換):
=SUBSTITUTE(SUBSTITUTE(A2,"㈱","株式会社"),"(株)","株式会社")Step 4:電話番号形式統一
=SUBSTITUTE(SUBSTITUTE(A2,"-","")," ","")→ ハイフンなしの数字のみに統一
3. 品質チェック
- 重複確認:COUNTIF関数で2以上がないか
- 空白確認:COUNTBLANK関数
- 形式確認:LEN関数で文字数チェック