データ品質なきDXは失敗する：製造現場のデータクレンジング実践

はじめに

「AIで品質予測をしたい」「ダッシュボードで生産実績をリアルタイム可視化したい」——製造DXの現場でよく聞く要望だ。しかしこれらの施策が失敗する根本原因のほとんどは、AIでも自動化でもなく「データが汚い」ことにある。

汚いデータでAIを学習させると、精度の低いモデルができる。汚いデータをダッシュボードに流すと、部門間で数字が合わない報告書ができる。「データ品質」は地味なテーマだが、製造DX成功の可否を決める最重要課題だ。

製造現場のデータ品質問題5種類

1. 品番の表記揺れ

同一の部品が「ABC-001」「ABC001」「ＡＢＣ－００１」（全角）「abc-001」（小文字）などと複数の表記で登録されているケース。調達・設計・生産管理で各部門が独自ルールで登録してきた結果だ。

影響： 在庫の二重計上、BOM照合エラー、発注重複。

2. 欠損値

検査記録の一部項目が未記入、工程実績の時刻が空白、担当者名が「—」や「未記入」になっているケース。紙帳票のOCR変換時や、任意入力フィールドの放置が原因になることが多い。

影響： 統計分析の対象外になる、トレーサビリティが途切れる。

3. 重複レコード

同一の検査実績が2回登録されている、受注が2件存在するケース。システム移行時の二重取込みや、手動で再入力した際の重複が典型的な原因だ。

影響： 生産実績の過大計上、在庫の不一致。

4. タイムスタンプ不整合

設備のログには「加工開始10:00、加工終了09:50」のように終了時刻が開始時刻より早くなっているケース、あるいは日付が1970年1月1日（Unix時間の初期値）になっているケース。PLCの時刻設定ミスや、タイムゾーン変換の誤りが原因になる。

影響： OEE計算の誤り、工程順序の逆転、時系列分析の破綻。

5. 部門間定義差異

「不良率」を品質部門は「出荷後クレーム件数÷出荷数」で計算し、製造部門は「工程内不良数÷製造数」で計算している——という状況。同じKPIなのに各部門で数字が異なり、経営報告で毎回議論になる。

影響： 報告書の信頼性低下、意思決定の遅延。

クレンジング優先順位の考え方

すべてを一度に直そうとすると、プロジェクトが長期化して途中で頓挫する。以下の順序で取り組むことを推奨する。

マスターデータを先に修正する

品番マスター、取引先マスター、工程マスターは、すべてのトランザクションデータが参照する基盤だ。ここが汚いとトランザクションのクレンジングをいくらやっても意味がない。まずマスターデータを1つの正規形に統一する（品番は半角英数字・ハイフン区切りなど）。

トランザクションデータは「使う範囲から」

過去5年分の検査データを全部クレンジングしようとすると、工数が膨大になる。「直近1年間の製造実績」「特定の設備の稼働ログ」など、最初に分析・活用する範囲に絞ってクレンジングを進める。

「完璧を待たずに始める」実践的アプローチ

データクレンジングは完了しない。新しいデータが毎日生成されるからだ。重要なのは「完璧なデータが揃うまで待つ」のではなく、「クレンジング済みのデータ範囲で成果を出しながら、範囲を広げる」サイクルを回すことだ。

具体的には：

月1回、データ品質レビューを実施する
新しいデータ入力フォームには入力規則を設定し、汚いデータが入らないように防ぐ
クレンジングツール（PythonのPandasや、Excelのデータ検証機能）を整備して、定期的に自動チェックを走らせる

データ品質スコアカードの作り方

データ品質を継続的に管理するために、4項目のスコアカードを設計する。

指標	定義	目標値
完全性	必須項目の入力率	≥98%
正確性	目視・システム照合で正しいと判定されたレコードの比率	≥95%
一貫性	同一エンティティが複数システムで同じ値を持つ比率	≥99%
適時性	規定時間内に更新されたレコードの比率	≥90%

月次でこの4指標を集計し、グラフで推移を可視化する。完璧を目指すのではなく、トレンドが改善していることを確認しながら進める。

まとめ

「データ品質なきDXは失敗する」——この原則を守るためのアクションをまとめると：

まずマスターデータの表記揺れ・欠損・重複を潰す
活用範囲のトランザクションデータをクレンジングする
完全性・正確性・一貫性・適時性の4指標でスコアカードを作り、月次でモニタリングする
新規入力フォームに入力規則を設けて、汚いデータが生まれない仕組みを作る

データ品質は一度改善すれば終わりではない。継続的に測定・改善するプロセスそのものをDXの一部と位置付けることが、長期的な成功の鍵だ。