●このページで解説する内容
・データベース構築の工程:
①対象業務の分析→②データ項目の洗い出し→③表の作成→④レコードの挿入
・データクレンジング:データベースの不適切な箇所の削除や修正をすること
・データベース構築の工程:
①対象業務の分析→②データ項目の洗い出し→③表の作成→④レコードの挿入
・データクレンジング:データベースの不適切な箇所の削除や修正をすること
データベース構築の工程とは?

データベースの構築の工程は、主に次の4つの工程からなります。
●データベース構築の工程
①対象業務の分析
②データ項目の洗い出し
③表の作成
④レコードの挿入
①対象業務の分析
②データ項目の洗い出し
③表の作成
④レコードの挿入
例えば、「①対象業務の分析」の工程で、「企業において社員の所属組織をデータベースで管理する」という目的を考えます。
「②データ項目の洗い出し」では、目的を達成するためのデータ項目として、「社員番号」とそれに紐づく「社員名」、更に「支店番号」と「支店名」といったデータ項目を洗い出すことができます。
「③表の作成」では、洗い出したデータ項目を表として整理します。
最後に、「④レコードの挿入」でレコード(データ)を入力していきます。
このように、「①対象業務の分析」→「②データ項目洗い出し」→「③表の作成」→「④レコード(データ)挿入」の工程によって、業務の目的達成に必要なデータベースを構築できます。
データクレンジングとは?
データクレンジングとは、データベースの不適切な箇所(重複、誤記、表記の揺れ等)の削除や修正をすることです。データベースに不適切な箇所があると、期待通りのデータ分析ができないので、事前にデータクレンジングを行います。
※cleansing:清潔にする、洗う
例えば、下の表のデータクレンジングを考えてみます。
-800x450.png)
●不適切な箇所
・2行目:社員番号「0001」のレコードが重複
・3行目:支店名「神奈河」が誤記
・4行目:社員番号「3」が表記揺れ
・2行目:社員番号「0001」のレコードが重複
・3行目:支店名「神奈河」が誤記
・4行目:社員番号「3」が表記揺れ
データクレンジングにより、データベースの不適切な箇所が削除、修正をした結果が次の表です。
-800x450.png)
このように、不適切な箇所を修正・削除し、データ分析に適したデータベースにすることがデータクレンジングになります。
【まとめ】データベース構築とデータクレンジング
それでは最後におさらいをしておきましょう!
用語 | 説明 |
---|---|
データベース構築の工程 | ①対象業務の分析 ②データ項目洗い出し ③表の作成 ④レコード挿入 |
データクレンジング | データベースの不適切な箇所の削除や修正をすること |
コメント