Data Quality
Nama : L.Efendi
NIM : 11.41010.0211
Tugas : Pertemuan 8 [ MK Data Warehouse ]
Data
Quality Critical
Why Is Data Quality
So Critical?
• Meningkatkan
kepercayaan diri dalam
pengambilan keputusan
• Memperbaiki
pelayanan kpd Customer
• Meningkatkan
kesempatan untuk menghasilkan value
yang lebih baik bagi pelayanan
• Mengurangi
resiko dari keputusan yang sifatnya berbahaya
• Mengurangi
biaya, terutama untuk pemasaran,
• Mengembangkan
strategi untuk pembuatan keputusan,
• Meningkatkan
produktivitas dengan memangkas beberapa proses
• Menghindari
efek komplikasi dari data yang terkontaminasi
Data Accuracy VS Data Quality
Data Accuracy
• Hal spesifik dari entitas secara akurat menggambarkan kejadian tersebut pada entitas
• Elemen data menentukan syarat dari
teknologi database
• Elemen data memenuhi kepada validation
constraints
• Elemen data individu mempunyai tipe data
yang benar
• Secara tradisional, berhubungan dengan
sistem operasional
Data Quality
• Data item benar2 cocok untuk tujuan yang
mana telah ditentukan oleh pengguna bisnis
• Konsep yang lebih luas berdasarkan
spesifikasi bisnis dari perusahaan
• Berhubungan tidak hanya dengan satu elemen
data, tetapi untuk sistem secara keseluruhan
• Bentuk dan isi elemen data yang konsisten
di seluruh sistem
• Pada dasarnya diperlukan sebuah data
warehouse perusahaan secara luas untuk pengguna bisnis
Indikator
Data Quality
•
Accuracy = data yang tersimpan nilainya
benar (nama cocok dengan
alamatnya)
• Domain Integrity = nilai attributnya
sesuai batasan yang diperkenankan (nilai attribut laki dan perempuan)
•
Data Type = Nilai data disimpan dalam
tipe data yang sesuai (data nama disimpan dengan tipe text)
•
Consistency = nilai sebuah field data
akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu
sama kodenya di setiap berkas lain)
•
Redundancy = tidak boleh ada data yang
sama disimpan di tempat yang berbeda dalam satu sistem
•
Completeness = Tidak ada nilai atribut
salah / hilang yang diberikan
dalam sistem
•
Duplication = tidak ada baris record yang
sama dalam satu sistem
• Conformance To Business Rules = sesuai
dengan aturan bisnis yang berlaku (di bank รจ loan balance = + or 0)
• Structural Definiteness = dapat didefinisikan
strukturnya (nama = firstname + middlename + lastname
•
Data
Anomaly = sebuah field
harus digunakan untuk tujuan yang telah ditentukan
•
Clarity=
Penamaan elemen data agar mudah
dimengerti oleh user
•
Timely= Data harus bersifat aktual
• Usefulness
= Setiap elemen data
dalam data warehouse harus memuaskan banyak kebutuhan dari koleksi user
Benefit of Improved Data Quality
• Analysis with
Timely Information
• Better Cutomer
Service
• Newer
Opportunities
• Reduced Cost and
Risk
• Improved
Productivity
• Reliable
Strategic Decision Making
Data Quality Challenges
- Sources of Data Pollution
- Validation Names and Addresses
- Costs of Poor Data Quality
Source of Data Pollution
• System Conversions
• Data Aging
• Heterogeneous System Integration
• Poor database design
• Incomplete information at data entry
• Input errors
• Internationalzation / Localization
• Fraud
• Lack of Policies
Validation Names and Addresses
Masalah yang melekat
ketika menginputkan nama-nama dan alamat-alamat :
• No
unique key
• Many
names on one lines
• One
name on two lines
• Name
and the address in a single line
• Personal
and company are mixed
• Different
addresses for the same person
• Different
names and spelling for the same customer
Costs of
poor Data Quality
• Biaya
implementasi konsep Data Quality mahal dan membutuhkan usaha yang besar
Data Quality
Tools
• Berisi
algoritma untuk mengurai, mengubah, mencocokan, mengkonsolidasi, dan
memperbaiki data
• Ada
2 cara untuk melakukan pembersihan data agar dapat meningkatkan kualitas data :
1.
Data Error Discovery -> to identify
inaccuracies and inconsistencies
2.
Data Correction -> to help fix the
corrupt data
Data Error Discovery meliputi fungsi :
• Mengidentifikasi
duplikasi record dengan cepat dan mudah
• Mengidentifikasi
item data yang nilai-nilainya di luar jarak dari nilai legal domain
• Menemukan
inkonsistensi data
• Memeriksa
jarak dari nilai yang diijinkan
• Mendeteksi
inkonsistensi antar item-item data dari sumber yang berbeda
• Mengijinkan
user untuk mengidentifikasi dan mengukur masalah kualitas data
• Memantau
tren kualitas data dari waktu ke waktu
• Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis
• Memperbaiki
masalah dari referential integrity dari DBMS
Data Correction
meliputi fungsi :
• Menormalkan
inkonsistensi data.
• Meningkatkan
penggabungan data dari sumber data yang berbeda.
• Mengelompokkan dan menghubungkan data data customer yang memiliki “rumah” yang sama.
• Memberikan
pengukuran bagi kualitas data.
• Memvalidasi
nilai – nilai yang diijinkan.
Data
Quality Initiatives
Pertanyaan dasar
sebelum berinisiatif menerapkan Data
Cleansing :
• Which
data to cleanse?
• Where
to cleanse?
• How
to cleanse?
• How
to discover the extent of data pollution?
• Setting
up a Data Quality Framework
Kesimpulan
• Data Quality adalah hal yang sgt kritis
karena dapat meningkatkan kepercayaan diri data, memungkinkan pelayanan
customer menjadi lebih baik, meningkatkan pengambilan keputusan stratejik, dan
mengurangi risiko dari keputusan rawan.
• Dimensi Data Quality meliputi accuracy,
domain integrity, consistency, completeness, structural definiteness, clarity,
dll.
•
Data Quality dihasilkan dari berbagai
sumber dalam sebuah data warehouse dan berbagai sumber polusi yang mengintensifkan tantangan yang dihadapi ketika mencoba untuk
membersihkan data.
•
Buruknya
kualitas data nama dan alamat memberikan keprihatinan serius kepada organisasi. Daerah ini adalah salah satu tantangan terbesar
dari Data Quality.