Senin, 18 November 2013

Data  Quality

Nama   : L.Efendi
NIM    : 11.41010.0211
Tugas  : Pertemuan 8  [ MK Data Warehouse ]

Data Quality Critical
Why Is Data Quality So Critical?
       Meningkatkan kepercayaan diri dalam pengambilan keputusan
       Memperbaiki pelayanan kpd Customer
       Meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi pelayanan
       Mengurangi resiko dari keputusan yang sifatnya berbahaya
       Mengurangi biaya, terutama untuk pemasaran,
       Mengembangkan strategi untuk pembuatan keputusan,
       Meningkatkan produktivitas dengan memangkas beberapa proses
       Menghindari efek komplikasi dari data yang terkontaminasi

Data Accuracy VS Data Quality
Data Accuracy
       Hal spesifik dari entitas secara akurat menggambarkan kejadian tersebut pada entitas
       Elemen data menentukan syarat dari teknologi database
       Elemen data memenuhi kepada validation constraints
       Elemen data individu mempunyai tipe data yang benar
       Secara tradisional, berhubungan dengan sistem operasional

Data Quality
       Data item benar2 cocok untuk tujuan yang mana telah ditentukan oleh pengguna bisnis
       Konsep yang lebih luas berdasarkan spesifikasi bisnis dari perusahaan
       Berhubungan tidak hanya dengan satu elemen data, tetapi untuk sistem secara keseluruhan
       Bentuk dan isi elemen data yang konsisten di seluruh sistem
       Pada dasarnya diperlukan sebuah data warehouse perusahaan secara luas untuk pengguna bisnis

Indikator Data Quality
       Accuracy = data yang tersimpan nilainya benar (nama cocok dengan alamatnya)
  Domain Integrity = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki dan perempuan)
       Data Type = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
       Consistency = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
       Redundancy = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
       Completeness = Tidak ada nilai atribut salah / hilang yang diberikan dalam sistem
       Duplication = tidak ada baris record yang sama dalam satu sistem
   Conformance To Business Rules = sesuai dengan aturan bisnis yang berlaku (di bank è loan balance = + or 0)
   Structural Definiteness = dapat didefinisikan strukturnya (nama = firstname + middlename + lastname
       Data Anomaly = sebuah field harus digunakan untuk tujuan yang telah ditentukan
       Clarity= Penamaan elemen data agar mudah dimengerti oleh user
       Timely= Data harus bersifat aktual
     Usefulness = Setiap elemen data dalam data warehouse harus memuaskan banyak kebutuhan dari koleksi user

Benefit of Improved Data Quality
       Analysis with Timely Information
       Better Cutomer Service
       Newer Opportunities
       Reduced Cost and Risk
       Improved Productivity
       Reliable Strategic Decision Making

Data Quality Challenges
  1. Sources of Data Pollution
  2. Validation Names and Addresses
  3. Costs of Poor Data Quality

Source of Data Pollution
       System Conversions
       Data Aging
       Heterogeneous System Integration
       Poor database design
       Incomplete information at data entry
       Input errors
       Internationalzation / Localization
       Fraud
       Lack of Policies

Validation Names and Addresses
Masalah yang melekat ketika menginputkan nama-nama dan alamat-alamat :
       No unique key
       Many names on one lines
       One name on two lines
       Name and the address in a single line
       Personal and company are mixed
       Different addresses for the same person
       Different names and spelling for the same customer

Costs of poor Data Quality
       Biaya implementasi konsep Data Quality mahal dan membutuhkan usaha yang besar

Data Quality Tools
       Berisi algoritma untuk  mengurai, mengubah, mencocokan, mengkonsolidasi, dan memperbaiki data
       Ada 2 cara untuk melakukan pembersihan data agar dapat meningkatkan kualitas data :
1.       Data Error Discovery -> to identify inaccuracies and inconsistencies
2.       Data Correction -> to help fix the corrupt data

Data Error Discovery meliputi fungsi :
       Mengidentifikasi duplikasi record dengan cepat dan mudah
       Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain
       Menemukan inkonsistensi data
       Memeriksa jarak dari nilai yang diijinkan
       Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda
       Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data
       Memantau tren kualitas data dari waktu ke waktu
       Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis
       Memperbaiki masalah dari referential integrity dari DBMS

Data Correction meliputi fungsi :
       Menormalkan inkonsistensi data.
       Meningkatkan penggabungan data dari sumber data yang berbeda.
       Mengelompokkan dan menghubungkan data data customer yang  memiliki “rumah” yang sama.
       Memberikan pengukuran bagi kualitas data.
       Memvalidasi nilai – nilai yang diijinkan.

Data Quality Initiatives
Pertanyaan dasar sebelum berinisiatif menerapkan Data Cleansing :
       Which data to cleanse?
       Where to cleanse?
       How to cleanse?
       How to discover the extent of data pollution?
       Setting up a Data Quality Framework

Kesimpulan
   Data Quality adalah hal yang sgt kritis karena dapat meningkatkan kepercayaan diri data, memungkinkan pelayanan customer menjadi lebih baik, meningkatkan pengambilan keputusan stratejik, dan mengurangi risiko dari keputusan rawan.
     Dimensi Data Quality meliputi accuracy, domain integrity, consistency, completeness, structural definiteness, clarity, dll.
       Data Quality dihasilkan dari berbagai sumber dalam sebuah data warehouse dan berbagai sumber polusi yang mengintensifkan tantangan yang dihadapi ketika mencoba untuk membersihkan data.
       Buruknya kualitas data nama dan alamat memberikan keprihatinan serius kepada organisasi. Daerah ini adalah salah satu tantangan terbesar dari Data Quality.




Tidak ada komentar:

Posting Komentar