Senin, 18 November 2013

Data  Quality

Nama   : L.Efendi
NIM    : 11.41010.0211
Tugas  : Pertemuan 8  [ MK Data Warehouse ]

Data Quality Critical
Why Is Data Quality So Critical?
       Meningkatkan kepercayaan diri dalam pengambilan keputusan
       Memperbaiki pelayanan kpd Customer
       Meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi pelayanan
       Mengurangi resiko dari keputusan yang sifatnya berbahaya
       Mengurangi biaya, terutama untuk pemasaran,
       Mengembangkan strategi untuk pembuatan keputusan,
       Meningkatkan produktivitas dengan memangkas beberapa proses
       Menghindari efek komplikasi dari data yang terkontaminasi

Data Accuracy VS Data Quality
Data Accuracy
       Hal spesifik dari entitas secara akurat menggambarkan kejadian tersebut pada entitas
       Elemen data menentukan syarat dari teknologi database
       Elemen data memenuhi kepada validation constraints
       Elemen data individu mempunyai tipe data yang benar
       Secara tradisional, berhubungan dengan sistem operasional

Data Quality
       Data item benar2 cocok untuk tujuan yang mana telah ditentukan oleh pengguna bisnis
       Konsep yang lebih luas berdasarkan spesifikasi bisnis dari perusahaan
       Berhubungan tidak hanya dengan satu elemen data, tetapi untuk sistem secara keseluruhan
       Bentuk dan isi elemen data yang konsisten di seluruh sistem
       Pada dasarnya diperlukan sebuah data warehouse perusahaan secara luas untuk pengguna bisnis

Indikator Data Quality
       Accuracy = data yang tersimpan nilainya benar (nama cocok dengan alamatnya)
  Domain Integrity = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki dan perempuan)
       Data Type = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
       Consistency = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
       Redundancy = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
       Completeness = Tidak ada nilai atribut salah / hilang yang diberikan dalam sistem
       Duplication = tidak ada baris record yang sama dalam satu sistem
   Conformance To Business Rules = sesuai dengan aturan bisnis yang berlaku (di bank è loan balance = + or 0)
   Structural Definiteness = dapat didefinisikan strukturnya (nama = firstname + middlename + lastname
       Data Anomaly = sebuah field harus digunakan untuk tujuan yang telah ditentukan
       Clarity= Penamaan elemen data agar mudah dimengerti oleh user
       Timely= Data harus bersifat aktual
     Usefulness = Setiap elemen data dalam data warehouse harus memuaskan banyak kebutuhan dari koleksi user

Benefit of Improved Data Quality
       Analysis with Timely Information
       Better Cutomer Service
       Newer Opportunities
       Reduced Cost and Risk
       Improved Productivity
       Reliable Strategic Decision Making

Data Quality Challenges
  1. Sources of Data Pollution
  2. Validation Names and Addresses
  3. Costs of Poor Data Quality

Source of Data Pollution
       System Conversions
       Data Aging
       Heterogeneous System Integration
       Poor database design
       Incomplete information at data entry
       Input errors
       Internationalzation / Localization
       Fraud
       Lack of Policies

Validation Names and Addresses
Masalah yang melekat ketika menginputkan nama-nama dan alamat-alamat :
       No unique key
       Many names on one lines
       One name on two lines
       Name and the address in a single line
       Personal and company are mixed
       Different addresses for the same person
       Different names and spelling for the same customer

Costs of poor Data Quality
       Biaya implementasi konsep Data Quality mahal dan membutuhkan usaha yang besar

Data Quality Tools
       Berisi algoritma untuk  mengurai, mengubah, mencocokan, mengkonsolidasi, dan memperbaiki data
       Ada 2 cara untuk melakukan pembersihan data agar dapat meningkatkan kualitas data :
1.       Data Error Discovery -> to identify inaccuracies and inconsistencies
2.       Data Correction -> to help fix the corrupt data

Data Error Discovery meliputi fungsi :
       Mengidentifikasi duplikasi record dengan cepat dan mudah
       Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain
       Menemukan inkonsistensi data
       Memeriksa jarak dari nilai yang diijinkan
       Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda
       Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data
       Memantau tren kualitas data dari waktu ke waktu
       Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis
       Memperbaiki masalah dari referential integrity dari DBMS

Data Correction meliputi fungsi :
       Menormalkan inkonsistensi data.
       Meningkatkan penggabungan data dari sumber data yang berbeda.
       Mengelompokkan dan menghubungkan data data customer yang  memiliki “rumah” yang sama.
       Memberikan pengukuran bagi kualitas data.
       Memvalidasi nilai – nilai yang diijinkan.

Data Quality Initiatives
Pertanyaan dasar sebelum berinisiatif menerapkan Data Cleansing :
       Which data to cleanse?
       Where to cleanse?
       How to cleanse?
       How to discover the extent of data pollution?
       Setting up a Data Quality Framework

Kesimpulan
   Data Quality adalah hal yang sgt kritis karena dapat meningkatkan kepercayaan diri data, memungkinkan pelayanan customer menjadi lebih baik, meningkatkan pengambilan keputusan stratejik, dan mengurangi risiko dari keputusan rawan.
     Dimensi Data Quality meliputi accuracy, domain integrity, consistency, completeness, structural definiteness, clarity, dll.
       Data Quality dihasilkan dari berbagai sumber dalam sebuah data warehouse dan berbagai sumber polusi yang mengintensifkan tantangan yang dihadapi ketika mencoba untuk membersihkan data.
       Buruknya kualitas data nama dan alamat memberikan keprihatinan serius kepada organisasi. Daerah ini adalah salah satu tantangan terbesar dari Data Quality.




Kamis, 10 Oktober 2013

Perancangan Data Logis dan Fisik

Nama   : L.Efendi
NIM    : 11.41010.0211
Tugas  : Pertemuan 6  [ MK Data Warehouse ]

Data logis
            Adalah bagaimana database dilihat dari tingkatan user.            
  
Data fisik
           Adalah bagaimana suatu data tersimpan secara fisik pada perangkat keras penyimpan (storage).

 >  OLTP (Online Transaction Processing)
 >  OLAP (Online Analytical Processing)
                      
Data Warehouse

Perancangan OLTP
     Data Logic Design
           Langkah:
              > ERD
              > Normalisasi

CDM

PDM

Perancangan Data Warehouse
      Data Logic Design
           Langkah:
               > ERD
               > Denormalisasi

CDM - Perpustakaan

Data Physical Design
   Langkah:
         > Pemodelan dimensional

Data physical design - Star Schema

Perancangan OLAP
     Data Logic Design
            Langkah:
                  > ERD
                  > Denormalisasi

Kesimpulan
Daftar Pustaka :


Selasa, 08 Oktober 2013

Prinsip - prinsip pemodelan dimensi

Nama   : L.Efendi
NIM    : 11.41010.0211
Tugas  : Pertemuan 5  [ MK Data Warehouse ]


Data Warehouse
            Data warehouse adalah basis data yang menyimpan data sekarang maupun data masa lalu yang berasal dari berbagai sistem operasional dan sumber yang lain (sumber eksternal) yang menjadi perhatian penting bagi manajemen dalam organisasi bahkan ditujukan untuk keperluan analisis dan pelaporan manajemen dalam rangka pengambilan keputusan.

            Data warehouse digunakan untuk mendukung pengambilan keputusan, bukan untuk melaksanakan pemrosesan transaksi.

Dimension Tables
˜ Merepresentasikan who, what, where, when and how of sebuah pengukuran/artifact.
˜ Merepresentasikan entities yang real, bukan proses bisnis.
˜ Memberikan konteks pengukuran (subject)

Data Multidimensi
˜ Data multidimensi adalah “ketika kita dapat melihat sebuah data dari berbagai sudut pandang atau dimensi”
˜ Sebagai contoh, penjualan buku dapat dilihat dari segi Buku, waktu, lokasi penjualan / toko dan sebagainya.

Conceptual Modeling of Data Warehouses
˜ Design harus mencerminkan multi dimensional view
o   Star Schema
o   Snowflake Schema
o   Fact Constellation Schema

Star Schema  ( 1 )



Star Schema ( 2 )


Star Schema ( 3 )



Star Schema ( 4 )



Star Schema ( 5 )



Star Schema
            Skema bintang merupakan struktuk logikal yang memiliki tabel fakta yang terdiri atas data faktual ditengahnya, dan dikelilingi oleh tabel-tabel dimensi yang berisi referensi data.

Jenis - jenis Star Schema
   ü  Skema bintang [Star Schema] sederhana
   ü  Skema bintang [Star Schema] dengan banyak table fakta

Keuntungan & Kerugian Star Schema
˜ Keuntungan :
o   Lebih simple
o   Mudah dipahami.
o   Hasil dari proses query juga relatif lebih cepat.
˜ Kerugian :
o   boros dalam space.

Snowflake Schema ( 1 )


Snowflake Schema ( 2 )


Snowflake Schema ( 3 )



Snowflake Schema ( 4 )



Snowflake Schema ( 5 )



Skema Snowflake
            Merupakan varian dari skema bintang dimana table-table dimensi tidak terdapat data yang di denormalisasi. Dengan kata lain satu atau lebih table dimensi tidak bergabung secara langsung kepada table fakta tapi pada table dimensi lainnya. Sebagai contoh, sebuah dimensi yang mendeskripsikan produk dapat dipisahkan menjadi tiga table (snowflaked)


Keuntungan & Kerugian Snowflake Schema
˜ Keuntungan  menggunakan  model  Snowflake
o   Pemakain space yang lebih sedikit
o   Update dan maintenance yang lebih mudah

˜ Kerugian  menggunakan  model  ini  yaitu :
o   Model lebih komplek dan rumit
o   Proses query lebih lambat
o   Performance yang kurang bagus


Combination  Star  Schema dengan Snowflake Schema
                        Keduanya merupakan model-model dimensional, perbedaannya terletak pada implementasi fisikal. Skema snowflake memberi kemudahan pada perawatan dimensi, dikarenakan strukturnya yang lebih normalisasi. Sedangkan skema bintang lebih efisien serta sederhana dalam membuat query dan mudah  diakses secara langsung oleh pengguna.


Star Schema dan SnowFlake Shema


            Adapun StarFlake merupakan gabungan diantara keduanya. Keuntungan menggunakan masing-masing model tersebut dalam data warehouse antara lain :
ü  Efisien dalam hal mengakses data
ü  Dapat beradaptasi terhadap kebutuhan-kebutuhan user
ü  Bersifat fleksibel terhadap perubahan yang terjadi khususnya perubahan yang mengarah pada  perkembangan
ü  Memiliki kemampuan dalam memodelkan situasi bisnis secara umum
ü  Meskipun skema yang dihasilkan sangat kompleks, tetapi pemrosesan query dapat diperkirakan, hal ini dikarenakan pada level terendah, setiap table fakta harus di query secara independen.
           
Gambar StarFlake Schema



Perbedaan Schema



Kesimpulan
                        Data warehouse merupakan suatu cara/metode dari suatu database yang berorientasi kepada subjek, non-volatile, time-variance dan terintegrasi yang digunakan untuk mempermudah para pengambil keputusan dalam memecahkan masalah.

                        Keberadaan data warehouse sangat penting sebagai tools dari DSS, karena data warehouse memang digunakan untuk itu. Dengan adanya data warehouse, diharapkan suatu perusahaan dapat lebih unggul dari kompetitornya dan lebih jeli lagi dalam melihat peluang pasar.


Sumber :

  1. Conolly,Thomas dan Begg Carolyn(2002). Database systems – A Practical Approach to Design, Implementation and Management, edisi-3. Addison Wesley Longman.Inc., USA       
  2. Fatansyah(2002). Buku Teks Ilmu Komputer – Basis Data, cetakan-4. Informatika
  3. Inmon, W.H.(2002). Building the Data Warehouse,edisi-3. Wiley Computer Publishing.
  4. Kimball,R.,Merz, R (1998). The Data Warehouse Lifecycle Toolkit. Expert Methods for Designing, Developing and Deploying Data Warehouses. Wiley Computer Publishing, Canada.
  5. Mcleod,Raymond(1996). Sistem Informasi Manajemen, Jilid-1. Terjemahan Teguh,H. PT. Prenhallindo, Jakarta.
  6. Nolan,Sean And Huguelet, Tom(2000).Microsoft SQL Server 7.0 Data Warehousing Training Kit. Microsoft Prees, USA
  7. Poe, Vidette(1998). Building Data Warehouse for Decision Support, edisi-2. Prentice Hall.