Sabtu, 30 November 2013

                      Data  Transformation  Services  ( DTS )  

Nama   : L.Efendi
NIM    : 11.41010.0211
Tugas  : Pertemuan 9 dan 10  [ MK Data Warehouse ]

DTS adalah :
    Seperangkat piranti / Tools yang digunakan untuk import, export dan transformasi data antara satu atau lebih sumber data
       Memindahkan data dari database OLTP ke Data Warehouse sesuai dengan tujuannya.
                                   
Transformasi data
       Proses Merubah bentuk data sehingga data siap untuk di analisis.
       proses menyaring dan merubah data mentah (raw data) hasil ekstraksi sesuai dengan kaidah bisnis yang berlaku.

Langkah-langkah Transformasi data
  Memetakan data input dari skema data aslinya ke skema data warehouse.
  Melakukan konversi tipe data atau format data.
  Penghitungan nilai-nilai derivat atau mula-mula.
  Penghitungan nilai-nilai agregat atau rangkuman.
  Pemeriksaan integritas referensi data.
  Pengisian nilai-nilai kosong dengan nilai default.
  Penggabungan data.

Data Transformation Services (DTS) Pada Microsoft SQL Server 2000
Menyediakan kumpulan graphical tools dan objek pemrograman yang berfungsi untuk :
  Perpindahan data
  Ekstrak data
  Transformasi
  penggabungan data
  hubungan berupa ODBC (Open Database Connectivity)

Tools untuk menciptakan dan mengeksekusi DTS packages
  Import/Export Wizard
Untuk membangun DTS packages sederhana, mensupport perpindahan data dan transformasi sederhana.
  DTS Designer
Mengimplementasikan DTS object model graphically yang memungkinkan user untuk menciptakan DTS packages dengan fungsi luas.


Tools untuk menciptakan dan mengeksekusi DTS packages (cont’d)
  DTSRun
Merupakan command prompt utility yang digunakan untuk mengeksekusi DTS packages yang ada.
  DTSRunUI
Merupakan grafik interface untuk DTSRun, yang juga mengijinkan pemakaian variable global dan command lines.
  SQLAgent
Bukan merupakan aplikasi DTS; meskipun demikian dapat juga digunakan oleh DTS untuk menjadwalkan pengeksekusian dari package.


Daftar Pustaka
  1. Gunawan, Arief Hamdani. 2004, Data Transformation Services (DTS) Pada Microsoft SQL Server 2000 , [online], (http://www.telkomrdcmedia.com/index.php?ch=8&lang=ind&s=3a48581d884be9d9516159f227586120&n=233)
  2. http://thesis.binus.ac.id/Doc/Bab2HTML/2008100363SIBab2/page29.html
  3. http://informatika.web.id/category/data-warehouse


Senin, 18 November 2013

Data  Quality

Nama   : L.Efendi
NIM    : 11.41010.0211
Tugas  : Pertemuan 8  [ MK Data Warehouse ]

Data Quality Critical
Why Is Data Quality So Critical?
       Meningkatkan kepercayaan diri dalam pengambilan keputusan
       Memperbaiki pelayanan kpd Customer
       Meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi pelayanan
       Mengurangi resiko dari keputusan yang sifatnya berbahaya
       Mengurangi biaya, terutama untuk pemasaran,
       Mengembangkan strategi untuk pembuatan keputusan,
       Meningkatkan produktivitas dengan memangkas beberapa proses
       Menghindari efek komplikasi dari data yang terkontaminasi

Data Accuracy VS Data Quality
Data Accuracy
       Hal spesifik dari entitas secara akurat menggambarkan kejadian tersebut pada entitas
       Elemen data menentukan syarat dari teknologi database
       Elemen data memenuhi kepada validation constraints
       Elemen data individu mempunyai tipe data yang benar
       Secara tradisional, berhubungan dengan sistem operasional

Data Quality
       Data item benar2 cocok untuk tujuan yang mana telah ditentukan oleh pengguna bisnis
       Konsep yang lebih luas berdasarkan spesifikasi bisnis dari perusahaan
       Berhubungan tidak hanya dengan satu elemen data, tetapi untuk sistem secara keseluruhan
       Bentuk dan isi elemen data yang konsisten di seluruh sistem
       Pada dasarnya diperlukan sebuah data warehouse perusahaan secara luas untuk pengguna bisnis

Indikator Data Quality
       Accuracy = data yang tersimpan nilainya benar (nama cocok dengan alamatnya)
  Domain Integrity = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki dan perempuan)
       Data Type = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
       Consistency = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
       Redundancy = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
       Completeness = Tidak ada nilai atribut salah / hilang yang diberikan dalam sistem
       Duplication = tidak ada baris record yang sama dalam satu sistem
   Conformance To Business Rules = sesuai dengan aturan bisnis yang berlaku (di bank รจ loan balance = + or 0)
   Structural Definiteness = dapat didefinisikan strukturnya (nama = firstname + middlename + lastname
       Data Anomaly = sebuah field harus digunakan untuk tujuan yang telah ditentukan
       Clarity= Penamaan elemen data agar mudah dimengerti oleh user
       Timely= Data harus bersifat aktual
     Usefulness = Setiap elemen data dalam data warehouse harus memuaskan banyak kebutuhan dari koleksi user

Benefit of Improved Data Quality
       Analysis with Timely Information
       Better Cutomer Service
       Newer Opportunities
       Reduced Cost and Risk
       Improved Productivity
       Reliable Strategic Decision Making

Data Quality Challenges
  1. Sources of Data Pollution
  2. Validation Names and Addresses
  3. Costs of Poor Data Quality

Source of Data Pollution
       System Conversions
       Data Aging
       Heterogeneous System Integration
       Poor database design
       Incomplete information at data entry
       Input errors
       Internationalzation / Localization
       Fraud
       Lack of Policies

Validation Names and Addresses
Masalah yang melekat ketika menginputkan nama-nama dan alamat-alamat :
       No unique key
       Many names on one lines
       One name on two lines
       Name and the address in a single line
       Personal and company are mixed
       Different addresses for the same person
       Different names and spelling for the same customer

Costs of poor Data Quality
       Biaya implementasi konsep Data Quality mahal dan membutuhkan usaha yang besar

Data Quality Tools
       Berisi algoritma untuk  mengurai, mengubah, mencocokan, mengkonsolidasi, dan memperbaiki data
       Ada 2 cara untuk melakukan pembersihan data agar dapat meningkatkan kualitas data :
1.       Data Error Discovery -> to identify inaccuracies and inconsistencies
2.       Data Correction -> to help fix the corrupt data

Data Error Discovery meliputi fungsi :
       Mengidentifikasi duplikasi record dengan cepat dan mudah
       Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain
       Menemukan inkonsistensi data
       Memeriksa jarak dari nilai yang diijinkan
       Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda
       Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data
       Memantau tren kualitas data dari waktu ke waktu
       Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis
       Memperbaiki masalah dari referential integrity dari DBMS

Data Correction meliputi fungsi :
       Menormalkan inkonsistensi data.
       Meningkatkan penggabungan data dari sumber data yang berbeda.
       Mengelompokkan dan menghubungkan data data customer yang  memiliki “rumah” yang sama.
       Memberikan pengukuran bagi kualitas data.
       Memvalidasi nilai – nilai yang diijinkan.

Data Quality Initiatives
Pertanyaan dasar sebelum berinisiatif menerapkan Data Cleansing :
       Which data to cleanse?
       Where to cleanse?
       How to cleanse?
       How to discover the extent of data pollution?
       Setting up a Data Quality Framework

Kesimpulan
   Data Quality adalah hal yang sgt kritis karena dapat meningkatkan kepercayaan diri data, memungkinkan pelayanan customer menjadi lebih baik, meningkatkan pengambilan keputusan stratejik, dan mengurangi risiko dari keputusan rawan.
     Dimensi Data Quality meliputi accuracy, domain integrity, consistency, completeness, structural definiteness, clarity, dll.
       Data Quality dihasilkan dari berbagai sumber dalam sebuah data warehouse dan berbagai sumber polusi yang mengintensifkan tantangan yang dihadapi ketika mencoba untuk membersihkan data.
       Buruknya kualitas data nama dan alamat memberikan keprihatinan serius kepada organisasi. Daerah ini adalah salah satu tantangan terbesar dari Data Quality.