Minggu, 15 November 2009

Komponen Data Warehouse


Komponen Data Warehouse

Bidang Data Warehouse pada dasarnya adalah apa yang perlu dilakukan untuk membuat Data Warehouse , dan apa yang dilakukan dengannya. Ini adalah proses membuat, mempopulasikan dan kemudian melakukan query pada data warehouse dan dapat melibatkan sejumlah teknologi diskrit seperti :

Identifikasi sistem sumber : untuk membangun data warehouse, data yang sesuai harus terlokasi dengan baik. Biasanya, hal ini akan melibatkan sistem OLTP (On-Line Transaction Processing) saat ini dimana informasi “hari ke hari” tentang bisnis berada, dan data historis periode sebelumnya, yang mungkin terkandung dalam beberapa bentuk “warisan” sistem. Seringkali sistem warisan ini bukan berbentuk database relasional, sehingga dibutuhkan banyak upaya untuk mengambil data yang sesuai.

Desain dan Penciptaan Data Warehouse : tahap ini menjelaskan proses perancangan warehouse, yang dengan hati-hati diambil untuk memastikan bahwa desain mendukung jenis query yang akan digunakan untuk warehouse. Ini adalah usaha yang memerlukan pemahaman baik itu skema database yang akan dibuat, dan banyaknya interaksi dengan komunitas pengguna. Desain seringkali merupakan proses yang berulang-ulang dan harus dimodifikasi beberapa kali sebelum model dapat distabilkan. Pada tahap ini dibutuhkan kehati-hatian, karena sekali model diisi dengan data dalam jumlah besar, beberapa di antaranya mungkin sangat sulit untuk diciptakan kembali, sedangkan model tidak dapat diubah dengan mudah.

Akuisisi Data : ini adalah proses perpindahan data perusahaan dari system sumber ke dalam warehouse. Dan seringkali proses yang paling memakan waktu dan biaya di dalam proyek data warehousing, dan dilakukan dengan produk perangkat lunak yang dikenal dengan ETL (Extract / Transform / Load) Tools. Saat ini ada lebih dari 50 jenis ETL Tools di pasaran. Fase akuisisi data ini bias memakan biaya yang sangat banyak dan waktu hinggga berbulan-bulan atau bahkan bertahun-tahun untuk menyelesaikannya. Akuisisi data kemudian berkelanjutan, proses yang dijadwalkan, yang mana dieksekusi untuk menjaga warehouse saat ini ke sebuah waktu dengan periode yang ditentukan. (yaitu penyegaran kembali warehouse setiap bulan).

Perubahan data tangkapan : pembaruan periodik warehouse dari sistem transaksional menjadi rumit dengan sulitnya mengidentifikasi data mana pada sumber yang telah berubah sejak update terakhir. Hal ini disebut sebagai “perubahan data capture”. Bidang ini menjadi sebuah bagian tersendiri dan banyak produk di pasaran untuk mengatasinya. Beberapa produk yang digunakan di bagian ini adalah Replication Server, Publish/Subscribe, Triggers and Stored Procedures, dan Database Log Analysis.

Pembersihan data : Hal ini biasanya dilakukan bersamaan dengan akuisisi data (dapat juga menjadi bagian dari “T” dalam “ETL”). Sebuah data warehouse yang berisi data yang tidak benar tidak hanya tidak berguna, tetapi juga bisa sangat berbahaya. Ide di balik pembuatan data warehouse adalah untuk memungkinkan pengambilan keputusan. Jika, keputusan tingkat tinggi dibuat berdasarkan data yang tidak benar di dalam warehouse, perusahaan dapat mengalami konsekuensi berat, atau bahkan kegagalan total. Pembersihan data adalah suatu proses rumit yang memvalidasi dan bila perlu mengoreksi data sebelum dimasukkan ke dalam warehouse. Sebagai contoh, sebuah perusahaan dapat memiliki tiga data “Nama Pelanggan” dalam berbagai sistem sumber, satu dimasukkan sebagai “IBM”, kemudian satu sebagai “I.B.M” dan yang terakhir sebagai “International Business Machines”. Jelas, ini semua adalah pelanggan yang sama. Seseorang di dalam organisasi harus membuat keputusan yang benar, dan kemudian alat pembersihan data akan mengubah yang lain agar sesuai dengan aturan. Proses ini juga disebut sebagai “data scrubbing” atau “penjaminan kualitas data”. Hal ini dapat menjadi sebuah proses yang sangat kompleks terutama jika beberapa input ke dalam warehouse berasal dari system file mainframe yang lebih tua (biasa disebut “flat file” atau “file sekuensial”)

Data Aggregation : adalah proses yang sering dilakukan selama fase “T” pada ETL. Data warehouse dapat dirancang untuk menyimpan data pada tingkat detail (setiap transaksi), pada beberapa tingkat agregat (data ringkasan), atau kombinasi keduanya. Keuntungan dari data yang diringkas adalah bahwa query khas terhadap warehouse dapat berjalan lebih cepat. Kelemahannya adalah bahwa informasi, yang mungkin diperlukan untuk menjawab query, hilang selama penggabungan. Trade off harus ditimbang dengan hati-hati, karena keputusan tidak dapat dibatalkan tanpa membangun kembali dan merepopulasi warehouse. Keputusan yang paling aman adalah dengan membangun warehouse dengan tingkat detail tinggi, tetapi dengan biaya yang sangat besar.

Setelah warehouse telah dibangun dan diisi dengan data, maka ada kemungkinan untuk mengekstrak informasi yang berarti dari warehouse tersebut yang akan memberikan keunggulan kompetitif dan laba dari investasi. Hal ini dilakukan dengan alat-alat yang masuk dalam kategori “Business Intelligence”.

Business Intelligence : sebuah bidang yang sangat luas. Mengandung teknologi seperti Decision Support System (DSS), Executive Information Systems (EIS), On-Line Analytical Processing (OLAP), Relational OLAP (ROLAP), Multi-Dimensional OLAP (MOLAP), Hybrid OLAP (HOLAP, kombinasi MOLAP dan ROLAP), dan banyak lagi. Business Intelligence dapat dibagi menjadi empat bidang :

  • Alat Analisis Multi-Dimensi : alat yang memungkinkan pengguna untuk melihat dari beberapa sudut yang berbeda. Alat ini sering menggunakan basis data multi-dimensi yang sering disebut sebagai “cube”.
  • Query Tools : alat yang memungkinkan pengguna untuk melakukan perintah SQL terhadap warehouse dan mendapatkan hasi yang diinginkan.
  • Data Mining Tools : peralatan yang secara otomatis mencari pola di dalam data. Alat ini biasanya dikontrol oleh rumus statistik yang kompleks. Cara termudah untuk membedakan data mining dari berbagai bentuk OLAP adalah OLAP hanya dapat menjawab pertanyaan yang pengguna tahu untuk bertanya, sedangkan data mining menjawab pertanyaan yang pengguna terlalu tahu untuk bertanya.
  • Data Visualization Tools : peralatan yang menunjukkan representasi grafis dari data, termasuk gambar data tiga-dimensi kompleks. Teorinya adalah bahwa pengguna dapat “melihat” trend lebih efektif dengan cara ini daripada ketika melihat grafik statistic yang kompleks. Beberapa vendor membuat kemajuan di bidang ini dengan menggunakan Virtual Reality Modeling Language (VRML).
  • Metadata Management : dalam seluruh proses mengidentifikasi, memperoleh, dan query data, pengelolaan metadata terjadi. Metadata didefinisikan sebagai “data mengenai data”. Sebagai contoh adalah sebuah tabel. Tipe data (misalnya sebuah string atau integer) dari kolom adalah salah satu bagian dari metadata, selain itu adalah nama kolom. Nilai actual di dalam kolom untuk baris tertentu bukanlah metadata, itu adalah data.metadata yang disimpan di dalam sebuah repository metadata dan memberikan informasi yang sangat berguna untuk semua alat-alat yang telah disebutkan sebelumnya. Manajemen metadata telah berkembang menjadi sebuah ilmu yang dapat memberikan keuntungan yang sangat besar bagi sebuah organisasi. Hal ini dapat membantu perusahaan di dalam menganalisis dampak perubahan pada tabel database, pelacakan pemilik elemen data individual (“data pelayan”), dan banyak lagi. Hal ini juga diperlukan untuk membangun warehouse, karena alat ETL perlu mengetahui atribut metadata dari sumber-sumber dan target dalam rangka untuk memetakan data dengan benar. Alat BI memerlukan metadata untuk alasan yang sama.

Ringkasan :

Data Warehousing adalah bidang yang kompleks. Kompleksitas teknologi dan interaksi antara berbagai alat-alat, dan poin harga tinggi untuk produk-produk yang dibutuhkan perusahaan untuk melakukan evaluasi teknologi sebelum memulai sebuah proyek pergudangan. Namun, potensi besar laba atas investasi dan keuntungan kompetitif membuat data warehousing menjadi sulit untuk diabaikan.


Tidak ada komentar:

Posting Komentar