Minggu, 15 November 2009

Data Warehouse Gotchas

Artikel berikut akan sedikit menjelaskan tentang beberapa poin untuk pembangun data warehouse yang mungkin jarang sekali didiskusikan secara jelas di kebanyakan artikel tentang data warehousing.

Anda akan menghabiskan banyak sekali waktu untuk melakukan ekstraksi, pembersihan dan pemuatan data

Angka yang biasa dikutip adalah 80% dari waktu untuk pembangunan data warehouse akan dihabiskan pada bagian ini. (Tidak ada yang pernah menjelaskan bagaimana persentase ini didapat).Tapi, cukuplah untuk dikatakan, bahwa jumlah waktu dari proses kerja pada bagian ini seringkali diremehkan atau kurang diperhatikan. Sebagai catatan bahwa pada poin ini adalah tentang ekstraksi, pembersihan, dan pemuatan.Walaupun sudah banyak orang menyadari bahwa pembersihan data itu rumit, ekstraksi dan pemuatan data adalah sama dengan atau jika tidak lebih rumit.

Meskipun upaya terbaik pada manajemen proyek dilakukan, cakupan proyek akan semakin meluas

Dengan mengartikan data warehousing dari W.H. Inmon, proyek tradisional dimulai dengan syarat-syarat tertentu dan diakhiri dengan data. Proyek data warehousing dimulai dengan data dan diakhiri dengan syarat-syarat. Setelah pengguna data warehouse melihat apa yang dapat mereka lakukan dengan teknologi Y2K, mereka akan meminta lebih banyak. sedikit saran bagi pembangun data warehouse adalah jangan pernah menanyakan pada pengguna data warehouse informasi apa yang mereka butuhkan. Sebaliknya, tanyakan informasi apa yang diinginkan selanjutnya.

Anda akan menemukan masalah dengan sistem yang memberikan data pada data warehouse

Masalah yang belum terdeteksi selama bertahun-tahun akan muncul. Anda diharuskan utuk membuat keputusan apakah akan mengatasi masalah yang kita pikir adalah data warehouse 'read-only' atau memperbaiki sistem pengolah transaksi yang berjalan.

Anda akan menemukan kebutuhan untuk menyimpan data yang tidak terambil oleh sistem yang ada.

Masalah yang sangat umum adalah untuk menemukan kebutuhan untuk menyimpan data yang tidak disimpan di dalam sistem pengolah transaksi. Misalnya, ketika membangun data warehouse untuk laporan penjualan, seringkali ada kebutuhan untuk menyertakan informasi pada off-invoice adjustments yang tidak terekam di dalam sistem entry order. Dalam hal ini, pengembang data warehouse menghadapi kemungkinan untuk mengubah sistem pengolah transaksi atau membangun sistem yang khusus untuk menyimpan informasi yang kurang.

Anda harus memvalidasi data yang tidak divalidasi oleh sistem pengolah transaksi

Biasanya setelah data di dalam warehouse banyak ditemukan ketidak konsistenan dengan field yang berisi informasi deskriptif. Misalnya, beberapa kali tidak ada kontrol yang diletakkan pada nama pelanggan. Karena itu, anda dapat memiliki field dengan nama 'DEC', 'Digital', 'Digital Equipment' di dalam database yang sebenarnya berarti sama. Hal ini akan menimbulkan masalah bagi pengguna warehouse yang mengharapkan untuk melakukan permintaan pada database untuk menyeleksi nama pelanggan. Pengembang warehouse, sekali lagi, mungkin harus merubah sistem pengolah transaksi atau mengembangkan (atau membeli) teknologi penghapusan data.

Beberapa sistem pengolah transaksi tidak menyediakan data secara detail kepada data warehouse.

Masalah ini sering ditemui pada sistem data warehouse berorientasi produk atau pelanggan. Seringkali ditemukan bahwa sistem yang berisi informasi yang ingin dimasukkan perancang ke dalam data warehouse tidak mengandung informasi dasar untuk produk atau tingkat pelanggan. Hal ini yang oleh sebagian orang disebut masalah yang 'diberi'.

Anda akan kehabisan anggaran untuk sumber daya terampil untuk patform sistem yang berjalan.

Sebagai tambahan untuk memahami data dari sistem yang berjalan, anda dapat menemukan manfaat untuk membangun beberapa logika 'pembersih' pada platform sistem yang berjalan jika platform tersebut adalah mainframe. Seringkali pembersihan meliputi pengurutan / penggabungan dalam jumlah besar, tugas dimana pada utilitas mainframe unggul. Juga, anda mungkin menemukan bahwa anda ingin membangun agregrasi pada mainframe karena agregasi juga melibatkan banyak penyortiran substansial.

Banyak pengguna akhir warehouse akan dilatih dan jarang atau tidak pernah menerapkan hasil pelatihan.

Ada sebuah studi yang menyatakan bahwa hanya seperempat dari orang-orang yang mendapatkan pelatihan menjadi pengguna yang baik.Setelah pengguna akhir menerima query dan perangkat laporan, permintaan terhadap laporan tertulis IS dapat meningkat. Fenomena ini telah terlihat di banyak pusat-pusat informasi pada 1980-an. Hal ini muncul karena alat untuk melakukan query dan laporan memungkinkan pengguna untuk mendapatkan yang lebih baik daripada yang mampu dilakukan teknologi. Bagaimanapun, untuk banyak alasan para pengguna tidak dapat menggunakan alat-alat tersebut sendiri untuk menyadari potensinya. Dan dikarenakan banyak laporan yang sangat rumit sehingga keahlian dari IS akan sangat dibutuhkan tidak peduli alat apa yang dimiliki pengguna. Akhirnya, fenomena ini menjadi salah satu poin dari kebutuhan pelatihan.

Pengguna warehouse anda akan mengembangkan aturan bisnis yang berpotensi menghasilkan konflik

Banyak alat-alat data warehouse memungkinkan pengguna untuk melakukan perhitungan. Alat tersebut akan memungkinkan pengguna untuk melakukan perhitungan yang sama dengan cara yang berbeda. Misalnya, anda merangkum penjualan minuman berdasarkan kategori rasa. Juga misalkan bahwa kategori dari rasa termasuk cherry dan cola. Jika anda memiliki merk cherry cola maka ada kesempatan bahwa dua pengguna akan mengklasifikasikan merk tersebut menjadi dua kategori. Anda akan menemukan bahwa ada cara untuk memasukkan beberapa aturan bisnis ke dalam data warehouse. Bagaimanapun, jumlah dari aturan bisnis yang mungkin dimasukkan terlalu besar sehingga anda tidak mampu untuk memasukkan semua peraturan.

Pengguna data warehouse mungkin tidak tahu bagaimana menggunakan data

Setelah bertahun-tahun menggunakan laporan apapun yang telah mereka gunakan, pengguna mungkin tidak tahu data apa yang akan diambil menggunakan alat pendukung keputusan baru mereka. Menggunakan sebuah kata dari sosiologi, pengguna telah 'dikondisikan secara budaya' untuk menggunakan apa yang diberikan kepada mereka dan untuk tidak bertanya lebih banyak.

Data warehousing skala besar dapat menjadi 'latihan' di dalam penyeragaman data

Kadang-kadang ketika kita para pengembang menggabungkan data rinci untuk subyek berbeda, dalam usaha untuk membuat segalanya cocok kita harus sangat berhati-hati. Sebagai contoh, jika sebuah perusahaan menjual makanan hewan dan ban mobil, kita akan lebih berhati-hati dalam membangun database untuk penjualan untuk kedua lini bisnis. Kita harus membuat keputusan apakah bisnis ini sesuai dengan model logika atau fisik yang sama.

'Overhead' dapat memakan jumlah besar pada ruang penyimpanan

Cara yang populer untuk merancang sebuah database relasional pendukung keputusan adalah dengan skema star atau snowflake. sesorang yang menggunakan pendekatan ini biasanya juga membuat tabel agregasi fakta. Jika terdapat banyak dimensi untuk data, kita harus mengetahui bahwa kombinasi dari tabel agregasi dan indeks pada tabel fakta dan tabel agregasi fakta dapat memakan jumlah yang lebih besar daripada data mentah, jika kita menggunakan database multidimensional, perlu diketahui bahwa beberapa produk dihitung terlebih dahulu dan menyimpan data ringkasannya. seperti skema star / snowflake, penyimpanan dari data terkalkulasi ini dapat memakan tempat lebih banyak daripada data mentah.

Waktu yang dibutuhkan untuk membuka data warehouse akan semakin lama

Ada banyak pendekatan dalam melakukan update pada data warehouse. Sebelum kita memutuskan bahwa kita dapat melakukan update menyeluruh, kita harus menentukan waktu yang tepat untuk melakukan pembaharuan.


Kita akan memiliki masalah keamanan, terutama jika kita membuat data warehouse kita dapat diakses melalui web.


Kita akan menghadapi paradoks, semakin kita membuat mudah akses terhadap data warehouse, semakin besar resiko keamanan yang kita hadapi. Karena semakin banyak yang dapat melihat data yang ada. Salah satu cara mungkin dengan melakukan pembatasan terhadap jumlah pegawai yang dapat melakukan akses. Tapi, hal tersebut juga tidak terlalu

membantu, karena para pencuri data akan selalu menemukan jalan lain.


Tidak ada komentar:

Posting Komentar