Sunday 11 September 2011

Pendahuluan Data Warehouse

Untuk orang yang sudah lama bergelut di bidang IT *duh...bahasanya* tentu sudah tidak asing dengan kata gudang data atau yang sering disebut juga data warehouse. Kali ini, aku mau mencoba memberikan sedikit materi tentang gudang data, terutama tentang konsep, arsitektur dan karakteristik gudang data. Silakan menyimak ^^


Umumnya, gudang data sering disebut sebagai kumpulan data yang saling terintegrasi alias terpisah. Atau, untuk lebih mudahnya gudang data itu sering disebut sebagai tempat penyimpanan berbagai data. Tapi, apa pernyataan itu sudah menjawab dengan jelas "apa itu gudang data?"
Menurut Inmon (Bapak Gudang Data), "a data warehouse is a subject oriented, integrated, time variant, non volatile collection of data in a support management's decision making process".
Jika diterjemahkan kurang lebih adalah sekumpulan data berorientasi subyek, terintegrasi dimana setiap unit dan data adalah non volatile dan relevan untuk waktu tertentu, yang didesain untuk mendukung sistem pengambilan keputusan.
Gudang data juga sering disebut sebagai tempat penampungan data dari berbagai sumber data. Apakah hal itu benar? Yup! Itu juga benar. Maka dapat dikatakan bahwa gudang data adalah kumpulan data dan tempat penampungan data. Bukan hal yang membingungkan kog. Coba bayangkan permen. Isi permen disebut permen tapi bungkus permen juga disebut permen. Isi permen adalah kumpulan data, bungkus permen adalah tempat penampungan data. Kira - kira seperti itu maksudnya.

Dari konsep diatas, sudah tampak perbedaan gudang data dengan SI (Sistem Informasi). Gudang data berorientasi subyek sedangkan SI berorientasi obyek. Maka, desain/GUI SI terlihat berorientasi obyek(lebih menekankan obyek, data yang digunakan/terdapat di SI). 
Karena gudang data berorientasi subyek, gudang data dapat mendukung sistem pengambilan keputusan. Mengapa? Karena sistem pengambilan keputusan dibangun berdasarkan kebutuhan user sehingga lebih menekan subyek daripada obyek seperti halnya gudang data. Hal ini, bisa juga dikatakan sebagai perbedaan SI biasa dengan sistem pengambilan keputusan.
Bagaimana dengan terintegrasi? Sudah jelas kan, jika gudang data itu kumpulan data. Informasi yang didapat berasal dari beberapa sumber data yang terpisah atau data saling terintegrasi.
Lalu time variant/waktu tertentu? Gudang data mengambil informasi dari sumber data dalam kurun waktu tertentu. Tahu cara kerja mesin atm? Data di mesin atm diupdate pada waktu malam hari ketika mesin atm jarang digunakan. Kira - kira seperti itulah gudang data. Kumpulan data dan informasi didalamnya diambil dalam waktu tertentu. 
Lalu bagaimana dengan non volatile? Informasi di gudang data disimpan dalam bentuk history, bukan tabel data atau sejenisnya. Akibatnya informasi di gudang data hanya bersifat read only dan tidak dapat diubah.

                                                                  contoh sumber data

                                                                contoh gudang data

Perhatikan bahwa pada gudang data menyimpan record dari sumber data bukan tabel datanya.

Selain konsep, perlu diperhatikan juga arsitektur dari gudang data. Ada 3 macam arsitektur gudang data :
1. Arsitektur dasar gudang data
Pengguna akhir langsung mengakses data yang berasal dari sistem melalui gudang data.
2. Arsitektur gudang data dengan staging area
Staging area digunakan untuk meringkas, membersihkan dan memproses data operasional sebelum dimasukkan ke dalam gudang data.

3. Arsitektur gudang data dengan staging area dan data mart
Jika staging area digunakan untuk meringkas, membersihkan dan memproses data operasional sebelum dimasukkan ke dalam gudang data, data mart digunakan untuk merancang garis bisnis tertentu. seperti gambar di bawah dimana purchasing, sales, dan invetory dipisahkan. Dalam contoh ini, seorang analis keuangan mungkin ingin menganalisis data historis untuk purchasing dan sales.

Gudang data memiliki beberapa karakteristik. Karakteristik - karakteristik gudang data, yaitu :
1. Berorientasi subyek
Diorganisir sesuai dengan permasalahan utama, seperti pelanggan, produk, penjualan. Berfokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau transaksi pemrosesan. Dengan kata lain, data diorganisasikan sesuai kebutuhan user.
2. Terintegrasi
Informasi dalam gudang data diambil dari sumber data yang terpisah. Kerancuan dalam hal penamaan dan nilai informasinya dihilangkan.
3. Time variant
Informasi dalam gudang data diambil dalam rangkaian waktu tertentu.
4. Non volatile
Informasi dalam gudang data bersifat read only dan tidak dapat diubah.
5. Summarized
Data operasional diringkas, kemudian dimapping ke dalam format untuk pengambilan keputusan.
6. Large volume
Ukuran datanya besar, karena pemeliharaan data dari waktu ke waktu.
7. Not normalized
Karena data yang diambil bukan data yang berbentuk 3NF(third normal form) atau tidak ternormalisasi dan berupa history, maka bisa terdapat data yang sama dalam gudang data. Sehingga terjadi redundant atau duplikasi data.
8. Metadata
Data mengenai data yang disimpan untuk user dan personil gudan data.
9. Data source
Data berasal dari sumber internal maupun eksternal.

sumber :
materi :
gambar :

No comments:

Post a Comment