Nama : Didit Hariyadi
Kelas : 4IA17
NPM : 52410002
Big data, Map Reduce dan NoSQL
Pendahuluan
Latar Belakang
Akhir-akhir
ini, istilah ‘big data’ menjadi topik yang dominan dan sangat sering dibahas
dalam industri IT. Banyak pihak yang mungkin heran kenapa topik ini baru
menjadi pusat perhatian padahal ledakan informasi telah terjadi secara
berkelangsungan sejak dimulainya era informasi. Perkembangan volume dan jenis
data yang terus meningkat secara berlipat-lipat dalam dunia maya Internet
semenjak kelahirannya adalah fakta yang tak dapat dipungkiri. Mulai data yang
hanya berupa teks, gambar atau foto, lalu data berupa video hingga data yang
berasal system pengindraan. Lalu kenapa baru sekarang orang ramai-ramai
membahas istilah big data? Apa sebenarnya ‘big data’ itu?
Beberapa
tahun belakangan ini, jika ditanyakan tentang apa yang sedang menjadi trend dalam
dunia Teknologi Informasi (TI), mungkin banyak yang akan menjawab "Cloud
Computing". Tetapi, sejak awal tahun 2011 muncul istilah "Big
Data" yang kemudian menarik perhatian banyak profesional maupun
pemerhati Teknologi Informasi. Sejauh ini, perusahaan-perusahaan terkemuka
telah memberdayakan infomasi dan data dengan beragam teknologi manajemen data
guna menunjang kemajuan bisnisnya. Sebagian besar telah menggunakantools seperti Data
Warehouse (DWH) maupun Business Intelligence (BI) serta
aplikasi manajemen harga dan penjualan lainnya sebagai alat pengolah data yang
mereka perlukan dalam aktifitas bisnis.
Tujuan
Tujuan Big Data adalah suatu sistem yang berfungsi untuk
memproses atau mengolah data yang berukuran sangat besar, misalnya dalam skala petabyte.
Isi
Big Data
Jika diterjemahkan secara mentah-mentah maka Big Data berarti suatu data dengan kapasitas yang
besar. Sebagai contoh, saat ini kapasitas DWH yang digunakan oleh
perusahaan-perusahaan di Jepang berkisar dalam skala terabyte. Namun, jika misalnya dalam suatu sistem
terdapat 1000 terabyte (1 petabyte) data, apakah sistem tersebut bisa
disebut Big Data?
Satu
lagi, Big Data sering dikaitkan dengan SNS (Social Network Service), contohnya Facebook. Memang benar Facebook memiliki
lebih dari 800 juta orang anggota, dan dikatakan bahwa dalam satu hari Facebook memproses sekitar 10 terabyte data. Pada umumnya, SNS seperti Facebook tidak menggunakan RDBMS(Relational DataBase Management System) sebagai software
pengolah data, melainkan lebih banyak menggunakan NoSQL. Lalu, apa kita bisa
menyebut sistem NoSQL sebagaiBig Data?
Dengan
mengkombinasikan kedua uraian diatas, dapat ditarik sebuah definisi bahwa Big Data adalah “suatu sistem yang menggunakan
NoSQL dalam memproses atau mengolah data yang berukuran sangat besar, misalnya
dalam skala petabyte“. Apakah definisi ini tepat?
Boleh dikatakan masih setengah benar. Definisi tersebut masih belum
menggambarkan Big Data secara
menyeluruh. Big Datatidak sesederhana itu,
Big
Data memuat arti yang lebih kompleks sehingga perlu definisi yang
sedikit lebih kompleks pula demi mendeskripsikannya secara keseluruhan. Big Data berarti suatu data dengan kapasitas yang besar. Sebagai contoh, saat ini kapasitas DWH yang digunakan oleh perusahaan-perusahaan di Jepang berkisar dalam skala terabyte. Namun, jika misalnya dalam suatu sistem terdapat 1000 terabyte (1 petabyte) data, apakah sistem tersebut bisa disebut Big Data? Satu lagi, Big Data sering dikaitkan dengan SNS (Social Network Service), contohnya Facebook. Memang benar Facebook memiliki lebih dari 800 juta orang anggota, dan dikatakan bahwa dalam satu hari Facebook memproses sekitar 10 terabyte data.
Pada
umumnya, SNS seperti Facebook tidak menggunakan RDBMS(Relational DataBase
Management System) sebagai software pengolah data, melainkan lebih banyak
menggunakan NoSQL. Lalu, apa kita bisa menyebut sistem NoSQL sebagai Big Data?
Dengan mengkombinasikan kedua uraian diatas, dapat ditarik sebuah definisi
bahwa Big Data adalah "suatu sistem yang menggunakan NoSQL dalam memproses
atau mengolah data yang berukuran sangat besar, misalnya dalam skala
petabyte". Big Data memuat arti yang lebih kompleks sehingga perlu
definisi yang sedikit lebih kompleks pula demi mendeskripsikannya secara
keseluruhan.
Fakta
menunjukkan bahwa bukan hanya NoSQL saja yang mampu mengolah data dalam skala
raksasa (petabyte). Beberapa perusahaan telah menggunakan RDBMS untuk
memberdayakan data dalam kapasitas yang sangat besar. Sebagai contoh, Bank of
America memiliki DWH dengan kapasitas lebih dari 1,5 petabyte, Wallmart Stores
yang bergerak dalam bisnis retail (supermarket) berskala dunia telah mengelola
data berkapasitas lebih dari 2,5 petabyte, dan bahkan situs auction (lelang)
eBay memiliki DWH yang menyimpan lebih dari 6 petabyte data. Oleh karena itu,
hanya karena telah berskala petabyte saja, suatu data belum bisa disebut Big
Data. Sekedar referensi, DWH dengan kapasitas sangat besar seperti beberapa
contoh diatas disebut EDW(Enterprise Data Warehouse) dan database yang
digunakannya disebut VLDB(Very Large Database).
Memang
benar, NoSQL dikenal memiliki potensi dan kapabilitas Scale Up (peningkatan
kemampuan mengolah data dengan menambah jumlah server atau storage) yang lebih
unggul daripada RDBMS. Tetapi, bukan berarti RDBMS tak diperlukan. NoSQL memang
lebih tepat untuk mengolah data yang sifatnya tak berstruktur seperti data teks
dan gambar, namun NoSQL kurang tepat bila digunakan untuk mengolah data yang
sifatnya berstruktur seperti data-data numerik, juga kurang sesuai untuk
memproses data secara lebih detail demi menghasilkan akurasi yang tinggi. Pada
kenyataannya, Facebook juga tak hanya menggunakan NoSQL untuk memproses
data-datanya, Facebook juga tetap menggunakan RDBMS. Lain kata, penggunaan
RDBMS dan NoSQL mesti disesuaikan dengan jenis data yang hendak diproses dan
proses macam apa yang dibutuhkan guna mendapat hasil yang optimal.
MapReduce
MapReduce
adalah model pemrograman rilisan Google yang ditujukan untuk memproses data
berukuran raksasa secara terdistribusi dan paralel dalam cluster yang terdiri
atas ribuan komputer. Dalam memproses data, secara garis besar MapReduce dapat
dibagi dalam dua proses yaitu proses Map dan proses Reduce. Kedua jenis proses
ini didistribusikan atau dibagi-bagikan ke setiap komputer dalam suatu cluster
(kelompok komputer yang salih terhubung) dan berjalan secara paralel tanpa
saling bergantung satu dengan yang lainnya.
Proses
Map bertugas untuk mengumpulkan informasi dari potongan-potongan data yang
terdistribusi dalam tiap komputer dalam cluster. Hasilnya diserahkan kepada
proses Reduce untuk diproses lebih lanjut. Hasil proses Reduce merupakan hasil
akhir yang dikirim ke pengguna. Dari definisinya, MapReduce mungkin terkesan
sangat ribet. Untuk memproses sebuah data raksasa, data itu harus
dipotong-potong kemudian dibagi-bagikan ke tiap komputer dalam suatu cluster.
Lalu proses Map dan proses Reduce pun harus dibagi-bagikan ke tiap komputer dan
dijalankan secara paralel. Terus hasil akhirnya juga disimpan secara
terdistribusi. Benar-benar terkesan merepotkan.
Beruntunglah,
MapReduce telah didesain sangat sederhana alias simple. Untuk menggunakan
MapReduce, seorang programer cukup membuat dua program yaitu program yang
memuat kalkulasi atau prosedur yang akan dilakukan oleh proses Map dan Reduce.
Jadi tidak perlu pusing memikirkan bagaimana memotong-motong data untuk
dibagi-bagikan kepada tiap komputer, dan memprosesnya secara paralel kemudian
mengumpulkannya kembali. Semua proses ini akan dikerjakan secara otomatis oleh
MapReduce yang dijalankan diatas Google File System.
NoSQL
NoSQL
adalah istilah yang dikenal dalam teknologi komputasi untuk merujuk kepada
kelas yang luas dari sistem manajemen basis data yang di identifikasikan dengan
tidak mematuhi aturan pada model sistem manajemen basis data relasional yang
banyak digunakan. NoSQL tidak seperti sistem basis data pada umumnya yang
menggunakan syntax SQL dalam pengoperasian nya dalam mengakses
sebuah database. Pada konsep NoSQL, untuk mengakses data pada database dapat
menggunakan object-oriented programming yang banyak digunakan oleh developer
pada saat ini.
Namun
begitu, metode ini masih kalah populer dengan metode SQL biasa. Hanya untuk
kebutuhan yang khusus ada perusahaan yang menggunakannya. Walaupun begitu NoSQL
dapat menjadi alternatif lain untuk pengaksesan sebuah database. Salah satu
produk yang menyediakan NoSQL yang saya ketahui adalah MongoDB. Saya rasa
produk ini populer di kalangan depelover yang menggunakan NoSQL.
Kesimpulan
Dari
uraian diatas, dapat disimpulkan bahwa yang big data bukanlah hanya soal ukuran, bukan hanya tentang data yang berukuran raksasa.
Big data adalah data berukuran raksasa yang volumenya terus bertambah, terdiri
dari berbagai jenis atau varietas data, terbentuk secara terus menerus dengan
kecepatan tertentu dan harus diproses dengan kecepatan tertentu pula. Lalu Map
Reduce danNoSQL (Not Only SQL) adalah sebuah pemogramaan framework guna untuk
membantu user mengembangankan sebuah data yang ukuran besar dapat terdistribusi
satu sama lain.
Daftar Pustaka
· http://romydjuniardi.blogspot.com/2013/05/map-reduce-dan-nosql.html
· http://vijjam.blogspot.com/2013/12/memahami-definisi-big-data.html
· http://www.komputasiawan.com/python/map-reduce
· http://vijjam.blogspot.jp/2013/02/mapreduce-besar-dan-powerful-tapi-tidak.html
2 komentar:
Hello.. I am from 401XD Group :)
I have some information for you about this:
big data companies
and
tutorial amazon web service
WynnBET New York - Casino, Resort, Spa, Dining, & More
Join us 당진 출장안마 for a night of quality at WynnBET New York. Experience unparalleled travel and entertainment 이천 출장샵 at 상주 출장샵 Wynn. Book your 진주 출장안마 stay today, 남원 출장샵 enjoy exclusive
Posting Komentar