Saturday 13 December 2014

Data Mining

1. Pengertian Data Mining

Latar belakang lahirnya data mining karena banyak perusahaan-perusahaan/instansi yang mempunyai data yang besar (sampai Terabyte) misalnya perusahaan perbankan mempunyai data transaksi nasabahnya selama bertahun-tahun. Data sebanyak itu bisa dimanfaatkan oleh perusahaan tersebut untuk bebagai hal.
Jadi, apa itu data mining? Data mining merupakan sekumpulan proses yang digunakan untuk menggali informasi yang lebih dari sekumpulan data yang besar, yang sebelumnya tidak diketahui secara manual. Data mining meliputi kegiatan pengumpulan data, pemakaian data historis untuk menentukan pola keteraturan pada sebuah data.
Data mining berjalan dengan menggunakan ilmu database, kecerdasan buatan, machine learning, dan statistika. Semua metode ilmu tersebut diterapkan dalam data mining untuk mendapatkan sebuah pola khusus yang ada dari sebuah data. Pola-pola ini kedepannya bisa digunakan oleh perusahaan/instansi untuk berbagai hal, misalnya pengefektifan pemasaran, pengawasan, pendeteksi penipuan dan lain-lain.
Data mining berbeda dengan warehouse dan On-Line Analytical Processing (OLAP). Teknologi warehouse digunakan untuk OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang digunakan untuk seorang Data Analyst dan Business Analyst (dalam prakteknya data ware house juga digunakan). Data mining di oleh sedemikian rupa sehingga bisa menampilkan sebuah visual/tapmilan yang bisa dengan mudah dibaca dan digunakan oleh user.

2. Data Classification

Data classification merupakan sebuah data yang dihasilkan oleh metode classification pada data mining. Metode classification itu sendiri merupakan sebuah metode pengelompokan dari data-data yang sudah ada berdasarkan atribut dari data-data tersebut. . Sebagai contoh dari metode classification ini yaitu data pengelompokan pembeli motor berdasarkan umur, tempat tinggal dan lain-lain.
Cara kerja dari classification meliputi dua tahap, yaitu learning dan test. Pada tahap learning, sebagian data yang telah diketahui kelas datanya dibuat sebagai model perkiraan. Pada langkah kedua model yang sudah diperkirakan diuji dengan cara memasukkan data yang lainnya kepada data perkiraan awal. Apabila akurasi dari data model perkiraan mencukupi maka model itu dapat dipakai untuk memprediksi data yang lainnya.
Metode classification termasuk supervised learning (pembelajaran ‘terawasi’). Algoritma yang sering digunakan dalam metode classification ini diantaranya C4.5, CMAR, Naïve Bayes, K Nearest Neighbours dan algoritma yang penulis implemetasikan, CART.

3. Data Clustering

Berbeda dengan classification, clustering mengelompokan data tanpa berdasarkan data yang telah diketahui. Tetapi clustering dapat mengelompokan data berdasarkan kelompok data tertentu. Bahkan clustering ini mampu membuat sebuah label pada data yang belum diketahui. Pengelompokan data yang tidak diketahui terlebih dahulu kelas atau label datanya ini merupakan metode unsupervised learning (tidak ‘diawasi’).
Objek dari clustering adalah pendistribusian data ke dalam kelompok. Misalnya pengelompokan orang-orang, objek wisata dll. Data dimasukan kedalam satu kelompok berdasarkan tingkat kesamaan data yang ada dalam kelompok. Jika tingkat kesamaan tinggi maka data akan sekelompok, jika berbeda jauh maka data akan ditempatkan dibeda kelompok.

Dengan menggunakan data clustering, kita dapat melihat distribusi daerah yang padat, pola-pola distribusi data, dan keterkaitan atribut-atribut data satu dengan lainnya. Clastering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan secara multidimensi.
Algoritma dalam clustering mempunyai fungsi jarak untuk mengukur sejauh mana kemiripan data. Secara garis besar ada dua macam algoritma yang digunakan dalam clustering
1. Metode partisi, dimana setiap pengguna harus menentukan jumlah k partisi yang kemudian setiap data dites dimasukan ke dalam partisi sehingga tidak terjadi overlap dan satu data hanya memiliki satu cluster. Contoh algoritmanya K-Means.
2. Metode hierarki, pada metode ini setiap data memungkinkan untuk memiliki lebih dari satu cluster. Contoh algoritmanya adalah Agglomerative (FINDIT, PROCLUS), Divisive Hierarchical Clustering (CLIQUE, MAFIA, ENCLUE).

4. Contoh Aplikasi Data Classification dan Cluster

Contoh aplikasi dari data classification yaitu Document Classification, yaitu pengelompokan buku diperpustakaan. Buku-buku itu dikategorikan secara otomatis.
Contoh aplikasi dari data cluster adalah diimplementasikan untuk riset marketing (market research). Fungsinya untuk menyimpulkan segmentasi pasar, dan memahami lebih jauh relasi atau hubungan dari kelompok konsumen yang berbeda itu.

1 comment:

  1. permisi gan, saya baru saja menulis tentang fungsi autocorrelation untuk penentuan pola data time series apakah musiman, tren, atau stationer, di artikel berikut: http://datacomlink.blogspot.com/2015/12/data-mining-identifikasi-pola-data-time.html yang ingin saya tanyakan, apakah ada teknik lain untuk mencari pola data time series selain fungsi autocorrelation ya gan? terima kasih

    ReplyDelete