Jumat, 29 September 2017

Tahap Reproresing Text Maining

Pengertian Text Maining yaitu,penerapan konsep dan tehnik data mining untuk mencari pola dalam texs, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk tujuan tertentu. sedangkan Text Preprocesing merupakan tahapan dari proses awal terhadap text untuk mempersiapkan teks menjadi data yang akan diolah lebih lanjut.

berikut ini proses penjelasan tahapan Text Preprocessing:

1.       1.  Tokenisasi
Tokenisasi adalah proses pemotongan sebuah dokumen menjadi bagian-bagian, yang disebut dengan token. Pada saat bersamaan token juga membuang beberapa karakter tertentu yang dianggap sebagai tanda baca.
1.       2.  Case-folding
Case-folding adalah proses penyamaan case dalam sebuah dokumen. Ini dilakukan untuk mempermudah pencarian.
Tidak semua dokumen teks konsisten dalam penggunaan huruf capital. Oleh kerena itu peran case-folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil).
1.       3.  Filtering
Filtering berguna untuk menghilangkan karakter-karakter yang dianggap tidak valid (karakter angka dan symbol)
1.       4.  Stop-word removal
Stopping atau stoplist removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen (Yates dan Nito, 1999).
Kata-kata yang termasuk stopword dihilangkan karena memberikan pengaruh tidak baik dalam pencarian dokumen yang dikehendaki user, seperti kata-kata “dan, dari, kemudian, yang, di, ke, aku, kamu, dia dan lain-lain.
1.       5.  Stemming
Stemming adalah suatu proses pengembalian suatu kata berimbuhan kebentuk dasarnya. Stemming adalah alat pemprosesan teks dasar yang sering digunakan untuk mendapat kinerja dan efektif dan efisien pada teks retrieval dan teks classification. Namun pada halnya stopping, kinerja stemming juga  bervariasi dan sering bergantung pada domain bahasa yang digunakan.





Contoh penerapan Text Maining dalam kehidupan sehari-hari

  • Information retrieval: pencarian dokumen
  • Klasifikasi dokumen: membagi dokumen ke dalam kelas-kelas yang telah ditentukan sebelumnya. Misalnya secara otomatis dapat menentukan apakah dokumen ini masuk ke dalam kategori politik, ekonomi, militer dan lain sebagainya.
  • Document Clustering: mirip dengan klasifikasi dokumen, hanya saja kelas dokumen tidak ditentukan sebelumnya. Misalnya berita tentang lalulintas dapat menjadi satu kelas dengan berita tentang kriminal karena didalamnya banyak memuat tentang orang yang tewas, cedera, rumah sakit dsb.
  • Peringkasan teks. Menghasilkan ringkasan suatu dokumen secara otomatis.
  • Ekstraksi informasi. Mengekstrak informasi yang dianggap penting dari suatu dokumen. Misalnya pada dokumen lowongan, walaupun memiliki format beragam dapat diekstrak secara otomatis job title, tingkat pendidikan, penguasaan bahasa dsb.



 

Rabu, 27 September 2017


1. Pastikan WEKA sudah terinstall dengan benar
2. Buka WEKA, pilih Explorer



3. Pilih Open File, Browse file yang sudah kita download atau ambil langsung data dari https://archive.ics.uci.edu/ml/index.php




4. Pilih file Chronic Kidney Disease (file yang disediakan untuk tugas ini)



5. Untuk Metode Naive Bayes, pilih Classify



6. Pilih Choose, pilih Naive, pilih Naive Bayes


7. Pilih Start




8. Data berhasil ditampilkan :