Tahap
Reproresing Text Maining
Pengertian Text
Maining yaitu,penerapan konsep dan tehnik data mining untuk
mencari pola dalam texs, proses penganalisaan teks guna menemukan informasi
yang bermanfaat untuk tujuan tertentu. sedangkan Text Preprocesing merupakan
tahapan dari proses awal terhadap text untuk mempersiapkan teks menjadi data
yang akan diolah lebih lanjut.
berikut ini proses
penjelasan tahapan Text Preprocessing:
1. 1. Tokenisasi
Tokenisasi adalah proses
pemotongan sebuah dokumen menjadi bagian-bagian, yang disebut dengan token.
Pada saat bersamaan token juga membuang beberapa karakter tertentu yang
dianggap sebagai tanda baca.
1. 2. Case-folding
Case-folding adalah
proses penyamaan case dalam sebuah dokumen. Ini dilakukan untuk mempermudah
pencarian.
Tidak semua dokumen teks
konsisten dalam penggunaan huruf capital. Oleh kerena itu peran case-folding
dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu
bentuk standar (biasanya huruf kecil).
1. 3. Filtering
Filtering berguna untuk
menghilangkan karakter-karakter yang dianggap tidak valid (karakter angka dan
symbol)
1. 4. Stop-word
removal
Stopping atau stoplist
removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak
pada isi dokumen (Yates dan Nito, 1999).
Kata-kata yang termasuk
stopword dihilangkan karena memberikan pengaruh tidak baik dalam pencarian
dokumen yang dikehendaki user, seperti kata-kata “dan, dari, kemudian, yang,
di, ke, aku, kamu, dia dan lain-lain.
1. 5. Stemming
Stemming adalah suatu
proses pengembalian suatu kata berimbuhan kebentuk dasarnya. Stemming adalah
alat pemprosesan teks dasar yang sering digunakan untuk mendapat kinerja dan
efektif dan efisien pada teks retrieval dan teks classification. Namun pada
halnya stopping, kinerja stemming juga bervariasi dan sering bergantung
pada domain bahasa yang digunakan.
Contoh penerapan Text Maining dalam kehidupan sehari-hari
- Information retrieval: pencarian dokumen
- Klasifikasi dokumen: membagi dokumen ke dalam kelas-kelas yang telah ditentukan sebelumnya. Misalnya secara otomatis dapat menentukan apakah dokumen ini masuk ke dalam kategori politik, ekonomi, militer dan lain sebagainya.
- Document Clustering: mirip dengan klasifikasi dokumen, hanya saja kelas dokumen tidak ditentukan sebelumnya. Misalnya berita tentang lalulintas dapat menjadi satu kelas dengan berita tentang kriminal karena didalamnya banyak memuat tentang orang yang tewas, cedera, rumah sakit dsb.
- Peringkasan teks. Menghasilkan ringkasan suatu dokumen secara otomatis.
- Ekstraksi informasi. Mengekstrak informasi yang dianggap penting dari suatu dokumen. Misalnya pada dokumen lowongan, walaupun memiliki format beragam dapat diekstrak secara otomatis job title, tingkat pendidikan, penguasaan bahasa dsb.
Tidak ada komentar:
Posting Komentar