Algoritma Stemming Enhanced CS Stemmer Untuk Dokumen Berita Bahasa Indonesia

Algoritma stemming Enhanced CS Stemmer. Proses ini berfungsi untuk mengubah bentuk dari suatu kata menjadi bentuk kata dasarnya. Proses perubahan bentuk ini akan menghilangkan kandungan imbuhan seperti awalan dan akhiran pada kata yang bersangkutan, sehingga diharapkan diperoleh bentuk dasarnya. Dalam proses ini digunakan kamus kata dasar untuk menambah tingkat ketelitian, dimana setiap kata yang akan dicari bentuk dasarnya di cek terlebih dulu di kamus. Apabila suatu kata ditemukan dalam kamus kata dasar maka keseluruhan proses selesai dan kata tersebut adalah kata dasar. Jika tidak ditemukan maka dilakukan penghapusan possessive pronoun, derivation prefix, derivation suffix, inflection particle dan recoding. Proses recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Sebagai contoh, pada kata “menangkap” setelah dipenggal menjadi “nangkap”. Karena tidak valid, maka recoding dilakukan dan menghasilkan kata “tangkap”. Jika setelah proses recoding gagal menemukan kata dasar maka dilakukan proses loopPengembalianAkhiran'

Proses Hilangkan Derivation Prefix
Proses ini berfungsi untuk menghilangkan derivation prefix seperti “di-”,“ke-”,“se-”,“me-”,“be-”,“pe”, “te-” dengan iterasi maksimum adalah 3 kali. Langkah 5 ini berhenti jika terjadi kombinasi imbuhan terlarang. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya dan tiga awalan telah dihilangkan. Selanjutnya tipe awalan diidentifikasi, jika tipe awalan standar: “di-”, “ke-”, “se-” maka awalan dapat langsung dihilangkan dari kata. Jika tipe awalan kompleks: “me-”, “be-”, “pe”, “te-” adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. untuk mendapatkan pemenggalan yang tepat.

Enhanced CS Stemmer

Enhanced CS Stemmer

Proses loopPengembalianAkhiran
Proses loopPengembalianAkhiran merupakan suatu langkah tambahan untuk mengatasi kesalahan pemenggalan akhiran yang seharusnya tidak dilakukan. Langkah ini dilakukan apabila proses recoding gagal. Pada akhir setiap langkah, dilakukan pemeriksaan ke kamus untuk menguji hasilnya. Langkah loopPengembalianAkhiran dideskripsikan sebagai berikut:

  1. Kembalikan seluruh awalan yang telah dihilangkan sebelumnya, sehingga menghasilkan model kata seperti berikut:
  2. [DP+[DP+[DP]]] + Kata Dasar lalu proses pemenggalan awalan dilakukan.
  3. Kembalikan akhiran sesuai dengan urutan model kata. Ini berarti bahwa pengembalian dimulai dari DS (“-i”, “-kan”, “-an”), lalu PP(“-ku”, “-mu”, “-nya”), dan terakhir adalah P (“-lah”, “-kah”, “-tah”, “-pun”). Pada setiap pengembalian, lakukan langkah 3) hingga 5) berikut. Khusus untuk akhiran “-kan”, pengembalian pertama dimulai dengan “k”, baru kemudian dilanjutkan dengan “an”.
  4. Lakukan pencarian di kamus. Apabila ditemukan, proses dihentikan. Apabila gagal, maka lakukan proses pemenggalan awalan.
  5. Lakukan recoding apabila diperlukan.
  6. Apabila pencarian di kamus tetap gagal setelah recoding, maka awalan-awalan yang telah dihilangkan dikembalikan seperti model kata pada langkah 1)

sumber lengkapnya disini saja Enhanced CS Stemmer

author
Linuxer | Blogger | Pencinta Kuliner | Suka Jalan2 | Pecandu sosial media
  1. author

    Khoiruddin5 years ago

    Masih belum paham2 gan…..
    baru denger.. hihi

    Reply
    • author
      Author

      fazza5 years ago

      di baca bolak-balik dan cari refrensi lain kalau kurang paham gan…
      semoga membantu 😀

      Reply

Leave a reply "Algoritma Stemming Enhanced CS Stemmer Untuk Dokumen Berita Bahasa Indonesia"

______Anti Spam____ * Time limit is exhausted. Please reload CAPTCHA.