CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION

Diah Pudi Langgeni, ZK Abdurahman Baizal, Yanuar Firdaus A.W.

Abstract


Meningkatnya penggunaan internet telah memicu pertumbuhan dan pertukaran informasi menjadi jauh lebih pesat dibandingkan era sebelumnya. Volume berita elektronik berbahasa Indonesia semakin bertambah besar dan menyimpan informasi yang berharga di dalamnya. Pengelompokkan berita berbahasa Indonesia merupakan salah satu solusi yang dapat digunakan untuk mempermudah mencerna informasi penting yang ada di dalamnya. Clustering dapat digunakan untuk membantu menganalisis berita dengan mengelompokkan secara otomatis berita yang memiliki kesamaan. Pada text clustering terdapat suatu permasalahan yaitu adanya fitur – fitur yang berdimensi tinggi. Diperlukan metode Feature selection untuk mengurangi dimensi fitur ini. Feature selection memiliki kemampuan mengurangi dimensionalitas suatu data sehingga dapat meningkatkan performansi clustering. Ada beberapa pendekatan sebagai teknik dari implementasi feature selection, salah satunya adalah filter based feature selection. Pada penelitian ini, dilakukan analisis perbandingan metode feature selection antara Term contribution dan Document Frequency. Metode-metode feature selection tersebut diterapkan secara filter feature selection. Pada akhir pengujian, dapat dibuktikan bahwa metode Term contribution lebih baik daripada Document Frequency karena memperhitungkan frekuensi kemunculan term pada suatu dokumen dan jumlah dokumen yang dimiliki term tersebut, sehingga term yang terpilih adalah term yang khas atau bersifat diskriminator. Hal ini dapat meningkatkan performansi clustering dokumen berdasarkan precision dan entropy.


References


Adiwijaya, Igg. (2006). Texi Mining dan Knowledge Discovery. Komunitas Data mining Indonesia & Soft-omputing Indonesia.

Chen Jinxiu, Ji,Tan, Unsupervised Feature Selection for Relation Extraction, National University of Singapore,2005

Dash Manorjan , Liu. Dimensionality Reduction. National University of Singapore. 1997

Dash Manorjan, Liu, Feature Selection for Clustering, PAKDD, 2000.

Devaney, M. & A. Ram. Efficient feature selection in conceptual clustering. In proceedings of the Fourteenth International Conference on Machine Learning, pages 92–97, 1997.

Franke J, Gholamreza Nakhaeizadeh, and Ingrid Renz. Text mining: Theoretical Aspects and Applications

Lerman, Kristina. (1999). Document Clustering in Reduced Dimension Vector Space.

Liu Huan & Lei Yu. (2005). Toward Integrating Feature Selection Algorithms for Classification and Clustering.

Liu, Liu, Chen, Ma, An Evaluation of feature selection for clustering, ICML Conference, 2003

Mark A. Hall and Llioyd A. Smith. Feature Subset Selection : A Correlation Based Filter Approach. University of Wakaito.

Salton, G. (1989). Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-wesley, Reading, Pennsylvania.

Tan, Pang-ning, Michael Steinbach, dan Vipin Kumar. 2006. Introduction to Data mining. Pearson education, Inc.

Tien Dung Do, Hui, Fong, Associative Feature Selection for Text mining, Nanyang Technological University,2006

Tokunaga, Takenobu. Iwayama, Makoto. (1994). Text Categorization based on Weighted Inverse Document Frequency.

Wibisono, Yudi., & Khodra, M. L. (2006). Clustering Berita Berbahasa Indonesia

Wiratunga Nirmalie, Lothian, Massie, Unsupervised Feature Selection for Text data , Proceedings of the 8th European Conference on Case-Based Reasoning,2006

Yang, Y., & Pedersen, J. O. (1997). A comparative study on feature selection in text categorization. Proc. of ICML- 97 (pp. 412-420).

Zexuan Zhu, Yew-Soon Ong, and Manoranjan Dash. Wrapper-Filter Feature Selection Algorithm Using A memetic Framework. Nanyang Technological University, Singapore


Refbacks

  • There are currently no refbacks.