Text segmentation by language

Robin Cabeza Ruiz

doi:10.18046/syt.v14i38.2289

Autores

Robin Cabeza Ruiz Universidad de Holguín

DOI:

https://doi.org/10.18046/syt.v14i38.2289

Palavras-chave:

Modelo oculto de Markov, segmentação de textos por idioma, processamento de linguagem natural.

Resumo

A segmentação de textos por idioma pode ser abordada de duas maneiras: a primeira, assumindo que as alterações da linguagem ocorrem apenas nos saltos entre as frases; e a segunda, partindo do princípio que o idioma pode mudar em qualquer parte do texto. Este trabalho apresenta métodos para segmentar ambos os tipos de textos por idioma. No primeiro caso, o texto é segmentado para analisar frases e, em seguida, identifica-se a língua de cada frase; a segunda proposta consiste na adaptação dos modelos ocultos de Markov à tarefa de segmentação de textos por idioma. O estado da arte é ultrapassado por ambas as propostas, de acordo com os resultados obtidos na experimentação realizada.

Biografia do Autor

Robin Cabeza Ruiz, Universidad de Holguín

Bachelor’s degree in Computer Science from Universidad de Oriente (2015) and student of Master in Design Assisted by Computer at the Universidad de Holguín [UHo], Cuba. Currently he is professor of programming and member of CAD/CAM Studies Center at the Faculty of Engineering of UHo, where he researches about biomechanical

Referências

Barron, A., Rissanen, J., & Yu, B. (1998). The minimum description length principle in coding and modeling. IEEE Transactions on Information Theory, 44(6), 2743-2760.

Bird, S. (2006, July). NLTK: the natural language toolkit. In Proceedings of the COLING/ACL on Interactive presentation sessions (pp. 69-72). Stroudsburg PA: Association for Computational Linguistics.

Blunsom, P. (2004). Hidden Markov models. Retrieved from: http://digital.cs.usu.edu/~cyan/CS7960/hmm-tutorial.pdf

Cabeza, R. (2015). Segmentación de textos por idiomas: utilizando modelos ocultos de Markov. Saarbrücken, Germany: EAE.

Ghahramani, Z. (2001). An introduction to hidden Markov models and bayesian networks. International Journal of Pattern Recognition and Artificial Intelligence, 15(01),9-42.

Juola, P. (1997). What can we do with small corpora? Document categorization via cross-entropy. Edinburgh, UK: University of Edinburgh.

Lui, M. & Cook, P. (2012). langid.py for better language modelling. In: Proceedings of Australasian Language Technology Association Workshop, Vol. 10 (pp. 107−112). Retrieved from:
http://www.alta.asn.au/events/alta2012/proceedings/pdf/U12-1.pdf

Lui, M. (2016). Langid.py [app]. Retrieved from: https://github.com/saffsd/langid.py

Lui, M., Lau, J. H., & Baldwin, T. (2014). Automatic detection and language identification of multilingual documents. Transactions of the Association for Computational Linguistics, 2, 27-40.

Rincón, L. (2012). Introducción a los procesos estocásticos. México, DF: UNAM. Available at: http://lya.fciencias.unam.mx/lars/Publicaciones/procesos2012.pdf

Vásquez, A. C., Quispe, J. P., & Huayana, A. M. (2009). Procesamiento de Lenguaje Natural. Revista de investigación de Sistemas e Informática, 6(2), 45-54.

Witten, I. H. & Bell, T. C. (1991). The zero-frequency problem: Estimating the probabilities of novel events in adaptive text compresion. IEEE Transactions on Information Theory, 37(40), 1085-1094.

Yamaguchi, H. & Tanaka-Ishii, K. (2012). Text segmentation by language using minimum description length. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1 (pp. 969-978). Stroudsburg, PA: ACL.

Segmentação de textos por idioma

Autores

DOI:

Palavras-chave:

Resumo

Biografia do Autor

Referências

Downloads

Publicado

Edição

Seção

Licença

Desenvolvido por

Idioma

Informações