Universitat Rovira i Virgili

Defensa tesi doctoral de Damián Morales Sánchez

Durant el dematí del dimarts, 11 de juliol de 2023, es va celebrar a la Sala de Juntes del Campus Catalunya de la URV, la defensa de la tesi de doctorat: From White-Box Machine Learning to Fuzzy Logic for Automatic Gender Detection in Spanish Texts from Social Networks, presentada pel doctorand Damián Morales Sánchez. La tesi ha estat codirigida per la Dra. María Dolores Jiménez López, del Departament de Filologies Romàniques i el Dr. Antonio Moreno Ribas, del Departament d'Enginyeria Informàtica i Matemàtiques, tots dos de la Universitat Rovira i Virgili.

La tesi es va portar a terme en el marc del Programa de Doctorat en Estudis Humanístics de la Universitat Rovira i Virgili. El tribunal de la tesi va tenir com a president al Dr. Paolo Rosso de la Escuela Técnica Superior de Ingeniería Informática de la Universitat Politècnica de València, com a secretària a la Dra. Aïda Valls Mateu, de l'Escola Tècnica Superior d'Enginyeria (ETSE) de la URV i com a vocal a la Dra. Leonor Becerra Bonache, del Laboratoire d'Informatique et Systèmes, Departament of Computer Science, de la Universidad Aix-Marseille.

RESUM

Aquesta dissertació, emmarcada en l'àmbit de la sociolingüística computacional, explora l'ús de variables sociolingüístiques en models computacionals basats en Intel·ligència Artificial per a la detecció automàtica del gènere en textos escrits en espanyol.

El nostre interès resideix a dissenyar models computacionals basats en algorismes d'aprenentatge automàtic de caixa blanca i lògica difusa amb variables derivades de la sociolingüística.

Vam elaborar una caracterització del gènere basada en nivells lingüístics a partir de les publicacions emmarcades en l'àmbit de la llengua i el gènere, l'àrea de recerca de la comunicació mitjançant computadora i el gènere, i la sociolingüística computacional. Aquesta caracterització constitueix els fonaments de la nostra anàlisi experimental.

En l'anàlisi experimental, vam implementar l'algorisme Decision Tree amb variables ortogràfiques, morfològiques, lèxiques, sintàctiques, digitals i pragmàtic-discursives en el conjunt de dades PAN-AP-13 a fi d'identificar patrons sociolingüístics de gènere. A partir d'aquest primer experiment computacional, vam ampliar la nostra anàlisi a altres conjunts de dades i algorismes; concretament, vam explorar, més enllà del conjunt PAN-AP-13 i de l'algorisme Decision Tree, els conjunts de dades PAN-AP-15, PAN-AP-17, PAN-AP-18 i PAN-AP-19, i els algorismes Random Forest i XGBoost. Vam dissenyar 63 models a partir de les combinacions dels conjunts de variables. L'exactitud en la classificació dels models resultants, els quals no superaven les 160 variables lingüístiques, va ser del 70%.

Vam culminar l'anàlisi experimental amb una caracterització sociolingüística del gènere basada en 39 patrons organitzats per la seva robustesa.

La nostra proposta teòrica presenta 64 models difusos, dels quals 57 són models difusos assemblats. La sortida final d'aquests models va ser calculada amb l'esquema de vot majoritari. Segons els resultats, el model assemblat Ortogràfic, Lèxic, Sintàctic, Digital i Pragmàtic-Discursiu (OLSDP) va produir els millors resultats.

Els algorismes d'aprenentatge automàtic de caixa blanca i la lògica difusa, juntament amb les variables inspirades en la sociolingüística, han d'incorporar-se en la identificació automàtica del gènere a fi de dilucidar la complexa relació entre la llengua i el gènere.

Paraules clau: Sociolingüística; Aprenentatge automàtic; Gènere

Share

  • Twitter
  • Google+
  • Facebook
  • Linkedin

Up