La curva de aprendizaje, parte 2: Cómo crear una IA para diversos dialectos

Historias del Medio Oriente sobre la complejidad de crear herramientas de inteligencia artificial para el árabe, un idioma con muchas facetas

Galaxy AI es compatible con 16 idiomas, lo que ayuda a más personas a reducir las barreras lingüísticas con la traducción en tiempo real y en el dispositivo. Samsung abrió la puerta a una nueva era de la IA móvil, por lo que estamos visitando los centros de investigación de Samsung en todo el mundo para aprender cómo nació Galaxy AI y lo que se necesitó para superar los desafíos del desarrollo de la IA. Mientras que la primera parte de la serie examina la tarea de determinar qué datos se necesitan, esta segunda entrega analiza la compleja tarea de contabilizar los dialectos.

Enseñar un idioma a un modelo de IA es un proceso complejo, pero ¿qué pasa si no es un idioma singular, sino una recopilación de diversos dialectos? Ese fue el desafío que enfrentó el equipo de Samsung I+D Institute Jordan (SRJO). Si bien se agregó el «árabe» como una opción de idioma para funciones de Galaxy IA como Live Translate, el equipo tuvo que atender a los diversos dialectos árabes que abarcan el Oriente Medio y el norte de África, cada uno de los cuales varía en pronunciación, vocabulario y gramática.

El árabe es uno de los seis idiomas más hablados en todo el mundo y lo utilizan a diario más de 400 millones de personas. El idioma se clasifica en dos formas: Fus’ha (árabe moderno estándar) y Ammiya (los dialectos del árabe). Fus’ha se utiliza típicamente en eventos públicos y oficiales, así como en las transmisiones de noticias, mientras que Ammiya es más común en las conversaciones cotidianas. Más de 20 países utilizan el árabe, y actualmente existen alrededor de 30 dialectos en la región.

E:\Download\AI leadership\008. 언어확산\002. 연구소 취재\002. Jordan\SRJO team member photos\all Task leaders.jpg

Reglas no escritas

El equipo del SRJO, consciente de las variantes que presentan estos dialectos, empleó una serie de técnicas para discernir y procesar los rasgos lingüísticos únicos inherentes a cada uno de ellos. Este enfoque fue crucial para garantizar que Galaxy AI pudiera comprender y responder de una manera que reflejara con precisión los matices regionales.

«A diferencia de otros idiomas, la pronunciación del objeto en árabe varía en función del sujeto y el verbo de la frase», explica Mohammad Hamdan, jefe de proyecto del equipo de desarrollo del idioma árabe. «Nuestro objetivo es desarrollar un modelo que comprenda todos estos dialectos y pueda responder en árabe estándar».

TTS es el componente de la función Live Translate de Galaxy AI que permite a los usuarios interactuar con personas de diferentes idiomas traduciendo palabras habladas a texto escrito y luego reproduciéndolas por voz. El equipo de TTS enfrentó a un reto único, causado por una peculiaridad de trabajar con árabe.

E:\Download\AI leadership\008. 언어확산\002. 연구소 취재\002. Jordan\SRJO team member photos\TTS part.jpg

El árabe utiliza signos diacríticos, que son guías para la pronunciación de palabras en algunos contextos, como textos religiosos, poesía y libros para estudiantes de idiomas. Los diacríticos son ampliamente comprendidos por los parlantes nativos, pero están ausentes en la escritura cotidiana. Esto dificulta que una máquina convierta texto sin formato en fonemas, las unidades básicas de sonido que forman el habla.

«Hay una escasez de conjuntos de datos fiables y de alta calidad que representen con precisión cómo se utilizan correctamente los signos diacríticos», explica Haweeleh. «Tuvimos que diseñar un modelo neuronal que pudiera predecir y restaurar los signos diacríticos faltantes con gran precisión».

Los modelos neuronales funcionan de forma similar a los cerebros humanos. Para predecir los diacríticos, un modelo necesita estudiar muchos textos árabes, aprender las reglas del idioma y comprender cómo se usan las palabras en diferentes contextos. Por ejemplo, la pronunciación de una palabra puede variar mucho según la acción o el género que describa. La exhaustiva capacitación del equipo fue la clave para mejorar la precisión del modelo TTS árabe.

Mejorar la comprensión

El equipo del SRJO también tuvo que recopilar diversas grabaciones de audio de los dialectos procedentes de varias fuentes, que tuvieron que ser transcritas, centrándose en los sonidos, palabras y frases únicas. «Reunimos a un equipo de nativos en los dialectos que conocían bien los matices y variantes», dice Ayah Hasan, cuyo equipo se encargó de la creación de la base de datos. «Escuchaban las grabaciones y convertían manualmente las palabras habladas en texto».

E:\Download\AI leadership\008. 언어확산\002. 연구소 취재\002. Jordan\SRJO team member photos\Data - group.jpg

Este trabajo fue fundamental para mejorar el proceso de reconocimiento automático de voz (ASR) para que Galaxy AI pudiera manejar la variedad de dialectos árabes. ASR es fundamental para que Galaxy AI pueda comprender y responder en tiempo real.

«Construir un sistema ASR que admita múltiples dialectos en un único modelo es una tarea compleja», afirma Mohammad Hamdan, responsable de ASR en el proyecto. «Exige un conocimiento profundo de las complejidades del idioma, una cuidadosa selección de datos y técnicas avanzadas de modelado».

E:\Download\AI leadership\008. 언어확산\002. 연구소 취재\002. Jordan\SRJO team member photos\ASR - part.jpg

La culminación de la innovación

Tras meses de planificación, construcción y pruebas, el equipo estaba listo para lanzar el árabe como opción lingüística para Galaxy AI, lo que permitiría a muchas más personas comunicarse más allá de las fronteras. Este único equipo ha conseguido que los servicios de IA de Galaxy sean accesibles para los que hablan árabe, reduciendo las barreras lingüísticas y culturales entre ellos y las personas de todo el mundo. Al hacerlo, han establecido nuevas buenas prácticas que se pueden extender a todo el mundo. Este éxito es sólo el principio: el equipo sigue perfeccionando sus modelos y mejorando la calidad de las capacidades lingüísticas de Galaxy AI.

E:\Download\AI leadership\008. 언어확산\002. 연구소 취재\002. Jordan\인터뷰용 사진\0112.jpg

En el próximo episodio, iremos a Vietnam para ver cómo el equipo mejora los datos lingüísticos. Además, ¿qué se necesita para entrenar un modelo de IA eficaz?

El árabe es solo una parte de los idiomas y dialectos recientemente admitidos por Galaxy AI y que se pueden descargar desde la aplicación Ajustes. Las funciones lingüísticas de Galaxy AI, como Live Translate e Interpreter, están disponibles en los dispositivos Galaxy que ejecutan la actualización One UI 6.1 de Samsung.

[tds_leads input_placeholder="Ingresa tu correo electrónico" btn_horiz_align="content-horiz-center" f_title_font_family="507" title_color="var(--nft-custom-color-2)" f_title_font_size="eyJhbGwiOiIxOCIsInBvcnRyYWl0IjoiMTgiLCJsYW5kc2NhcGUiOiIyMCJ9" f_title_font_line_height="1" f_title_font_weight="600" f_title_font_spacing="0.5" msg_composer="" display="eyJwaG9uZSI6ImNvbHVtbiJ9" gap="eyJhbGwiOiIwIiwicGhvbmUiOiIxMiJ9" btn_text="Suscríbete al boletín" f_pp_font_family="507" f_pp_font_size="eyJhbGwiOiIxMyIsInBvcnRyYWl0IjoiMTEifQ==" f_btn_font_family="507" f_btn_font_size="eyJhbGwiOiIxNSIsInBvcnRyYWl0IjoiMTMifQ==" f_btn_font_line_height="1.2" f_btn_font_weight="900" f_btn_font_transform="uppercase" f_btn_font_spacing="0.5" f_input_font_family="507" f_input_font_spacing="0.5" f_input_font_weight="600" f_input_font_size="eyJhbGwiOiIxNSIsInBvcnRyYWl0IjoiMTMifQ==" f_input_font_line_height="1.2" f_msg_font_family="507" f_msg_font_size="eyJhbGwiOiIxMyIsInBvcnRyYWl0IjoiMTEifQ==" f_msg_font_weight="600" f_msg_font_spacing="0.5" msg_succ_radius="0" input_border="0" input_radius="0" btn_radius="0" tdc_css="eyJhbGwiOnsibWFyZ2luLWJvdHRvbSI6IjAiLCJwYWRkaW5nLWJvdHRvbSI6IjQwIiwiZGlzcGxheSI6IiJ9fQ==" input_color="#ffffff" input_place_color="#ffffff" btn_bg="#ed36c8" btn_bg_h="#ffffff" pp_check_radius="50" pp_check_square="var(--nft-custom-color-1)" pp_check_border_color="#ffffff" pp_check_border_color_c="#ffffff" pp_check_color="var(--nft-custom-color-2)" f_pp_font_weight="600" title_space="eyJhbGwiOiIyNSIsInBvcnRyYWl0IjoiMjAifQ==" msg_space="eyJwb3J0cmFpdCI6IjAgMCAxMnB4In0=" msg_err_radius="0" pp_check_bg="#ffffff" pp_check_bg_c="#ffffff" input_padd="eyJhbGwiOiIxOHB4IiwicG9ydHJhaXQiOiIxNXB4In0=" btn_padd="eyJhbGwiOiIxOHB4IDI1cHgiLCJwb3J0cmFpdCI6IjE1cHggMjBweCJ9" btn_color="#ffffff" btn_color_h="#000000" input_bg="#000000" btn_text_un="Date de baja" unsub_msg="JUMyJUExWWElMjBlc3QlQzMlQTFzJTIwc3VzY3JpdG8lMjBhJTIwZXN0ZSUyMGJvbGV0JUMzJUFEbiE="]

¡Comparte!

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Artículos relacionados

OSIPTEL: Bitel se consolida como la operadora con mayor aumento de velocidad de descarga 4G

La compañía registró un aumento del 14.75% respecto a...

¿Cuáles son los retos que afrontan los negocios frente al crecimiento de la IA Generativa?

IBM y CANVIA compartieron detalles sobre cómo la Inteligencia Artificial...

Cirion presenta DC Connect, la solución para conectividad entre Data Centers

Con más de 160 Data Centers interconectados, Cirion se...

Nubia Flip 5G, primer teléfono plegable de ZTE, llega al Perú

El smartphone está equipado con un mecanismo de doble...

Google Translate se expande e incorpora más de 100 idiomas de todo el mundo

Lima, 27 de junio de 2024.- Hoy, incorporamos al...

Claro reafirma su compromiso con la gestión sostenible por octavo año consecutivo

La empresa obtuvo el Distintivo Empresa con Gestión Sostenible,...