Analizador Morfológico Robusto
Realiza una disección analítica de las palabras basadas en formación flexiva, incluyendo la capacidad única de reconocer palabras parasintéticas, y en esos casos estima/predice los parámetros de corpus.
Posee una capacidad única de desambiguación y corrección ortográfica “en contexto” (lingüístico cercano, semántico lejano y también semántico externo) siendo esto último completamente parametrizable.
Entrega no solo las palabras predichas como correctas (POS-Etiquetadas) sino puede incluir todo el paquete de palabras estimadas como alternativas con la probabilidad de cada estimación, incluyendo homófonos. Cada palabra estimada o resuelta incluye su frecuencia de corpus, inclusive cuando la palabra es estimada o es una conjugación infrecuente, y no se tiene esa información de fuentes confiables, posee un algoritmo de reconstrucción y estimación de las frecuencias de corpus.
Esta función de proporcionar múltiples acepciones y estimaciones, mejora notablemente las posibilidades de un análisis posterior mediante IA entrenada, puesto que no cercena información irrecuperable en las primeras etapas que luego puede resultar crucial.
El analizador se basa en un proceso de desagregado y re-unión analítico, yendo primero al detalle, desmembrando la oración y cada palabra para su análisis pormenorizado, y luego reagrupando esas partes conforme a probabilidades conjuntas y sus frecuencias de uso, haciendo aglutinación conforme detecte entidades del tipo multipalabra (locuciones, abreviaturas y términos).
Incluye directivas para detectar falta de espacios entre palabras, muy frecuentes al escribir unidades “pegando” literalmente la abreviatura al número. También puede cortar palabas que considera que se “pegaron” y son frecuentemente vistas como separadas.
Si durante este proceso aparecen ambigüedades, y dependiendo de las probabilidades predichas, y el contexto pueden conservarse una, o más, y/o descartarse las de menor probabilidad o las locuciones o términos fuera de contexto, conforme a precisas directivas de configuración, las cuales son altamente flexibles.
- El lematizador incluye 115240 lemas raíz, así como un total de 16908 Nombres Propios de Pila mayormente en español e inglés.
- Reconoce inflexiones combinando 1300 prefijos y 5100 sufijos cada uno con reglas específicas, conteniendo la mayor variedad conocida en un lematizador del español.
- Posee un poderoso analizador de abreviaturas, el cual maneja con éxito las fallas frecuentes tanto de puntuación usuales como de tamaño (casing: minúscula/mayúscula). Estos errores son muy frecuentes en abreviaturas, nombres propios y acrónimos y constituyen la mayor fuente de errores de etiquetado.
- El diccionario interno de abreviaturas además de las 1040 ‘oficiales’ de la RAE, se completó hasta un total de 5931 abreviaturas de diversos ámbitos.
- El manejo de locuciones y términos multipalabra cuenta con 88689 elementos, e incluye 6707 Nombres Propios pertenecientes a esas locuciones comunes, así como 11571 términos especiales, de entre los cuales 19560 poseen marcas diacríticas.
- Se reconocen independientemente un total de 1070 unidades internacionales con medidas métricas, inglesas y algunas otras. Internamente contiene en los modelos todas sus conversiones entre unidades, así como conversiones entre diversos tipos, las cuales están disponibles bajo el lenguaje de funciones del módulo DDL.
- Reconoce 121 Elementos Químicos, y posee la capacidad de reconocer un sub-sistema de nomenclatura química llamada IUPAC, pudiendo calcular peso y masa molecular de una fórmula cualquiera. Incluye 241 Fórmulas de productos químicos complejos de uso corriente, con un total 1931 Identificadores, dado que muchos de ellos tienen diversos nombres para el mismo producto, que implican 893 nombres de productos químicos comunes, los cuales reconoce ya sea a partir de su fórmula como de sus múltiples nombres. También reconoce isómeros químicos, totalizando 28 de ellos entre las fórmulas internas, usando una analogía del lema o raíz con el isómero totalizado por total absoluto de componentes individuales, y no por función.
- Reconoce 1106 unidades monetarias en inglés (dado que la mayoría se expresan en inglés) e incluye 999 nombres de unidades en español, todas las abreviaturas corresponden al formato ISO4127
- Incluye las 174 abreviaturas ISO-IANA de los dominios de internet.
- Las palabras por definición pueden tener diversas acepciones, y admiten múltiples etiquetas, de las cuales muchas son asignadas a partir de una ontología semántica propia de cerca de 500 categorías, muchas de ellas están lógicamente inter-relacionadas. Esto último permite una desambiguación natural, cercana y distante además de proporcionar indicios para todo aprendizaje automático posterior difícil de ser igualada con sistemas tipo word-embedding actuales, basado en palabras enteras, poseyendo mayor precisión y especificidad que los embeddings basados en caracteres.
- Su analizador sentimental maneja 10928 palabras raíz de las cuales conoce su composición según el algoritmo de Plutchik, reconociendo inclusive negaciones.
- Posee un Tesauro interno de 21762 verbos y sustantivos con 577540 relaciones.