Framework de NLP

Analizador Morfológico Robusto

Realiza una disección analítica de las palabras basadas en formación flexiva, incluyendo la capacidad única de reconocer palabras parasintéticas, y en esos casos estima/predice los parámetros de corpus.

Posee una capacidad única de desambiguación y corrección ortográfica “en contexto” (lingüístico cercano, semántico lejano y también semántico externo) siendo esto último  completamente parametrizable.

Entrega no solo las palabras predichas como correctas (POS-Etiquetadas) sino puede incluir todo el paquete de palabras estimadas como alternativas con la probabilidad de cada estimación, incluyendo homófonos. Cada palabra estimada o resuelta incluye su frecuencia de corpus, inclusive cuando la palabra es estimada o es una conjugación infrecuente, y no se tiene esa información de fuentes confiables, posee un algoritmo de reconstrucción y estimación de las frecuencias de corpus.

Esta función de proporcionar múltiples acepciones y estimaciones, mejora notablemente las posibilidades de un análisis posterior mediante IA entrenada, puesto que no cercena información irrecuperable en las primeras etapas que luego puede resultar crucial.

El analizador se basa en un proceso de desagregado y re-unión analítico, yendo primero al detalle, desmembrando la oración y cada palabra para su análisis pormenorizado, y luego reagrupando esas partes conforme a probabilidades conjuntas y sus frecuencias de uso, haciendo aglutinación conforme detecte entidades del tipo multipalabra (locuciones, abreviaturas  y términos).

Incluye directivas para detectar falta de espacios entre palabras, muy frecuentes al escribir unidades “pegando” literalmente la abreviatura al número. También puede cortar palabas que considera que se “pegaron” y son frecuentemente vistas como separadas.

Si durante este proceso aparecen ambigüedades, y dependiendo de las probabilidades predichas, y el contexto pueden conservarse una, o más, y/o descartarse las de menor probabilidad o las locuciones o términos fuera de contexto, conforme a precisas directivas de configuración, las cuales son altamente flexibles.