Digital Business & Future 03.04.2026

Calidad de los datos en las pymes: por qué la IA fracasa sin datos limpios

7 min de lectura

Los proyectos de inteligencia artificial fracasan, pero rara vez por la propia IA. En la mayoría de los casos, el problema se encuentra un nivel más abajo: en los datos. Quien invierta en IA generativa en 2026 sin haber verificado previamente la calidad de sus datos, desperdiciará presupuesto y perderá confianza en la tecnología.

La incómoda verdad: la mayoría de los datos no están listos para IA

Alemania está invirtiendo masivamente en inteligencia artificial. Según el estudio de Bitkom 2025, ya el 36 % de las empresas alemanas utiliza activamente IA – casi el doble que el año anterior -. Otro 47 % planea o está evaluando su implementación. Sin embargo, la euforia oculta un problema fundamental: los datos sobre los que deben basarse estos proyectos de IA en las pymes no están, en su mayor parte, preparados.

Una encuesta de Gartner realizada entre 248 responsables de gestión de datos en el tercer trimestre de 2024 arroja cifras desalentadoras: el 57 % de las empresas califica sus propios datos como no aptos para IA. Aún más grave: el 63 % declara no disponer de prácticas adecuadas de gestión de datos o no tener claridad al respecto. En febrero de 2025, Gartner endureció su previsión: el 60 % de todos los proyectos de IA que no se basen en datos preparados para IA serán abandonados.

No aptos para IA

57 %

de las empresas

Proyectos abandonados

60 %

sin preparación de datos

Barrera n.º 1

73 %

señalan la calidad de los datos

Fuentes: Gartner, tercer trimestre de 2024; Gartner, febrero de 2025; Capital One/Morning Consult, julio de 2024

Por qué la IA generativa agrava el problema de los datos

La IA generativa reacciona con mayor sensibilidad ante la calidad de los datos que la analítica clásica. Un panel de control con cifras erróneas de ventas acabará llamando la atención tarde o temprano. Un modelo de IA entrenado con datos maestros inconsistentes produce resultados que parecen plausibles, pero que son falsos – y nadie lo detecta de inmediato. Ese es el núcleo del problema: la IA generativa hace invisibles los datos deficientes, en lugar de visibilizarlos.

En la información clásica, las inconsistencias de datos provocan contradicciones evidentes. Si el informe de ventas muestra dos cifras distintas, alguien planteará la pregunta. En un modelo predictivo impulsado por IA esto no ocurre: calcula una respuesta aparentemente plausible basada en datos sesgados. Solo cuando la previsión de demanda se desvía sistemáticamente durante meses o el chatbot ofrece a los clientes información incorrecta sobre productos se vuelve visible el problema de los datos – demasiado tarde y demasiado caro.

Las CDO Insights 2025 de Informatica – una encuesta entre 600 directores de datos (CDO) de todo el mundo – revelan la consecuencia: el 67 % de los responsables de datos encuestados no logró llevar ni siquiera la mitad de sus proyectos piloto de IA generativa a producción con éxito. El 43 % de los líderes de datos señala la calidad de los datos, la completitud de los datos y la preparación de los datos como el mayor obstáculo en los proyectos de IA. Al mismo tiempo, el 92 % de los CDO declararon estar preocupados porque los pilotos de IA avancen sin haber resuelto previamente los problemas existentes con los datos.

El estudio global NTT DATA Global GenAI, publicado en noviembre de 2024 y basado en 2.300 responsables de decisión de 34 países, confirma este panorama: entre el 70 % y el 85 % de las implementaciones de IA generativa no alcanzan el retorno sobre la inversión (ROI) deseado. La causa más frecuente: la base de datos no era lo suficientemente fiable para su uso productivo.

Especialmente engañoso: la pyme típica trabaja con cinco a quince sistemas diferentes, desde ERP y CRM hasta soluciones sectoriales especializadas y listas manuales en Excel. Cada sistema tiene sus propios formatos de datos, sus propios procesos de mantenimiento, sus propios responsables – y, con frecuencia, también sus propias definiciones de conceptos aparentemente sencillos como «cliente activo» o «pedido pendiente». La calidad de los datos se erosiona en las interfaces entre estos sistemas – justamente allí donde los modelos de IA deben entrenarse de forma transversal. Quien no conozca sistemáticamente estas brechas, no podrá repararlas.

Las seis dimensiones de la calidad de los datos

La calidad de los datos no es una cuestión de intuición. El marco DAMA International (Data Management Body of Knowledge) define seis dimensiones medibles. Para las pymes resulta útil realizar una comparación sincera con su propia base de datos:

Dimensión	¿Qué mide?	Problema típico en las pymes
Completitud	¿Están rellenados todos los campos requeridos?	Contactos en CRM sin sector o tamaño de empresa
Exactitud	¿Reflejan los datos correctamente la realidad?	Direcciones de clientes obsoletas, números de artículo erróneos
Actualidad	¿Son los datos lo suficientemente recientes para su propósito?	Existencias en almacén que solo se sincronizan una vez al día
Coherencia	¿Coinciden los datos entre distintos sistemas?	Base de clientes en ERP y CRM difiere
Unicidad	¿Existen duplicados?	El mismo proveedor aparece tres veces en el sistema, escrito de distinta manera
Validez	¿Cumplen los datos las reglas definidas?	Campos de texto libre en lugar de entradas estructuradas

La consultora BARC confirma su relevancia: en su Data, BI and Analytics Trend Monitor anual, la gestión de la calidad de los datos lleva seis años entre los dos temas principales – en 2024, nuevamente justo detrás de la seguridad de los datos. No es un problema nuevo, pero uno que con la IA se vuelve claramente más costoso.

Un ejemplo concreto de la práctica: una pyme fabricante de maquinaria quiere introducir previsiones de demanda impulsadas por IA. Los datos maestros de artículos en el ERP tienen una completitud del 85 % – suena aceptable. Pero el 15 % que falta corresponde, de forma desproporcionada, a nuevos productos y piezas de repuesto con altos márgenes. Así, el modelo predictivo aprende sistemáticamente de forma errónea, pues desconoce los productos más rentables. La desviación no se detecta hasta pasados seis meses – seis meses de optimización perdida.

La presión regulatoria aumenta

Además del riesgo económico, se suma la presión regulatoria. El Reglamento de IA de la UE establece, por primera vez en su artículo 10, requisitos concretos para la calidad de los datos en los sistemas de IA de alto riesgo: los datos de entrenamiento, validación y prueba deben ser relevantes, suficientemente representativos y, en la medida de lo posible, libres de errores y completos. Los proveedores deben demostrar que buscan sistemáticamente los sesgos (bias) y los corrigen. Las disposiciones relativas al alto riesgo entrarán en vigor en agosto de 2026.

Aunque la mayoría de las aplicaciones de IA en las pymes – por ejemplo, previsiones de demanda, chatbots u optimización de procesos – no caen bajo la categoría de alto riesgo, quienes utilicen IA en recursos humanos, en la evaluación de solvencia crediticia o en ámbitos relacionados con la seguridad sí están directamente afectados. Y aun sin clasificarse como de alto riesgo, el Reglamento de IA establece un estándar que los clientes y socios empezarán a exigir cada vez más.

Paralelamente, la Directiva sobre divulgación de información no financiera y sobre diversidad (CSRD) intensifica los requisitos relativos a los datos ESG. Según la Workiva Sustainability Practitioner Survey 2024 (2.000 profesionales encuestados), el 83 % de las empresas ya considera difícil recopilar los datos de sostenibilidad requeridos. El 79 % tiene problemas con su verificación. Los estándares de la EFRAG incluyen más de 1.100 puntos de datos individuales para la elaboración de informes CSRD – un reto para cualquier empresa que hasta ahora no haya gestionado sistemáticamente la calidad de sus datos.

Quien no tenga bajo control su gobernanza de datos aquí, tendrá dos frentes abiertos simultáneamente: proyectos de IA y cumplimiento normativo. La ventaja: quien invierta en calidad de datos para IA, se beneficiará automáticamente también de la elaboración de informes ESG – y viceversa. Ambas exigencias apuntan en la misma dirección: datos estructurados, completos y trazables.

Cinco pasos hacia una base de datos preparada para IA

La calidad de los datos no es un proyecto con principio y fin. Es una capacidad que la empresa debe desarrollar. Estos cinco pasos constituyen un punto de entrada realista para las pymes:

1. Realizar un inventario de datos. Antes de cualquier iniciativa de IA, surge la pregunta: ¿qué datos tenemos, dónde están y quién los gestiona? Muchas pymes subestiman el número de sus fuentes de datos. ERP, CRM, listas de Excel, carpetas de CompartirPoint, buzones de correo electrónico – todo debe contarse, nada puede omitirse. El resultado es un mapa de datos: una visión general de todas las fuentes, con sus responsables, frecuencia de actualización y valoración de calidad. Este documento es la base de cualquier decisión posterior.

2. Medir la calidad, no suponerla. Utilizar las seis dimensiones DAMA como lista de comprobación. Identificar, para el caso de uso específico de IA, las tres dimensiones más relevantes y verificarlas mediante muestras. Ejemplo: para una previsión de demanda son críticas la completitud, la actualidad y la coherencia. Para un chatbot de servicio al cliente, en cambio, lo son la exactitud y la validez. Resulta útil revisar manualmente 100 registros y extrapolar la tasa de errores. Esto lleva medio día y proporciona una valoración fiable.

3. Definir responsabilidades. La calidad de los datos sin una responsabilidad clara no mejora. No se necesita necesariamente un director de datos (CDO), pero sí una persona por sistema clave que sea responsable del mantenimiento de los datos. En las pymes, suele ser el jefe del departamento funcional, no el departamento de TI. Lo decisivo es que esta responsabilidad no solo se asigne, sino que también se respalde con tiempo y herramientas. Un director comercial que, además de sus funciones habituales, deba ocuparse de la calidad de los datos del CRM, siempre relegará este tema a un segundo plano.

4. Introducir comprobaciones automatizadas. La limpieza manual no es escalable. Herramientas de data observability, como Soda.io o Great Expectations, detectan automáticamente anomalías – por ejemplo, si un campo obligatorio queda vacío de repente en el 30 % de los nuevos registros o si un valor numérico se desvía varias órdenes de magnitud del rango habitual. El mercado para estas herramientas crece actualmente más del 16 % anual – y su licencia basada en el uso las hace accesibles incluso para empresas pequeñas. Quien prefiera no introducir software adicional puede comenzar con simples consultas SQL o scripts en Python sobre la infraestructura de bases de datos ya existente.

5. Empezar pequeño y aprender. No limpiar toda la base de datos de golpe. En su lugar: seleccionar un caso de uso concreto de IA, asegurar únicamente la calidad de los datos correspondientes y aprender de ello. Las conclusiones del primer proyecto – qué fuentes de datos resultaron problemáticas, qué pasos de limpieza tuvieron mayor efecto – son transferibles a todos los proyectos posteriores. Gartner pronostica que, para 2028, ya el 80 % de las aplicaciones empresariales de IA generativa se desarrollarán sobre plataformas existentes de gestión de datos. Quien cree hoy la base, podrá aprovechar esta evolución.

Conclusión

Las cifras son inequívocas: las inversiones en IA sin una previa garantía de calidad de los datos son inversiones de riesgo. El 57 % de las empresas ya lo sabe – y, aun así, hace demasiado poco. Para las pymes, esto representa también una oportunidad: quien ahora prepare cuidadosamente su base de datos obtendrá una ventaja estructural frente a competidores que lancen proyectos de IA y descubran después que les falta la base necesaria.

El primer paso no tiene por qué ser un gran proyecto. Un inventario de datos para el caso de uso más importante, una medición honesta de la calidad y una responsabilidad clara bastan para comenzar. El resto se irá desarrollando – siempre que la calidad de los datos no se entienda como un proyecto puntual de TI, sino como una tarea de gestión continua. La tecnología está lista. La pregunta es si también lo están los datos.

Preguntas frecuentes

¿Cómo identifico si mis datos están preparados para IA?

Evalúe las seis dimensiones DAMA (completitud, exactitud, actualidad, coherencia, unicidad y validez) mediante una muestra del caso de uso de IA previsto. Si más del 10 % de los registros presenta deficiencias en alguna de dichas dimensiones, es necesario limpiar los datos antes de iniciar el proyecto de IA. Gartner estima que el 57 % de las empresas suspende esta evaluación.

¿Cuál es el coste de una mala calidad de los datos?

Los costes directos surgen de decisiones erróneas, limpieza manual y proyectos fallidos. Los costes indirectos derivan de la pérdida de confianza en las iniciativas de IA y de la digitalización retrasada. El estudio de NTT DATA de 2024 muestra que entre el 70 % y el 85 % de las implementaciones de IA generativa no alcanzan el ROI previsto – con frecuencia debido a una base de datos insuficiente.

¿Necesita una pyme un director de datos (CDO)?

No necesariamente. Más importante que el título es una responsabilidad clara sobre la calidad de los datos para cada sistema clave. En las pymes, el responsable de TI puede coordinarlo, mientras que los jefes de departamentos funcionales asumen la responsabilidad operativa sobre sus propios datos. Lo decisivo es que alguien revise periódicamente los datos y recopile indicadores de calidad.

¿Qué papel juega el Reglamento de IA de la UE en la calidad de los datos?

El artículo 10 del Reglamento de IA de la UE exige, para los sistemas de IA de alto riesgo, una calidad de datos demostrable: los datos de entrenamiento deben ser relevantes, representativos y, en la medida de lo posible, libres de errores. Se debe examinar sistemáticamente la presencia de sesgos (bias). Aunque la mayoría de las aplicaciones de IA en las pymes no se clasifiquen como de alto riesgo, este estándar se impondrá como expectativa del mercado. Quien ya disponga de datos limpios tendrá menos trabajo de adaptación posterior.

¿Cuánto tiempo se tarda en preparar una base de datos para IA?

Para un caso de uso concreto, un plazo realista es de cuatro a ocho semanas – siempre que se conozcan las fuentes de datos y el caso de uso esté claramente definido. Los programas de calidad de datos a escala corporativa requieren de seis a doce meses hasta la primera mejora cuantificable. Lo importante: no limpiarlo todo a la vez, sino actuar guiado por casos de uso.

Lecturas recomendadas por la redacción

Fuente de imagen: Pexels / Kampus Production (px:6248957)

También disponible en

Français English Deutsch

Evernine Media GmbH

Tobias Massow ist Geschäftsführer der Evernine Media GmbH und Herausgeber von MyBusinessFuture. Er verantwortet die strategische Ausrichtung des Magazins und des gesamten MBF Media Netzwerks mit vier B2B-Fachmagazinen für IT-Entscheider im deutschsprachigen Raum.

Nuestros expertos y socios