Capítulo 6: La Data del Big Data
Es momento de jugar con la Data. Así es que ahora que ya sabes que es el Big Data, ahora te estarás preguntando ¿dónde está mi big data y de donde viene? ¿Cómo se creó? ¿Quien lo hizo? No, no hay un Dios del Big Data que lo crea todo ni tampoco se crea por generación espontánea. Viene de muchos sitios, tiene muchas formas y colores.
Esto es Cerebro de Silicio, el futuro de la Inteligencia Artificial, hoy.
Capítulo 6: La Data del Big Data
Recuerdo en esta ocasión, un banco en la Ciudad de México, me pidió apoyo para desarrollar un proyecto de inteligencia de clientes. Era necesario ubicar cuáles eran sus mejores prospectos, los más propensos para responder positivamente una campaña de mercadotecnia un nuevo producto, que estaban por lanzar. Vamos, quien tendría más probabilidad de comprar, en lenguaje coloquial. A nivel Análisis de datos -minería de datos, analytics, inteligencia artificial-, la tarea no es complicada.
- “¿Dónde están los datos?”, preguntamos para iniciar la tarea. En esta ocasión la cantidad de datos no era algo por que nos preocupara. En un inicio, tomaríamos una muestra, como científicos tomando una gota de sangre en un portaobjetos o en una caja de petri para analizarla. Al final, no hace falta meter a todo un humano en una caja de petri para encontrar patrones.
Nos señalaron hacia no menos de 10 bases de datos, de diferentes naturalezas, tecnologías, años y por supuesto de calidad paupérrima.
Déjame explicarte el nivel del problema. La primera institución de crédito prendario, no banco, que se estableció en la entonces Nueva España fue en 1774. El Monte de Piedad. Subsiste hasta la actualidad. Fue fundado por Pedro Romero de Terreros. Por supuesto no hablamos aún de big data en ese caso pero si de registros. Al menos quien debe y cuánto debe.
https://www.abm.org.mx/descargas/1830_1910.pdf
El mercado, por supuesto, evolucionó. Las necesidades de unos y la oferta de otros hicieron que las instituciones crecieran, cambiaran, se sofisticaran.. Terminaron creándose nuevas instituciones financieras, más formales para finales de 1800. En 1884 se fundó en Banamex y en 1889 Banorte. Posteriormente Bancomer en 1932 y Serfin en 1941. ¡Bendita competencia! Si, en aquel entonces las bases de datos eran sencillas al igual que las operaciones, como comentamos con anterioridad, pero la tecnología comenzó a invadirlos. ¡Bendita tecnología! En 1974 se instala el primer cajero automático en México. Transacciones de ATM. Y la cosa se pone interesante. Con el tiempo un banco compró a otro, para incrementar participación de mercado. Negociaciones entre socios hicieron que se fusionaran otros bancos. Otros quebraban y eran adquiridos. Los nombres de los bancos se iban componiendo al sumarse uno tras otro y otros se yuxtaponían. La banca extranjera llegó a Mexico y fagocitaron a la competencia. La banca es, probablemente, la industria que más cambios ha tenido desde su creación.
https://realestatemarket.com.mx/articulos/credito/19875-el-ultimo-medio-siglo-de-la-banca-en-mexico
¿A dónde voy con todo esto? Que los consultores, ingenieros de datos, de sistemas y científicos de datos tuvimos que hacer algo denominado Arqueología de Datos. Fue necesario convertirse en el Indiana Jones de los datos. Verás… hay que desenterrar varias capas -como lo haría un arqueólogo- primero con pala mecánica, luego con pala manual, luego con escobeta … tal vez con un taladro para llegar y desenterrar el dato original, el dato de valor. ya sean huesos, vestigios de otras civilizaciones -como cráneos, cerámica de uso religioso o de uso cotidiano, utensilios de construcción, instrumentos musicales, joyería- o petróleo. El valor está muy… muy en la profundidad y hay que entender de qué dinastía es, así como su validez y su vigencia
No hay que escarbar hasta 1800 o 1900, pero es fácil encontrar información de los 80s, 90s, 2000s, en equipos obsoletos y lentos, en bases de datos descontinuadas y lenguajes no utilizados hoy. En sistemas que probablemente nadie sepa que siguen prendidos aunque ya nadie los usa, porque el personal de IT se jubiló hace años, porque fue despedido o murió solitario en el sótano del edificio y nadie se enteró hasta encontrar sus huesos años más tarde, detrás del mainframe principal (bueno, esto es un poco dramático).
Bien, pues el banco de la anécdota tenía bases de datos de clientes, de créditos, de incobrables, de hipotecarios, de puntos y beneficios… ¡Qué sé yo! todas las bases de datos estaban en sistemas distintos, en equipos distintos, de diferentes marcas y fabricantes. Algunos se medían mensualmente y otros semanalmente y otros diarios.
Pues dependiendo de tu organización, te vas a topar con diferentes retos:
0%- INMADURA- No existen datos para hacer el análisis. Punto. En muchas ocasiones las empresas tienen preguntas que no pueden responderse porque no hay información. Muchas son empresas muy jóvenes o empresas que nunca evolucionaron tecnológicamente. Nunca había llegado alguien a hacer preguntas distintas a las que se hicieron hasta ahora. Por estatismo o por continuidad, por falta de imaginación o por falta de evolución estratégica. En otras ocasiones el data no había sido necesario hasta este momento.
50% - INFANTE O ADOLESCENTE: El intermedio. Datos suficientes, manejables o administrables. En estas organizaciones hay cierta cantidad de datos, con vigencia aceptable y disponibilidad suficiente. Pueden tomarse los datos para contestar algunas de las nuevas preguntas de negocio, aunque muy probablemente no todas. Incluso, es probable que se requiera de alguien con gran imaginación capaz de extraer valor de los datos disponibles: No es el valor que quieras encontrar en ellos si no lo que puedes rescatar de valor con ellos. Son organizaciones que en algún momento comenzaron a recabar información y guardarla, pero muchas veces fue un proceso empírico. sin un orden y sin estándares. Sin mejores prácticas.
100% - MADURA: Son empresas o instituciones que tienen gran cantidad y diversidad de información. Hay una cultura de uso de data, de recopilación, incluso de combinación para generar, como mínimo, “algo” de inteligencia. Comienzan a tener problemas de Big Data. Empresas que generan incalculables cantidades de datos, al grado que en muchas ocasiones, no les queda otra más que optar por el gran Drenaje Digital (ya lo mencionamos). Tirar los datos porque sale muy caro almacenarlos. Exceso de producción de data.
Por supuesto hay etapas intermedias. A cada una de las etapas le he asociado un porcentaje o número de 0 a 100. Esto permite entender que hay empresas a un 25 o 33%, que no están en el piso. También las hay en un 75%, las cuales tienen procesos, tal vez no en mejores prácticas pero van en el camino correcto. En realidad, no hace falta profundizar más en este momento. En cualquier caso, hay un proceso que debe correrse para poder conseguir esa data.
ETL. Extracción Transformación y Carga de datos. (Extraction, Transformation and Load). En términos básicos es Traer toda la información de cualquier sitio en donde se encuentre. Cualquier sistema o repositorio. Cualquier ERP, CRM o sistema de otra naturaleza. Organizarla y centralizarla en un repositorio único para que esté lista y disponible para usarse. Combinar bases de datos y consolidarla para su utilización. Esta data se vierte entonces en lo que se le conoce como Data Mart o Data Lake. Un sitio donde la información vive y está disponible para ser consumida.
Bien, ya tenemos la data para poder comenzar a hacer análisis. El problema es que no sabemos qué tan confiable es. Necesitamos hablar de calidad.
DATA QUALITY: El Siguiente paso es hablar de calidad de datos. las bases de datos son viejas en muchas ocasiones como en el banco del cual te platicaba. De diversas naturalezas. Trasladadas de un sitio a otro, combinadas y manipuladas. En ocasiones la calidad es bastante mala. En muchas otras ocasiones, hay datos que un banco utilizaba y el nuevo no, esto hace tener columnas vacías o casillas vacías.
El tema es tan extenso en términos de calidad de datos, que vale la pena dedicarle un capítulo a este tema. Y nuevamente te lo vuelvo a repetir. La calidad no es responsabilidad del Director o Gerente de Inteligencia Artificial. Es responsabilidad de sistemas. Pero es importante entender dónde está el Big Data y los insumos que utilizarás para los análisis: En el Data Mart o Data Lake; ¿De donde vienen? De una extracción cotidiana de todos los sistemas de la organización: ¿Puedes utilizarlos? Si, debes conocer qué procesos de calidad se le aplican para entender si servirán para tus análisis y cálculos.
En fin, ya que sabes de donde viene la data del big data y cómo se construye, así como el nivel de confiabilidad, resta crear y construir tus indicadores de desempeño. Tus PIs o tus KPIs que vimos en el capítulo 4. Es momento de ligar “lo que querías medir” con “lo que puedes medir”. Aquí, en el big data está toda la información que necesitas para desarrollar esos indicadores que irán a tableros de control y a alimentar los sistemas analíticos o sistemas de Inteligencia Artificial. La cosa es que empezamos a construir nuestro sistema de Inteligencia Artificial. ¿Lo ves? Poco a poco vamos llegando a nuestro objetivo pero, lo haremos con calma.
¿Estas buscando desarrollar una estrategia de Inteligencia Artificial, de Analítica, de Big Data, Ciencia de Datos o de Business Intelligence? ¿O simplemente quieres saber más? en Cerebro de Silicio apoyamos a organizaciones a desarrollar e implementar estrategias de A.I. Conferencias, consultorías, talleres. contactanos. cerebrodesilicio.com Cerebro de silicio es más que un podcast. Es una producción de Azul Chiclamino. Yo soy Rodrigo Llop.