Hace una década, estrategias de "big data" fueron utilizadas por un pequeño grupo de inversionistas institucionales que eran capaces de extraer información con algoritmos avanzados que podía ser utilizada para crear estrategias de trading alfa generativa.
Hoy en día, una representación mucho más amplia de los gestores de dinero y de fondos especulativos están consumiendo datos para desbloquear posibles señales comerciales ocultas a simple vista. Esto es indicativo de una tendencia más amplia impulsada por el crecimiento exponencial de datos cada vez más accesibles, que van desde fuentes tradicionales de datos de mercado a nuevas fuentes de fortaleza operativa como las percibidas por las redes sociales, emisiones de Internet, datos en tierra del consumidor y datos de la compañía, e incluso observaciones hechas a partir del análisis de imágenes satelitales.
"Generar una ventaja con datos consiste en aprovechar la información pasada y actual para generar inteligencia procesable que le ayude a administrar el riesgo y a tomar decisiones comerciales que sean mejores, más baratas y más oportunas que su competencia", afirma Carl Reed, Director Global de Productos de Licencias de Datos de Bloomberg. "Los datos siguen siendo una forma imparcial para ayudarlo a comprender su entorno comercial actual y, junto con la disponibilidad de datos históricos, le brindan una oportunidad más rica de aprovechar los comportamientos pasados para probar y evaluar resultados futuros como referencia para una mejor toma de decisiones".
Las empresas deben ahora aprender a aprovechar este crecimiento exponencial de los datos a su favor, según Reed. Hay pocas dudas de que la integración de esta información pueda mejorar el proceso operativo de la inversión. Pero el acceso a grandes cantidades de datos sin una fidelidad de datos bien definida, una buena gobernanza y una adecuada ingeniería de datos puede ser problemático. La disciplina de separar una señal útil del "ruido" abarca todo, desde el rol de la ingeniería de datos versus la ciencia de datos, la arquitectura de datos y la implementación de tecnología, y los procesos de gobernanza de datos.
"Desafortunadamente, se necesita una cantidad significativa de tiempo, disciplina e inversión para limpiar e integrar datos en cualquier escala significativa como un requisito previo para cualquier análisis comercial significativo. Es un "mal necesario" de la revolución de datos", según Reed. "Las empresas necesitan separar el problema de la ingeniería de datos que consiste en limpiar e integrar datos en señales de alta calidad, del problema de la ciencia de datos que consiste en combinar datos con la experiencia empresarial necesaria para convertirlos en inteligencia de negocios procesable".
Una capacidad de ingeniería de datos parece ser más adecuada como una función empresarial que se ejecuta en el centro de una organización con una capacidad ágil que puede operar a escala. Es impulsada por la demanda, fidedigna y, además, una implementación demostrable de la gobernanza de datos empresariales. Por el contrario, las capacidades de ciencia de datos parecen más adecuadas para ejecutarse en la periferia de la organización, integradas directamente en diferentes unidades de negocios. Estos equipos se pueden estructurar como pequeños grupos multidisciplinarios de ciencia de datos, tecnología y experiencia empresarial con la tarea de generar inteligencia comercial procesable que pueda ser monetizada por sus respectivos negocios. Colaboran estrechamente con el centro de ingeniería de datos para adquirir los datos requeridos, pero dedican su tiempo a utilizarlo en lugar de crearlo.
Desafortunadamente, hoy en día la mayoría de los científicos de datos parecen estar pasando la mayor parte de su tiempo abasteciendo, limpiando e integrando datos de forma local. Esto es ineficiente, repetitivo e irónicamente contradictorio a la disciplina de datos que muchas de las mismas organizaciones están luchando por lograr para sus requisitos regulatorios.
Esto puede plantear un desafío importante, pero también brinda la oportunidad de establecer una base empresarial más amplia que pueda aprovecharse más allá de la necesidad de una organización de cumplir con sus requisitos reglamentarios.
Algunas de las empresas más sofisticadas están tomando conciencia de la idea de aplicar los mismos principios a Big Data, Datos Alternativos y Ciencia de Datos. Estas organizaciones se están dando cuenta de que la demanda regulatoria de la "ingeniería de datos" demostrable no es solo un requisito previo para un modelado creíble de reportes, riesgos y requisitos de capital. Es un requisito previo para mitigar los riesgos de "entrada de basura" "salida de basura" de
cualquier modelo analítico, independientemente de la sofisticación de la ciencia de datos utilizada para construirlo. Además, dado el alcance de sus inversiones regulatorias pasadas, actuales y futuras, tiene sentido comercial construir tan pocos ejemplos de la misma rueda como sea posible.
Finalmente, la reciente aparición de datos alternativos dentro del ecosistema de Big Data más amplio es el último refuerzo de la importancia de la fidelidad de los datos, la gobernanza de los datos y la integración empresarial sustentable. Estos conjuntos de datos no tradicionales que van desde el tráfico peatonal de consumidores, pagos con tarjeta de crédito, facturación de servicios públicos, imágenes satelitales, tráfico de Internet, etc. son menos estructurados y están más desconectados que nunca. El valor de este tipo de observaciones como nuevas señales e información hacia análisis basados de una manera más tradicional está generando mucho interés. Sin embargo, a medida que la diversidad de datos y la profundidad de la historia de este ecosistema se expandan, las organizaciones deberán seguir
invirtiendo en sus propios servicios de integración de datos, así como buscar asociaciones con proveedores externos de datos y agregadores de datos para una mejor economía de escala.