Equipados con las herramientas y técnicas de la ciencia de datos, parecería que los pronosticadores profesionales actuales tienen ventajas significativas sobre sus pares de décadas anteriores y, ciertamente, sobre la supuesta sabiduría de las multitudes. Sin embargo, los estudios han demostrado que hay momentos en los que la multitud todavía tiende a hacerlo bien y, en tiempos turbulentos, el poder de la predicción es más importante que nunca.
La medición también importa, y el equipo de Quant Research de Bloomberg ha desarrollado un método para calificar a los pronosticadores en varias dimensiones, evaluándolos no solo por su precisión, sino también por el momento, la dirección y la audacia de sus predicciones. El resultado del análisis también contribuye a una forma de consenso inteligente, proporcionando reconocimiento para aquellos que se inclinan constantemente en la dirección correcta a lo largo del tiempo.
Para determinar la calidad de las predicciones, es fundamental comenzar con datos limpios. El problema es que en cualquier conjunto de datos habrá casos extremos, p. ej. valores atípicos, así como puntos de datos que simplemente están mal: por ejemplo, errores de digitación o errores en unidades (miles de millones vs millones). Si bien los anotadores humanos pueden marcar un cierto número de datos incorrectos, con la gran cantidad de datos disponibles, no es posible detectar todos los casos. Es fundamental contar con métodos estadísticos sólidos que puedan marcar errores de forma automatizada.
Algunos errores aparentes en realidad son valores atípicos; pueden generar conjuntos de datos confusos, pero no son incorrectos. Otra alternativa es que haya habido un cambio de régimen en el mercado que haya provocado una variación significativa en los datos. Nuevamente, estos puntos de datos son legítimos y, aunque no coinciden completamente con el antiguo régimen, no deben marcarse como errores. Una situación como esta ocurrió en marzo de 2020 con el brote del coronavirus, cuando muchos analistas redujeron sus previsiones de ingresos para varios sectores.
Sin embargo, otros datos pueden ser verdaderamente erróneos; los dos tipos principales de errores implican: 1) errores en el signo (+/-) y 2) errores en la escala (magnitud). Existen soluciones, pero la manipulación de conjuntos de datos también implica riesgos. La calibración es ruidosa y, aunque los modelos se pueden calibrar con precisión, también pueden sobreajustarse, lo que genera más complicaciones con el análisis y la posibilidad de resultados falsos positivos y falsos negativos.
Un marco de trabajo de aprendizaje automático típico requiere datos etiquetados (también conocidos como "verdad fundamental") para la capacitación y es particularmente difícil emplear métodos que garanticen tanto la eficiencia como la coherencia en el proceso de recopilación de esa verdad. Como señala Arun Verma de Bloomberg, "Normalmente, en los datos con los que trabajamos, solo un 0,1% o menos será incorrecto.
Esto significa que debemos extraer la verdad fundamental de manera muy selectiva para obtener etiquetas solo para los puntos que son errores con alta confianza o los casos extremos que pueden ayudar a ajustar con precisión los límites de clasificación del modelo ". Continúa: “También existe la posibilidad de confusión en la verdad misma; diferentes tipos de expertos pueden ver y clasificar los errores de manera diferente. Por lo tanto, tenemos que preguntarnos: ¿hay realmente un error aquí? Y si es así, ¿qué tipo de error es? El algoritmo de machine learning debe funcionar de manera sólida teniendo en cuenta todas estas consideraciones y también debe evitar la trampa del sobreajuste y, al mismo tiempo, ser interpretable y transparente".
En el proyecto de Bloomberg, primero se utiliza un modelo de línea de base simple para generar indicadores de error tentativos; los investigadores piden la verdad solo para las instancias marcadas y algunas instancias seleccionadas no marcadas cerca de los límites de la clasificación de errores del algoritmo de línea de base. Una vez que se recibe la "verdad", el modelo se ajusta para optimizar su rendimiento en función de la precisión y las métricas de recuperación, y genera las marcas finales para la corrección o reparación de errores.
Luego, todos los pronósticos de los analistas que no son erróneos se evalúan en función de lo que realmente sucedió. El trabajo aquí toma un giro único: mientras que algunos podrían decir que la precisión es el atributo más destacado de un pronóstico, otros podrían afirmar que factores como el tiempo, la direccionalidad, la consistencia y la independencia también son tremendamente importantes. La direccionalidad, en particular, es una propiedad muy interesante en el contexto de los mercados financieros: si un analista está permanentemente en lo correcto en cuanto a la dirección, esto afectará la rentabilidad en una diversidad de entornos de mercado. Además, si un analista tiende a adoptar una posición contraria y siempre tiene razón al diferenciarse de la multitud, también merece mayor atención y mayor crédito. Estas consideraciones resaltan la importancia de ir más allá de una métrica de precisión básica al juzgar el valor de un conjunto de pronósticos a lo largo del tiempo.
El último paso implica una agregación de pronósticos y pronosticadores para determinar no solo quién ha tenido el mejor desempeño en un trimestre específico, por ejemplo, el tercer trimestre de 2020, sino también de manera más general. Volviendo a la idea de un consenso inteligente, al aplicar un conjunto distinto de principios y respaldar la uniformidad de los métodos de calificación, el modelo agregado otorga una mayor ponderación a los pronosticadores que son constantes a lo largo del tiempo y el análisis puede extenderse para calificar a los analistas de todos los instrumentos, períodos, sectores y geografías. ¿Un pronosticador en particular es bueno con divisas o materias primas? ¿Tiene conocimiento acerca de los eventos de Europa o Asia? Los resultados mostrarán el rendimiento claramente, y todos los pronósticos serán normalizados y calificados en una curva de campana.
Dado el volumen de datos y técnicas analíticas que están disponibles actualmente, terminaron los días de predicciones misteriosas con bolas de cristal. Como dijo Will Rogers una vez, "El buen juicio proviene de la experiencia, y mucho de eso proviene del mal juicio". Con suerte, con un hábil análisis de los datos sobre predicciones pasadas, podemos separar el trigo de la paja más rápidamente.