El análisis de datos, evolucionado recientemente a lo que conocemos como Ciencia de Datos (Data Science o Datalogy), se encuentra en una encrucijada metodológica definida por la tensión entre dos enfoques primordiales: la dependencia tradicional en modelos probabilísticos y el uso creciente de la computación y los algoritmos flexibles.
Esta dicotomía ha sido descrita como "Las Dos Culturas" en la modelización estadística, y el camino a seguir depende de reconocer el papel fundamental y complementario que la computación juega en la búsqueda de la predicción y el conocimiento.

La Primera Cultura: El Modelado de Datos (Énfasis en la Información)
La cultura del modelado de datos es históricamente la dominante, seguida por aproximadamente el 98% de los estadísticos.
Principios y Objetivos: Este enfoque asume que los datos son generados por algún modelo probabilístico subyacente (como la regresión lineal o la regresión logística), más un componente de ruido (error). El objetivo principal no es solo la predicción, sino la información (Information): comprender la naturaleza del proceso que generó los datos. El trabajo se centra en la especificación (la construcción del modelo) y la estimación y distribución (la realización de inferencias formales, probabilísticas y matemáticas, sobre las cantidades del modelo).
Limitaciones: La validación se basa en la bondad de ajuste y el examen de residuos. El inconveniente principal es que "las conclusiones se refieren al mecanismo del modelo, no necesariamente al mecanismo de la naturaleza". Las suposiciones del modelado de datos suelen ser restrictivas. Si las suposiciones son incorrectas, pueden llevar a descubrimientos científicos cuestionables. Por ejemplo, en un estudio sobre discriminación salarial por género, se podría usar un modelo de regresión lineal (LM), pero la validez de las conclusiones depende de si el modelo describe con precisión los datos, un análisis que es a menudo insuficiente, especialmente si el número de covariables es grande.
La Segunda Cultura: El Modelado Algorítmico (Énfasis en la Predicción)
Esta cultura, adoptada por aproximadamente el 2% de los estadísticos, se basa directamente en la computación y los algoritmos.
Principios y Objetivos: Asume que la naturaleza es compleja y que los datos no necesariamente provienen de un modelo que pueda describirse de forma simple. El objetivo primordial es la predicción (Prediction): utilizar cualquier algoritmo (como redes neuronales o árboles de decisión) para predecir un resultado $y$ para futuras entradas $x$. La evaluación se realiza midiendo la precisión predictiva (predictive accuracy). Este enfoque ha demostrado ser más útil en entornos de consultoría y prácticos. La insistencia en el uso de modelos de datos restringe la capacidad de los estadísticos para abordar problemas nuevos y emocionantes, como los que se encuentran en proyectos modernos con grandes volúmenes de datos.
Ejemplos de Aplicación: Problemas como la predicción de niveles de ozono o la determinación de la toxicidad química involucran grandes conjuntos de datos con cientos o miles de variables. En el caso de la toxicidad química, la dimensión de los datos era demasiado grande para la regresión lineal, pero los árboles de decisión lograron una precisión del 95%.
La Computación como Fundamento de la Ciencia de Datos
La computación con datos (Computing with Data) es un área técnica esencial para la Ciencia de Datos (Datalogy), que Cleveland propone que debe recibir muchos más recursos.
1. Infraestructura y Eficiencia
La computación abarca sistemas de hardware, sistemas de software y algoritmos computacionales. Un conjunto de modelos y métodos solo será ampliamente utilizado si se implementa en un entorno informático que los haga lo suficientemente eficientes. Los analistas a menudo sopesan la efectividad de un método contra su eficiencia de uso.
2. Innovación Algorítmica
El avance en los métodos computacionales puede transformar prometedoras corrientes intelectuales en enfoques prácticos. Un ejemplo destacado es cómo los avances en algoritmos convirtieron los métodos bayesianos en un enfoque práctico y ampliamente utilizado para la inferencia estadística.
3. El Futuro: La Fusión de Culturas
Se ha reconocido que los avances en la Ciencia de Datos requieren una fusión de conocimientos. El beneficio de la minería de datos por parte de los científicos de la computación ha sido limitado debido a su conocimiento restringido sobre cómo abordar el análisis de datos, de la misma manera que el conocimiento de los estadísticos sobre los entornos informáticos es limitado. Una fusión de estas bases de conocimiento (estadística y computación) generaría una poderosa fuerza para la innovación.
Flexibilidad Algorítmica y Afrontar la Incertidumbre (Tukey)
John W. Tukey, al describir el futuro del análisis de datos, enfatizó la necesidad de herramientas y actitudes que prioricen la flexibilidad, la iteración y las respuestas aproximadas sobre la precisión ilusoria.
El Problema de los Datos Irregulares (Spotty Data)
La computación y los algoritmos son esenciales para manejar datos irregulares o "salvajes" (wild shots). Si bien los procedimientos convencionales (como el análisis de varianza) ofrecen "robustez de validez" (evitando falsos positivos), carecen de "robustez de eficiencia" cuando existen errores con colas largas o valores atípicos, lo que puede aumentar las varianzas de estimación y disminuir la eficiencia.
Técnicas como el FUNOR-FUNOM (Full NOrmal Rejection-FUll NOrmal Modification), que son intrínsecamente iterativas y computacionales, fueron diseñadas para examinar y ajustar estos datos irregulares. Este algoritmo se aplica, por ejemplo, en tablas de doble entrada, ajustando iterativamente los valores atípicos para evitar que el ajuste se concentre en explicar errores en lugar de la estructura organizada.
Priorizar la Indicación sobre la Conclusión
Un principio fundamental en el análisis de datos (y que depende de la flexibilidad algorítmica) es que es "mucho mejor una respuesta aproximada a la pregunta correcta, que a menudo es vaga, que una respuesta exacta a la pregunta equivocada, que siempre puede hacerse precisa". La data, por su naturaleza, es aproximada y variada, y el análisis debe avanzar a través de respuestas aproximadas. Por lo tanto, la teoría debe guiar, no comandar, y la computación es clave para buscar indicaciones (indications) antes de establecer conclusiones.
La Computación como Forma de Descripción (Naur)
Desde una perspectiva más filosófica, Peter Naur sostiene que la descripción es el núcleo de la ciencia y la erudición. La computación es, fundamentalmente, una forma de descripción.
Si bien Naur ve la computación como una herramienta muy útil para describir una gran variedad de fenómenos, él traza una línea clara: el pensamiento humano no es uno de ellos, ya que el pensamiento se basa en la plasticidad de los elementos del sistema nervioso (sinapsis), mientras que las computadoras (máquinas de Turing) carecen de tales elementos plásticos.
En resumen, los algoritmos y la computación son, en la Ciencia de Datos moderna, tanto el motor de la eficiencia (permitiendo que métodos complejos, como los bayesianos, sean prácticos) como la herramienta necesaria para la flexibilidad descriptiva (manejando datos complejos e irregulares) que los modelos estadísticos tradicionales, con sus estrictas suposiciones, no pueden ofrecer adecuadamente.