Lección 5 de 28Tipos de Datos y Fuentes

Fuentes de datos en tu empresa

Identifica dónde viven los datos en tu organización.

10 minutos

Uno de los mayores obstáculos para volverse data-driven no es la falta de datos, sino no saber dónde están. En esta lección, exploraremos las fuentes de datos típicas en organizaciones modernas y cómo crear un mapa de datos para tu empresa.

La paradoja de los datos corporativos

La mayoría de las empresas sufren de dos problemas simultáneos y contradictorios:

  1. "No tenemos suficientes datos" - Los equipos sienten que no pueden responder preguntas básicas
  2. "Tenemos demasiados datos" - Los sistemas acumulan terabytes que nadie usa

La realidad: tienen datos, pero están fragmentados, desconectados, e inaccesibles.

El problema de los silos

Un estudio de Forrester encontró que el trabajador promedio usa 9 aplicaciones diferentes al día. Cada una genera datos. Ninguna habla con las otras por defecto.

Ejemplo típico:

  • Marketing usa HubSpot con sus propios datos de leads
  • Ventas usa Salesforce con su propia vista del cliente
  • Finanzas usa SAP con transacciones
  • Soporte usa Zendesk con tickets
  • Producto usa Amplitude con comportamiento

Resultado: Cinco versiones diferentes de "quién es el cliente" que nunca coinciden.

Mapa de fuentes de datos organizacionales

Categoría 1: Sistemas operativos (Transaccionales)

Son los sistemas que ejecutan el negocio día a día. Generan datos como subproducto de las operaciones.

Sistema Datos que genera Ejemplos de herramientas
ERP Transacciones, inventario, órdenes SAP, Oracle, NetSuite, Odoo
CRM Clientes, oportunidades, actividades Salesforce, HubSpot, Pipedrive
E-commerce Pedidos, carritos, navegación Shopify, WooCommerce, Magento
POS Ventas, devoluciones, métodos de pago Square, Toast, Lightspeed
RRHH Empleados, nómina, asistencia Workday, BambooHR, ADP
Finanzas Facturas, pagos, conciliaciones QuickBooks, Xero, Contpaqi

Características:

  • Datos muy estructurados
  • Alta confiabilidad (el negocio depende de ellos)
  • Difíciles de modificar o extraer
  • Histórico limitado (a veces se purga)

Categoría 2: Sistemas de engagement (Interacción)

Capturan cómo los clientes y usuarios interactúan con la empresa.

Sistema Datos que genera Ejemplos de herramientas
Web Analytics Visitas, comportamiento, conversiones Google Analytics, Adobe Analytics
Email Marketing Aperturas, clics, conversiones Mailchimp, Klaviyo, ActiveCampaign
Redes Sociales Engagement, alcance, sentimiento Sprout Social, Hootsuite
Chat/Soporte Conversaciones, tiempos, resoluciones Intercom, Zendesk, Freshdesk
App Analytics Uso de features, retención, crashes Mixpanel, Amplitude, Firebase

Características:

  • Datos de comportamiento e intención
  • Alto volumen, actualización constante
  • Requieren integración para ser útiles
  • Valiosos para entender el "por qué"

Categoría 3: Datos financieros y contables

Son la fuente de verdad para el desempeño económico.

Tipo de dato Qué captura Consideraciones
Balance general Activos, pasivos, patrimonio Snapshot en un momento
Estado de resultados Ingresos, costos, utilidad Período específico
Flujo de caja Entradas y salidas de efectivo Cash vs. accrual
Presupuestos Planes vs. realidad Actualización periódica
Cuentas por cobrar Deuda de clientes Antigüedad importa
Cuentas por pagar Deuda a proveedores Timing de pagos

Características:

  • Altamente regulados y auditados
  • Estructura estandarizada (GAAP, IFRS)
  • Histórico completo (requerido por ley)
  • Acceso restringido

Categoría 4: Datos de producto y operaciones

Capturan cómo se entrega el producto o servicio.

Fuente Datos que genera
Logs de aplicación Errores, performance, uso
IoT/Sensores Temperatura, ubicación, estado
Logística Envíos, rutas, tiempos
Calidad Defectos, inspecciones, rechazos
Inventario Stock, rotación, obsolescencia
Producción Tiempos, eficiencia, desperdicio

Categoría 5: Datos externos

Información que no generas tú pero que es valiosa para contexto.

Fuente Datos que proporciona Ejemplos
Datos de mercado Tamaño, crecimiento, competencia Statista, IBISWorld
Datos demográficos Población, ingresos, educación Census, INEGI
Datos económicos Inflación, PIB, tasas Banco central, FRED
Datos de industria Benchmarks, tendencias Gartner, McKinsey
Datos climáticos Temperatura, lluvia, desastres NOAA, servicios meteorológicos
Datos de redes sociales Tendencias, menciones Twitter API, Reddit

El inventario de datos: Tu primer proyecto

Antes de cualquier iniciativa de analytics, necesitas saber qué tienes. Aquí está el framework para crear tu inventario.

Paso 1: Identifica los sistemas

Lista todos los sistemas que usa tu organización:

Sistema Departamento propietario Tipo de datos Acceso actual

Paso 2: Documenta los datos clave

Para cada sistema, identifica:

Preguntas a responder:

  • ¿Qué entidades principales contiene? (clientes, productos, transacciones)
  • ¿Con qué frecuencia se actualiza?
  • ¿Desde cuándo hay histórico?
  • ¿Quién tiene acceso?
  • ¿Cómo se puede extraer?

Paso 3: Identifica las conexiones

¿Qué campo permite unir datos de diferentes sistemas?

Sistema A Sistema B Campo de unión Calidad de match
CRM Facturación Email del cliente 85% match
Web Analytics CRM User ID (cookie) 40% match
ERP Inventario SKU 99% match

Paso 4: Evalúa la accesibilidad

Para cada fuente, califica del 1 al 5:

Criterio 1 (Difícil) 5 (Fácil)
Permisos Requiere aprobación de IT Self-service
Formato Datos crudos, sin estructura API limpia o export
Documentación Ninguna Diccionario de datos completo
Frescura Días de retraso Tiempo real

Fuentes de datos subestimadas

Muchas organizaciones ignoran fuentes valiosas que ya tienen:

1. El correo electrónico

Tu inbox es una base de datos no estructurada:

  • Conversaciones con clientes
  • Negociaciones de precio
  • Quejas y feedback
  • Decisiones y su contexto

Cómo aprovecharlo:

  • Herramientas de análisis de email (Gong, Chorus)
  • Exportación y análisis de sentimiento
  • Identificación de patrones en comunicación

2. Documentos y archivos

Google Drive, Dropbox, SharePoint contienen:

  • Propuestas enviadas (qué ofrecemos, a qué precio)
  • Contratos firmados (términos, condiciones)
  • Reportes históricos (qué medíamos antes)
  • Presentaciones a clientes (cómo nos posicionamos)

3. Calendarios

Tu calendario revela:

  • Con quién pasas tiempo (clientes, interno, proveedor)
  • Cuánto dura cada tipo de reunión
  • Patrones de disponibilidad
  • Eficiencia de agendas

4. Sistemas de chat interno

Slack, Teams, WhatsApp empresarial capturan:

  • Cómo se toman decisiones informalmente
  • Qué problemas surgen frecuentemente
  • Quién sabe de qué temas
  • El clima organizacional

5. Grabaciones de llamadas

Si grabas llamadas de ventas o soporte:

  • Objeciones reales de clientes
  • Cómo describen los vendedores tu producto
  • Qué confunde a los usuarios
  • Comparaciones con competidores

El problema del "dato oscuro"

Dark Data (dato oscuro) es información que recolectas pero nunca usas.

Estadísticas alarmantes

  • El 80% de los datos empresariales son no estructurados
  • Las empresas analizan solo el 12% de los datos que tienen
  • El 55% de los datos capturados nunca se usan

Ejemplos de dark data común

Lo que capturas Lo que podrías saber Por qué no lo usas
Logs del servidor Patrones de uso por hora "Es para IT"
Emails de soporte Causas raíz de problemas "Son muy desordenados"
Notas de CRM Insights cualitativos "Cada vendedor escribe diferente"
Documentos escaneados Términos históricos "No están digitalizados"
Metadatos de archivos Patrones de trabajo "Nunca lo pensamos"

Cómo "iluminar" el dark data

  1. Auditoría de sistemas: ¿Qué datos existen que no exportamos?
  2. Entrevistas: Pregunta a cada área "¿qué guardas que nunca usas?"
  3. Análisis de metadatos: Revisa qué campos existen pero están vacíos
  4. Proyectos piloto: Elige una fuente ignorada y explórala

Framework: Las 5 preguntas sobre cada fuente de datos

Para cada fuente de datos, responde:

1. ¿Qué preguntas de negocio puede responder?

No recolectes datos por recolectar. Conecta cada fuente con decisiones específicas.

Ejemplo:

  • Fuente: Web Analytics
  • Pregunta que responde: "¿Qué páginas generan más leads?"
  • Decisión que informa: Dónde invertir en contenido

2. ¿Quién es el dueño?

Cada dato necesita un responsable que:

  • Garantice su calidad
  • Autorice accesos
  • Documente su significado
  • Responda preguntas

3. ¿Qué tan confiable es?

Evalúa:

  • Completitud (¿hay campos vacíos?)
  • Precisión (¿los valores son correctos?)
  • Consistencia (¿siempre se captura igual?)
  • Actualidad (¿qué tan frescos son?)

4. ¿Cómo se puede integrar?

  • ¿Hay APIs disponibles?
  • ¿Se puede exportar a CSV/Excel?
  • ¿Existe un data warehouse que lo consolide?
  • ¿Qué identificadores permiten unirlo con otros datos?

5. ¿Qué restricciones tiene?

  • ¿Hay datos sensibles o personales (GDPR, privacidad)?
  • ¿Hay restricciones contractuales?
  • ¿Qué permisos se necesitan?
  • ¿Hay costos asociados al acceso?

Caso práctico: Mapa de datos de una empresa B2B

Veamos cómo se ve un inventario de datos real:

Empresa: Software B2B con 50 empleados

Fuente Tipo Datos clave Actualización Acceso
Salesforce CRM Leads, oportunidades, cuentas Tiempo real Equipo de ventas + analytics
HubSpot Marketing Emails, formularios, scoring Tiempo real Marketing + analytics
Stripe Pagos Transacciones, suscripciones Tiempo real Finanzas + analytics
Intercom Soporte Tickets, chats, NPS Tiempo real Soporte + producto
Google Analytics Web Sesiones, conversiones, fuentes 24h delay Marketing
Mixpanel Producto Uso de features, retención Tiempo real Producto
PostgreSQL Aplicación Usuarios, configuraciones, logs Tiempo real Ingeniería
Slack Comunicación Mensajes, canales, reacciones Tiempo real Nadie lo usa para analytics
Google Drive Documentos Propuestas, contratos, decks Manual Fragmentado

Conexiones identificadas:

  • Email conecta: Salesforce ↔ HubSpot ↔ Stripe ↔ Intercom
  • User ID conecta: Mixpanel ↔ PostgreSQL
  • Company domain conecta: Salesforce ↔ Google Analytics (parcial)

Gaps identificados:

  • No hay conexión clara entre actividad de producto (Mixpanel) y ventas (Salesforce)
  • El feedback de soporte (Intercom) no llega sistemáticamente a producto
  • Google Drive tiene información valiosa pero no estructurada

Ejercicio práctico: Tu inventario inicial

Crea un inventario básico de las fuentes de datos en tu área:

Plantilla

# Sistema/Fuente Datos principales Dueño Acceso Preguntas que responde
1
2
3
4
5

Preguntas guía

  1. ¿Qué herramientas usas todos los días?
  2. ¿Dónde guardas información de clientes?
  3. ¿De dónde vienen los reportes que recibes?
  4. ¿Qué información buscas cuando tomas decisiones importantes?
  5. ¿Qué datos siempre te faltan?

Puntos clave de esta lección

  • Las empresas tienen datos en silos fragmentados que dificultan el análisis
  • Las fuentes principales son: sistemas operativos, engagement, financieros, producto, y externos
  • El dark data (datos no utilizados) representa hasta el 88% de la información empresarial
  • Cada fuente de datos necesita un dueño, documentación, y conexión con decisiones
  • Crear un inventario de datos es el primer paso para volverse data-driven
  • Las fuentes subestimadas (email, documentos, calendarios) contienen insights valiosos

Próxima lección

En la siguiente lección, abordaremos el tema crítico de la calidad de datos: por qué "basura entra, basura sale" y cómo evaluar si tus datos son confiables.


Quiz de comprensión

  1. ¿Cuántas aplicaciones diferentes usa el trabajador promedio según Forrester?
  2. ¿Qué es el "dark data" y qué porcentaje de datos empresariales representa?
  3. Nombra tres ejemplos de fuentes de datos subestimadas que las empresas ignoran.
  4. ¿Cuáles son las cinco preguntas que debes responder sobre cada fuente de datos?
  5. ¿Por qué es importante identificar los "campos de unión" entre sistemas diferentes?

Completaste esta leccion?

Marca esta leccion como completada. Tu progreso se guardara en tu navegador.