Fuentes de datos en tu empresa
Identifica dónde viven los datos en tu organización.
Uno de los mayores obstáculos para volverse data-driven no es la falta de datos, sino no saber dónde están. En esta lección, exploraremos las fuentes de datos típicas en organizaciones modernas y cómo crear un mapa de datos para tu empresa.
La paradoja de los datos corporativos
La mayoría de las empresas sufren de dos problemas simultáneos y contradictorios:
- "No tenemos suficientes datos" - Los equipos sienten que no pueden responder preguntas básicas
- "Tenemos demasiados datos" - Los sistemas acumulan terabytes que nadie usa
La realidad: tienen datos, pero están fragmentados, desconectados, e inaccesibles.
El problema de los silos
Un estudio de Forrester encontró que el trabajador promedio usa 9 aplicaciones diferentes al día. Cada una genera datos. Ninguna habla con las otras por defecto.
Ejemplo típico:
- Marketing usa HubSpot con sus propios datos de leads
- Ventas usa Salesforce con su propia vista del cliente
- Finanzas usa SAP con transacciones
- Soporte usa Zendesk con tickets
- Producto usa Amplitude con comportamiento
Resultado: Cinco versiones diferentes de "quién es el cliente" que nunca coinciden.
Mapa de fuentes de datos organizacionales
Categoría 1: Sistemas operativos (Transaccionales)
Son los sistemas que ejecutan el negocio día a día. Generan datos como subproducto de las operaciones.
| Sistema | Datos que genera | Ejemplos de herramientas |
|---|---|---|
| ERP | Transacciones, inventario, órdenes | SAP, Oracle, NetSuite, Odoo |
| CRM | Clientes, oportunidades, actividades | Salesforce, HubSpot, Pipedrive |
| E-commerce | Pedidos, carritos, navegación | Shopify, WooCommerce, Magento |
| POS | Ventas, devoluciones, métodos de pago | Square, Toast, Lightspeed |
| RRHH | Empleados, nómina, asistencia | Workday, BambooHR, ADP |
| Finanzas | Facturas, pagos, conciliaciones | QuickBooks, Xero, Contpaqi |
Características:
- Datos muy estructurados
- Alta confiabilidad (el negocio depende de ellos)
- Difíciles de modificar o extraer
- Histórico limitado (a veces se purga)
Categoría 2: Sistemas de engagement (Interacción)
Capturan cómo los clientes y usuarios interactúan con la empresa.
| Sistema | Datos que genera | Ejemplos de herramientas |
|---|---|---|
| Web Analytics | Visitas, comportamiento, conversiones | Google Analytics, Adobe Analytics |
| Email Marketing | Aperturas, clics, conversiones | Mailchimp, Klaviyo, ActiveCampaign |
| Redes Sociales | Engagement, alcance, sentimiento | Sprout Social, Hootsuite |
| Chat/Soporte | Conversaciones, tiempos, resoluciones | Intercom, Zendesk, Freshdesk |
| App Analytics | Uso de features, retención, crashes | Mixpanel, Amplitude, Firebase |
Características:
- Datos de comportamiento e intención
- Alto volumen, actualización constante
- Requieren integración para ser útiles
- Valiosos para entender el "por qué"
Categoría 3: Datos financieros y contables
Son la fuente de verdad para el desempeño económico.
| Tipo de dato | Qué captura | Consideraciones |
|---|---|---|
| Balance general | Activos, pasivos, patrimonio | Snapshot en un momento |
| Estado de resultados | Ingresos, costos, utilidad | Período específico |
| Flujo de caja | Entradas y salidas de efectivo | Cash vs. accrual |
| Presupuestos | Planes vs. realidad | Actualización periódica |
| Cuentas por cobrar | Deuda de clientes | Antigüedad importa |
| Cuentas por pagar | Deuda a proveedores | Timing de pagos |
Características:
- Altamente regulados y auditados
- Estructura estandarizada (GAAP, IFRS)
- Histórico completo (requerido por ley)
- Acceso restringido
Categoría 4: Datos de producto y operaciones
Capturan cómo se entrega el producto o servicio.
| Fuente | Datos que genera |
|---|---|
| Logs de aplicación | Errores, performance, uso |
| IoT/Sensores | Temperatura, ubicación, estado |
| Logística | Envíos, rutas, tiempos |
| Calidad | Defectos, inspecciones, rechazos |
| Inventario | Stock, rotación, obsolescencia |
| Producción | Tiempos, eficiencia, desperdicio |
Categoría 5: Datos externos
Información que no generas tú pero que es valiosa para contexto.
| Fuente | Datos que proporciona | Ejemplos |
|---|---|---|
| Datos de mercado | Tamaño, crecimiento, competencia | Statista, IBISWorld |
| Datos demográficos | Población, ingresos, educación | Census, INEGI |
| Datos económicos | Inflación, PIB, tasas | Banco central, FRED |
| Datos de industria | Benchmarks, tendencias | Gartner, McKinsey |
| Datos climáticos | Temperatura, lluvia, desastres | NOAA, servicios meteorológicos |
| Datos de redes sociales | Tendencias, menciones | Twitter API, Reddit |
El inventario de datos: Tu primer proyecto
Antes de cualquier iniciativa de analytics, necesitas saber qué tienes. Aquí está el framework para crear tu inventario.
Paso 1: Identifica los sistemas
Lista todos los sistemas que usa tu organización:
| Sistema | Departamento propietario | Tipo de datos | Acceso actual |
|---|---|---|---|
Paso 2: Documenta los datos clave
Para cada sistema, identifica:
Preguntas a responder:
- ¿Qué entidades principales contiene? (clientes, productos, transacciones)
- ¿Con qué frecuencia se actualiza?
- ¿Desde cuándo hay histórico?
- ¿Quién tiene acceso?
- ¿Cómo se puede extraer?
Paso 3: Identifica las conexiones
¿Qué campo permite unir datos de diferentes sistemas?
| Sistema A | Sistema B | Campo de unión | Calidad de match |
|---|---|---|---|
| CRM | Facturación | Email del cliente | 85% match |
| Web Analytics | CRM | User ID (cookie) | 40% match |
| ERP | Inventario | SKU | 99% match |
Paso 4: Evalúa la accesibilidad
Para cada fuente, califica del 1 al 5:
| Criterio | 1 (Difícil) | 5 (Fácil) |
|---|---|---|
| Permisos | Requiere aprobación de IT | Self-service |
| Formato | Datos crudos, sin estructura | API limpia o export |
| Documentación | Ninguna | Diccionario de datos completo |
| Frescura | Días de retraso | Tiempo real |
Fuentes de datos subestimadas
Muchas organizaciones ignoran fuentes valiosas que ya tienen:
1. El correo electrónico
Tu inbox es una base de datos no estructurada:
- Conversaciones con clientes
- Negociaciones de precio
- Quejas y feedback
- Decisiones y su contexto
Cómo aprovecharlo:
- Herramientas de análisis de email (Gong, Chorus)
- Exportación y análisis de sentimiento
- Identificación de patrones en comunicación
2. Documentos y archivos
Google Drive, Dropbox, SharePoint contienen:
- Propuestas enviadas (qué ofrecemos, a qué precio)
- Contratos firmados (términos, condiciones)
- Reportes históricos (qué medíamos antes)
- Presentaciones a clientes (cómo nos posicionamos)
3. Calendarios
Tu calendario revela:
- Con quién pasas tiempo (clientes, interno, proveedor)
- Cuánto dura cada tipo de reunión
- Patrones de disponibilidad
- Eficiencia de agendas
4. Sistemas de chat interno
Slack, Teams, WhatsApp empresarial capturan:
- Cómo se toman decisiones informalmente
- Qué problemas surgen frecuentemente
- Quién sabe de qué temas
- El clima organizacional
5. Grabaciones de llamadas
Si grabas llamadas de ventas o soporte:
- Objeciones reales de clientes
- Cómo describen los vendedores tu producto
- Qué confunde a los usuarios
- Comparaciones con competidores
El problema del "dato oscuro"
Dark Data (dato oscuro) es información que recolectas pero nunca usas.
Estadísticas alarmantes
- El 80% de los datos empresariales son no estructurados
- Las empresas analizan solo el 12% de los datos que tienen
- El 55% de los datos capturados nunca se usan
Ejemplos de dark data común
| Lo que capturas | Lo que podrías saber | Por qué no lo usas |
|---|---|---|
| Logs del servidor | Patrones de uso por hora | "Es para IT" |
| Emails de soporte | Causas raíz de problemas | "Son muy desordenados" |
| Notas de CRM | Insights cualitativos | "Cada vendedor escribe diferente" |
| Documentos escaneados | Términos históricos | "No están digitalizados" |
| Metadatos de archivos | Patrones de trabajo | "Nunca lo pensamos" |
Cómo "iluminar" el dark data
- Auditoría de sistemas: ¿Qué datos existen que no exportamos?
- Entrevistas: Pregunta a cada área "¿qué guardas que nunca usas?"
- Análisis de metadatos: Revisa qué campos existen pero están vacíos
- Proyectos piloto: Elige una fuente ignorada y explórala
Framework: Las 5 preguntas sobre cada fuente de datos
Para cada fuente de datos, responde:
1. ¿Qué preguntas de negocio puede responder?
No recolectes datos por recolectar. Conecta cada fuente con decisiones específicas.
Ejemplo:
- Fuente: Web Analytics
- Pregunta que responde: "¿Qué páginas generan más leads?"
- Decisión que informa: Dónde invertir en contenido
2. ¿Quién es el dueño?
Cada dato necesita un responsable que:
- Garantice su calidad
- Autorice accesos
- Documente su significado
- Responda preguntas
3. ¿Qué tan confiable es?
Evalúa:
- Completitud (¿hay campos vacíos?)
- Precisión (¿los valores son correctos?)
- Consistencia (¿siempre se captura igual?)
- Actualidad (¿qué tan frescos son?)
4. ¿Cómo se puede integrar?
- ¿Hay APIs disponibles?
- ¿Se puede exportar a CSV/Excel?
- ¿Existe un data warehouse que lo consolide?
- ¿Qué identificadores permiten unirlo con otros datos?
5. ¿Qué restricciones tiene?
- ¿Hay datos sensibles o personales (GDPR, privacidad)?
- ¿Hay restricciones contractuales?
- ¿Qué permisos se necesitan?
- ¿Hay costos asociados al acceso?
Caso práctico: Mapa de datos de una empresa B2B
Veamos cómo se ve un inventario de datos real:
Empresa: Software B2B con 50 empleados
| Fuente | Tipo | Datos clave | Actualización | Acceso |
|---|---|---|---|---|
| Salesforce | CRM | Leads, oportunidades, cuentas | Tiempo real | Equipo de ventas + analytics |
| HubSpot | Marketing | Emails, formularios, scoring | Tiempo real | Marketing + analytics |
| Stripe | Pagos | Transacciones, suscripciones | Tiempo real | Finanzas + analytics |
| Intercom | Soporte | Tickets, chats, NPS | Tiempo real | Soporte + producto |
| Google Analytics | Web | Sesiones, conversiones, fuentes | 24h delay | Marketing |
| Mixpanel | Producto | Uso de features, retención | Tiempo real | Producto |
| PostgreSQL | Aplicación | Usuarios, configuraciones, logs | Tiempo real | Ingeniería |
| Slack | Comunicación | Mensajes, canales, reacciones | Tiempo real | Nadie lo usa para analytics |
| Google Drive | Documentos | Propuestas, contratos, decks | Manual | Fragmentado |
Conexiones identificadas:
- Email conecta: Salesforce ↔ HubSpot ↔ Stripe ↔ Intercom
- User ID conecta: Mixpanel ↔ PostgreSQL
- Company domain conecta: Salesforce ↔ Google Analytics (parcial)
Gaps identificados:
- No hay conexión clara entre actividad de producto (Mixpanel) y ventas (Salesforce)
- El feedback de soporte (Intercom) no llega sistemáticamente a producto
- Google Drive tiene información valiosa pero no estructurada
Ejercicio práctico: Tu inventario inicial
Crea un inventario básico de las fuentes de datos en tu área:
Plantilla
| # | Sistema/Fuente | Datos principales | Dueño | Acceso | Preguntas que responde |
|---|---|---|---|---|---|
| 1 | |||||
| 2 | |||||
| 3 | |||||
| 4 | |||||
| 5 |
Preguntas guía
- ¿Qué herramientas usas todos los días?
- ¿Dónde guardas información de clientes?
- ¿De dónde vienen los reportes que recibes?
- ¿Qué información buscas cuando tomas decisiones importantes?
- ¿Qué datos siempre te faltan?
Puntos clave de esta lección
- Las empresas tienen datos en silos fragmentados que dificultan el análisis
- Las fuentes principales son: sistemas operativos, engagement, financieros, producto, y externos
- El dark data (datos no utilizados) representa hasta el 88% de la información empresarial
- Cada fuente de datos necesita un dueño, documentación, y conexión con decisiones
- Crear un inventario de datos es el primer paso para volverse data-driven
- Las fuentes subestimadas (email, documentos, calendarios) contienen insights valiosos
Próxima lección
En la siguiente lección, abordaremos el tema crítico de la calidad de datos: por qué "basura entra, basura sale" y cómo evaluar si tus datos son confiables.
Quiz de comprensión
- ¿Cuántas aplicaciones diferentes usa el trabajador promedio según Forrester?
- ¿Qué es el "dark data" y qué porcentaje de datos empresariales representa?
- Nombra tres ejemplos de fuentes de datos subestimadas que las empresas ignoran.
- ¿Cuáles son las cinco preguntas que debes responder sobre cada fuente de datos?
- ¿Por qué es importante identificar los "campos de unión" entre sistemas diferentes?
Completaste esta leccion?
Marca esta leccion como completada. Tu progreso se guardara en tu navegador.