DeepSeek: Qué es y cómo funciona esta inteligencia artificial
DeepSeek es una empresa china especializada en inteligencia artificial (IA), fundada en 2023. Su enfoque principal es la investigación y desarrollo de tecnologías avanzadas de IA, incluyendo modelos de lenguaje, aprendizaje profundo y aplicaciones prácticas para diversos sectores, como la educación, el entretenimiento y los negocios. DeepSeek busca democratizar el acceso a la IA, ofreciendo soluciones innovadoras y accesibles para empresas y usuarios individuales.
¿Quién está detrás de DeepSeek?
DeepSeek (con el mismo nombre que la IA) es una empresa china de inteligencia artificial fundada en 2023 por Liang Wenfeng, un emprendedor nacido en 1985 en la provincia de Cantón. Liang se graduó en la Universidad de Zhejiang y cofundó en 2015 High-Flyer Quant, un fondo de cobertura chino especializado en metodologías cuantitativas. Este fondo financia la investigación en inteligencia artificial de DeepSeek.
En 2023, Liang fundó DeepSeek en Hangzhou, Zhejiang, con el objetivo de desarrollar modelos de lenguaje de código abierto comparables a los de OpenAI, como GPT-4. La empresa ha ganado reconocimiento por crear modelos de IA avanzados con una inversión significativamente menor en comparación con sus competidores.
Cómo funciona DeepSeek
DeepSeek utiliza tecnologías de vanguardia en inteligencia artificial, basadas en modelos de lenguaje grandes (LLM, por sus siglas en inglés) y técnicas de aprendizaje profundo (deep learning). A continuación, se describen algunos aspectos clave de su funcionamiento:
Modelos de Lenguaje (LLM):
DeepSeek desarrolla modelos de lenguaje entrenados con grandes volúmenes de datos textuales. Estos modelos son capaces de entender, generar y procesar lenguaje natural de manera similar a como lo haría un humano.
Estos modelos se utilizan para tareas como traducción automática, generación de texto, resumen de documentos y asistencia virtual.
Aprendizaje Profundo (Deep Learning):
La empresa emplea redes neuronales profundas para analizar y procesar datos complejos. Estas redes permiten a la IA aprender patrones y realizar tareas específicas, como reconocimiento de imágenes, clasificación de datos o predicciones (aunque en su versión actual todavía no podemos ver todas esas características).
Enfoque en la Accesibilidad:
Uno de los objetivos de DeepSeek es hacer que la IA sea más accesible para todos, ofreciendo soluciones económicas y fáciles de usar. Lo que incluye hacer de código abierto su IA y tener plataformas en la nube que permiten a los usuarios implementar IA sin necesidad de grandes recursos técnicos.
Qué puedes hacer con DeepSeek
En la primera versión que tenemos disponible, estas son algunas de las funcionalidades más interesantes de Deepseek:
- Procesar y generar texto:
- Responder preguntas, explicar conceptos, resumir información y ayudarte a redactar textos.
- Traducir idiomas (aunque no soy perfecto, puedo manejar múltiples lenguas).
- Corregir ortografía y gramática en textos.
- Generar ideas, guiones, poemas, ensayos o cualquier tipo de contenido escrito.
- Ayudar con tareas basadas en texto:
- Resolver problemas matemáticos si le das la información en texto.
- Analizar datos textuales, como listas, tablas o fragmentos de código (si están en texto).
- Explicar conceptos técnicos, científicos, históricos o culturales.
- Asistir en programación:
- Escribir, corregir o explicar código en varios lenguajes de programación (Python, JavaScript, etc.).
- Ayudar a depurar errores si le proporcionas el código y los detalles del problema.
- Recomendaciones y búsqueda de información:
- Ofrecer recomendaciones basadas en texto (libros, películas, rutinas, etc.).
- Buscar y sintetizar información de mi base de conocimientos (hasta octubre de 2023).
- Simular conversaciones:
- Mantener diálogos fluidos y naturales sobre casi cualquier tema.
- Actuar como un asistente virtual para tareas cotidianas (organizar ideas, recordatorios, etc.).
Deepseek vs Chatgpt
Aspecto | DeepSeek-V3 | GPT-4o | GPT-4o Mini |
---|---|---|---|
Tipo de modelo | Mixture-of-Experts (MoE): Activa solo 37B de sus 671B parámetros por tarea, optimizando eficiencia. | Modelo denso: Utiliza todos sus 1.8T parámetros para cada tarea, garantizando versatilidad pero con mayor consumo de recursos. | Modelo compacto: Diseñado para ser más eficiente y asequible, con un rendimiento sólido en tareas generales. |
Entrenamiento | Entrenado en 55 días con un costo de $5.5 millones, utilizando FP8 para reducir el uso de memoria. | Costo estimado de $100 millones+, con enfoque en escalabilidad y datos diversos. | Diseñado para ser más asequible y eficiente, con un enfoque en reducir costos sin sacrificar demasiado rendimiento. |
Código abierto | Sí, permite personalización y transparencia técnica. | No, modelo cerrado con acceso limitado a detalles internos. | No, modelo cerrado con acceso limitado a detalles internos. |
Rendimiento en Matemáticas | 90.2% de precisión en MATH-500, ideal para cálculos complejos y teoremas. | Bueno en matemáticas básicas, pero menos preciso en problemas avanzados. | Razonablemente preciso en matemáticas básicas, pero puede carecer de profundidad en tareas complejas. |
Rendimiento en Programación | 82.6% en HumanEval-Mul (generación de código), destacando en algoritmos y lógica. | Excelente en depuración y optimización de código existente. | Competente en generación de código, pero con limitaciones en tareas más complejas. |
Creatividad | Respuestas estructuradas y técnicas, menos adaptadas a narrativas fluidas. | Superior en generación de contenido creativo (historias, guiones) y tono conversacional. | Capaz de generar contenido creativo, aunque con menos sofisticación que GPT-4o. |
Idiomas | Domina el chino (86.5% en C-Eval) y tiene ventaja en multilingüismo. | Mejor en inglés y lenguas occidentales, con respuestas más naturales. | Soporte multilingüe, pero con menor fluidez en comparación con GPT-4o. |
Velocidad | 40% más rápido en tareas técnicas (ej. respuestas en 10 segundos vs. 30 de GPT-4o). | Velocidad constante, prioriza calidad sobre rapidez en tareas generales. | Más rápido que GPT-4o en tareas generales debido a su tamaño reducido. |
Precio para usuarios | Gratuito en versión básica; API desde $0.14/millón de tokens. | API: $2.50/millón de tokens de entrada, $10.00/millón de tokens de salida. | API: $0.15/millón de tokens de entrada, $0.60/millón de tokens de salida. |
Coste empresarial | $2.19/millón de tokens (30 veces más barato que OpenAI). | $7.50/millón de tokens, con costos elevados para uso intensivo. | $0.60/millón de tokens de salida, ofreciendo una opción más económica para empresas. |
Disponibilidad | Acceso global, pero con restricciones en países occidentales por competencia geopolítica. | Ampliamente disponible, integrado en plataformas como Microsoft Copilot. | Ampliamente disponible, diseñado para ser más accesible y rentable. |
Transparencia | Modelo abierto y documentación técnica detallada, pero con críticas por censura en temas sensibles (ej. política china). | Menos transparente en su funcionamiento interno, pero con directrices éticas claras y actualizaciones regulares. | Similar a GPT-4o, con menos transparencia en su funcionamiento interno. |
Privacidad | Almacenamiento de datos sujeto a regulaciones chinas, lo que genera desconfianza en Occidente. | Cumple con normativas globales (ej. GDPR) y permite desactivar historial de chats. | Cumple con normativas globales, similar a GPT-4o. |
Sesgos | Enfoque en reducir sesgos, pero con limitaciones en temas culturales no asiáticos. | Sesgos detectados en entrenamiento, aunque OpenAI trabaja en mitigarlos. | Comparte limitaciones similares a GPT-4o en cuanto a sesgos. |
Casos de Uso Recomendados | Ideal para análisis de datos, modelado matemático y desarrollo de algoritmos. | Mejor para síntesis de información y redacción de informes generales. | Adecuado para aplicaciones que requieren eficiencia y costos más bajos, con un rendimiento sólido en tareas generales. |
¿Por qué DeepSeek está causando tanto revuelo?
Las principales razones por las que está generando tanta agitación son las siguientes:
- Han logrado tener un modelo con una potencia y resultados similares en menos de 2 años cuando OpenAI tardó casi una decena.
- Lo han conseguido utilizando un 90% menos de potencia gráfica, lo que implica un impacto medioambiental mucho menos grave.
- Es de código abierto permitiendo a cualquiera utilizarlo en su ordenador.
- Han gastado un 10% del presupuesto que invirtió su principal competidor (la empresa detrás de ChatGPT).
- Deepseek ha sido lanzada por una compañía China, rival geopolítico del resto de IAs que se utilizaban hasta la actualidad.
Impacto de DeepSeek en el mercado y la economía
No sabemos lo que ocurrirá en el futuro, pero el efecto inmediato más notorio fue la caída de las acciones de Nvidia, fabricante de tarjetas gráficas necesarias para entrenar Inteligencias Artificiales, de un 16,5%. Perdiendo alrededor de 600.000 millones de dólares en el día de lanzamiento de Deepseek.
Este hecho se convirtió en una de las mayores caídas de la historia de la bolsa estadounidense, aunque al día siguiente se recuperó hasta perder tan solo un 8%.