Deep Mind de Google presenta hoy su nuevo modelo de IA: Gemini: "A Family of Highly Capable Multimodal Models" de Google presenta una nueva familia de modelos multimodales, Gemini, que exhiben capacidades notables en comprensión de imágenes, audio, vídeo y texto. Gemini incluye tres tamaños: Ultra, Pro y Nano, adaptados a distintas aplicaciones y limitaciones computacionales. Gemini Ultra destaca en 30 de 32 evaluaciones de referencia, logrando un rendimiento a nivel de expertos humanos en el benchmark MMLU. Además, supera modelos existentes en 20 benchmarks multimodales.
El reporte gemini_1_report.pdf detalla las capacidades tecnicas y los avances cientificos que se liberan el día de hoy. El informe detalla los benchmarks utilizados para evaluar los modelos Gemini, incluyendo:
- MMLU: Un benchmark de examen que evalúa el conocimiento en 57 materias, donde Gemini Ultra logró un rendimiento superior al de los expertos humanos.
- Benchmarks Multimodales: Gemini Ultra mejoró el estado del arte en 20 de estos benchmarks, demostrando una capacidad superior en tareas de comprensión y generación de imágenes, entendimiento de audio y video.
- Tareas Específicas: Incluyen la comprensión de textos, la codificación en Python, y la comprensión de imágenes y vídeos. Gemini Ultra mostró resultados destacados en cada una de estas áreas.