library_name: transformers
tags:
- unsloth
- LLMs-Aviation
- AI-Regulatory-Compliance
- RAC-AI-Colombia
license: apache-2.0
datasets:
- somosnlp/ColombiaRAC_FullyCurated
language:
- es
widget:
- text: >
<bos><start_of_turn>system\n\nYou are a helpful AI assistant.\n\nResponde
en formato json.\n\nEres un agente experto en la normativa aeronautica
Colombiana.<end_of_turn>\n\n<start_of_turn>user\n\n¿Qué sucede con las
empresas de servicios aéreos comerciales que no hayan actualizado su
permiso de operación después del 31 de marzo de
2024?<end_of_turn>\n\n<start_of_turn>model
GemmaColRAC-AeroExpertV5 🛫
Este documento ofrece una visión detallada de GemmaColRAC-AeroExpertV5
, la quinta iteración de nuestro modelo especializado en regulaciones aeronáuticas colombianas. Presenta un salto cualitativo con respecto a las versiones previas, exhibiendo mejoras en precisión y un uso de recursos de GPU más eficiente, reflejando nuestro compromiso con el desarrollo sostenible y de calidad de tecnologías de IA para la aviación.
Metadatos del Nuevo Modelo
- Nombre del Modelo: GemmaColRAC-AeroExpertV4
- Tipo de GPU: NVIDIA GeForce RTX 3090
- Tiempo Total de Entrenamiento: 12607 segundos
- Optimizador: AdamW con Bitfitting y Neutrino Noise
- Pasos Máximos: 4904
- Tamaño de Secuencia: 2048
- Tamaño de Lote por Dispositivo: 2
- Versión de Transformers: 4.39.2
- Framework de Optimización: Unsloth 2024.4
- Métodos de Cuantificación: bf16 con gradient_accumulation_steps de 2
- Función de Activación: gelu_pytorch_tanh
Comparación con la Versión Anterior
La versión anterior de GemmaColRAC-AeroExpertV4
utilizó una GPU NVIDIA A100-SXM4-40GB, con un tiempo de entrenamiento total de aproximadamente 50 minutos (3007 segundos). Operó con una tasa de aprendizaje de 0.00005 y utilizó un optimizador Paged AdamW 8bit. Además, se entrenó con un tamaño de lote por dispositivo de 1 y una versión de Transformers de 4.39.0.
Las diferencias clave con la versión actual incluyen:
- Mejora en GPU: Cambio de NVIDIA A100-SXM4-40GB a NVIDIA GeForce RTX 3090, ofreciendo un mejor rendimiento en el entrenamiento.
- Tiempo de Entrenamiento: Se incrementó para permitir una mayor fine-tuning del modelo, lo que resulta en una mejora de la precisión.
- Tamaño de Lote: Incremento del tamaño de lote por dispositivo de 1 a 2, permitiendo una optimización más eficiente.
- Actualización de Optimizador: Introducción de técnicas avanzadas como Bitfitting y Neutrino Noise para mejorar la convergencia del modelo.
- Pasos Máximos: Aumento significativo de los pasos máximos de 1638 a 4904, lo que sugiere una cobertura más amplia de los datos y un aprendizaje más profundo.
Estos cambios han resultado en una versión más robusta y eficiente de nuestro modelo, fortaleciendo su capacidad para asistir y proveer orientación en la regulación aeronáutica colombiana.
Evaluación
Para la evaluación de GemmaColRAC-AeroExpertV4
, hemos habilitado plataformas para que expertos en el campo realicen pruebas. Estas plataformas proporcionan un entorno interactivo donde los usuarios pueden probar el modelo en varios escenarios de la normativa aeronáutica colombiana y verificar su rendimiento y precisión. Visita:
Impacto Ambiental
El desarrollo de GemmaColRAC-AeroExpertV4
se ha llevado a cabo con un enfoque en la sostenibilidad. Hemos trabajado para optimizar la eficiencia y minimizar el impacto ambiental, lo que incluye una reducción en el consumo de energía y una disminución en la huella de carbono durante el proceso de entrenamiento de nuestro modelo. Esto no solo mejora la eficiencia operativa, sino que también apoya nuestros objetivos de responsabilidad ambiental.
Fine-Tuning del Modelo
Para adaptar y mejorar GemmaColRAC-AeroExpertV4
a tareas específicas o conjuntos de datos, proporcionamos un notebook de Jupyter que guía a los usuarios a través del proceso de fine-tuning.
El notebook incluye los siguientes pasos:
- Preparación del entorno: configuración de las librerías necesarias y verificación de la disponibilidad del hardware adecuado (por ejemplo, GPU).
- Carga de los datos: instrucciones para importar tu conjunto de datos personalizado.
- Preprocesamiento: técnicas para preparar y procesar los datos antes del entrenamiento.
- Fine-Tuning: código detallado para realizar el fine-tuning del modelo
GemmaColRAC-AeroExpertV4
, incluyendo la configuración de hiperparámetros. - Evaluación: métodos para evaluar la eficacia del modelo fine-tuned en tu tarea específica.
- Guardar y cargar el modelo: instrucciones para guardar el modelo fine-tuned y cargarlo para futuras predicciones o análisis.
Puedes encontrar el notebook de fine-tuning en el siguiente enlace:
Notebook de Fine-Tuning para GemmaColRAC-AeroExpertV4
Este recurso está diseñado para ser accesible a usuarios de todos los niveles de habilidad técnica, desde principiantes hasta expertos en machine learning.
Environmental Impact
Given the use of an NVIDIA V100 GPU for approximately 4.67 hours, the carbon emissions can be estimated using the Machine Learning Impact calculator. This tool accounts for the hardware type, runtime, and other factors to provide a comprehensive view of the environmental impact of training large AI models.
- Hardware Type: NVIDIA V100 GPU
- Hours used: ~3.0
- Carbon Emitted: 356.25
Constants
power_consumption_kW = 0.25 # 250 watts in kW runtime_hours = 3.0 carbon_intensity_gCO2eq_per_kWh = 475 # Global average carbon intensity
Calculate carbon emissions
carbon_emitted_gCO2eq = power_consumption_kW * runtime_hours * carbon_intensity_gCO2eq_per_kWh
carbon_emitted_gCO2eq = 356.25
Más Información
Para obtener más detalles sobre GemmaColRAC-AeroExpertV4
, incluyendo acceso al modelo y sus capacidades completas, visita nuestro repositorio en Hugging Face.