NickyNicky's picture
Update README.md
14d4a3f verified
|
raw
history blame
6.47 kB
metadata
library_name: transformers
tags:
  - unsloth
  - LLMs-Aviation
  - AI-Regulatory-Compliance
  - RAC-AI-Colombia
license: apache-2.0
datasets:
  - somosnlp/ColombiaRAC_FullyCurated
language:
  - es
widget:
  - text: >
      <bos><start_of_turn>system\n\nYou are a helpful AI assistant.\n\nResponde
      en formato json.\n\nEres un agente experto en la normativa aeronautica
      Colombiana.<end_of_turn>\n\n<start_of_turn>user\n\n¿Qué sucede con las
      empresas de servicios aéreos comerciales que no hayan actualizado su
      permiso de operación después del 31 de marzo de
      2024?<end_of_turn>\n\n<start_of_turn>model

GemmaColRAC-AeroExpertV5 🛫

Este documento ofrece una visión detallada de GemmaColRAC-AeroExpertV5, la quinta iteración de nuestro modelo especializado en regulaciones aeronáuticas colombianas. Presenta un salto cualitativo con respecto a las versiones previas, exhibiendo mejoras en precisión y un uso de recursos de GPU más eficiente, reflejando nuestro compromiso con el desarrollo sostenible y de calidad de tecnologías de IA para la aviación.

Imagen del Reglamento Aeronáutico Colombiano

Metadatos del Nuevo Modelo

  • Nombre del Modelo: GemmaColRAC-AeroExpertV4
  • Tipo de GPU: NVIDIA GeForce RTX 3090
  • Tiempo Total de Entrenamiento: 12607 segundos
  • Optimizador: AdamW con Bitfitting y Neutrino Noise
  • Pasos Máximos: 4904
  • Tamaño de Secuencia: 2048
  • Tamaño de Lote por Dispositivo: 2
  • Versión de Transformers: 4.39.2
  • Framework de Optimización: Unsloth 2024.4
  • Métodos de Cuantificación: bf16 con gradient_accumulation_steps de 2
  • Función de Activación: gelu_pytorch_tanh

Comparación con la Versión Anterior

La versión anterior de GemmaColRAC-AeroExpertV4 utilizó una GPU NVIDIA A100-SXM4-40GB, con un tiempo de entrenamiento total de aproximadamente 50 minutos (3007 segundos). Operó con una tasa de aprendizaje de 0.00005 y utilizó un optimizador Paged AdamW 8bit. Además, se entrenó con un tamaño de lote por dispositivo de 1 y una versión de Transformers de 4.39.0.

Las diferencias clave con la versión actual incluyen:

  • Mejora en GPU: Cambio de NVIDIA A100-SXM4-40GB a NVIDIA GeForce RTX 3090, ofreciendo un mejor rendimiento en el entrenamiento.
  • Tiempo de Entrenamiento: Se incrementó para permitir una mayor fine-tuning del modelo, lo que resulta en una mejora de la precisión.
  • Tamaño de Lote: Incremento del tamaño de lote por dispositivo de 1 a 2, permitiendo una optimización más eficiente.
  • Actualización de Optimizador: Introducción de técnicas avanzadas como Bitfitting y Neutrino Noise para mejorar la convergencia del modelo.
  • Pasos Máximos: Aumento significativo de los pasos máximos de 1638 a 4904, lo que sugiere una cobertura más amplia de los datos y un aprendizaje más profundo.

Estos cambios han resultado en una versión más robusta y eficiente de nuestro modelo, fortaleciendo su capacidad para asistir y proveer orientación en la regulación aeronáutica colombiana.

Evaluación

Para la evaluación de GemmaColRAC-AeroExpertV4, hemos habilitado plataformas para que expertos en el campo realicen pruebas. Estas plataformas proporcionan un entorno interactivo donde los usuarios pueden probar el modelo en varios escenarios de la normativa aeronáutica colombiana y verificar su rendimiento y precisión. Visita:

Impacto Ambiental

El desarrollo de GemmaColRAC-AeroExpertV4 se ha llevado a cabo con un enfoque en la sostenibilidad. Hemos trabajado para optimizar la eficiencia y minimizar el impacto ambiental, lo que incluye una reducción en el consumo de energía y una disminución en la huella de carbono durante el proceso de entrenamiento de nuestro modelo. Esto no solo mejora la eficiencia operativa, sino que también apoya nuestros objetivos de responsabilidad ambiental.

Fine-Tuning del Modelo

Para adaptar y mejorar GemmaColRAC-AeroExpertV4 a tareas específicas o conjuntos de datos, proporcionamos un notebook de Jupyter que guía a los usuarios a través del proceso de fine-tuning.

El notebook incluye los siguientes pasos:

  • Preparación del entorno: configuración de las librerías necesarias y verificación de la disponibilidad del hardware adecuado (por ejemplo, GPU).
  • Carga de los datos: instrucciones para importar tu conjunto de datos personalizado.
  • Preprocesamiento: técnicas para preparar y procesar los datos antes del entrenamiento.
  • Fine-Tuning: código detallado para realizar el fine-tuning del modelo GemmaColRAC-AeroExpertV4, incluyendo la configuración de hiperparámetros.
  • Evaluación: métodos para evaluar la eficacia del modelo fine-tuned en tu tarea específica.
  • Guardar y cargar el modelo: instrucciones para guardar el modelo fine-tuned y cargarlo para futuras predicciones o análisis.

Puedes encontrar el notebook de fine-tuning en el siguiente enlace:

Notebook de Fine-Tuning para GemmaColRAC-AeroExpertV4

Este recurso está diseñado para ser accesible a usuarios de todos los niveles de habilidad técnica, desde principiantes hasta expertos en machine learning.

Environmental Impact

Given the use of an NVIDIA V100 GPU for approximately 4.67 hours, the carbon emissions can be estimated using the Machine Learning Impact calculator. This tool accounts for the hardware type, runtime, and other factors to provide a comprehensive view of the environmental impact of training large AI models.

  • Hardware Type: NVIDIA V100 GPU
  • Hours used: ~3.0
  • Carbon Emitted: 356.25

Constants

power_consumption_kW = 0.25 # 250 watts in kW runtime_hours = 3.0 carbon_intensity_gCO2eq_per_kWh = 475 # Global average carbon intensity

Calculate carbon emissions

carbon_emitted_gCO2eq = power_consumption_kW * runtime_hours * carbon_intensity_gCO2eq_per_kWh

carbon_emitted_gCO2eq = 356.25

Más Información

Para obtener más detalles sobre GemmaColRAC-AeroExpertV4, incluyendo acceso al modelo y sus capacidades completas, visita nuestro repositorio en Hugging Face.