Türkçe Doğal Dil İşleme Yarışması - HEZARTECH.AI
İçindekiler
- Proje Hakkında
- Kullanılan Teknolojiler
- Kurulum
- Veri Seti
- Model Eğitimi
- Sonuçlar
- Katkıda Bulunma
- Lisans
Proje Hakkında
Bu proje, Teknofest kapsamında Türkçe doğal dil işleme (NLP) üzerine senaryo bazında odaklanmaktadır. Proje, duygu anlizi ve bunlnarın firmalarla eşleştirilmesi için geliştirildi. Amaç, en doğru sonuç ile duygu-firma eşleştirmesini sağlamaktır.
Kullanılan Teknolojiler
Bu projede kullanılan başlıca teknolojiler ve kütüphaneler şunlardır:
Kurulum
Bu projeyi yerel makinenizde çalıştırmak için aşağıdaki adımları izleyin:
Depoyu klonlayın:
git clone https://github.com/kullaniciadi/proje-adi.git cd proje-adi
Gerekli kütüphaneleri yükleyin:
pip install -r requirements.txt
Veri Seti
Bu projede kullanılan veri seti, hem manuel hem otomatik etiketlenip üretildi. Bu veri seti string veri tipi içerir.
Örnek veri:
Cümle | Sonuç |
---|---|
Turkcell çok iyi bir şirket. TurkTelekom ise yeteri kadar iyi değil ve kötü. | [{"entity": "Turkcell", "sentiment": "Olumlu"},{"entity": "TurkTelekom", "sentiment": "Olumsuz"}] |
Model Eğitimi
Model eğitimi için 80 bin tane veriden oluşan bir veri seti hazırlandı. Veri setinin bir kısmını X'den (Twitter) bir kısmını Şikayet Var'dan ve bir kısmını ise Amazon'dan çektik. Ve bu çekilen veriler kapsamında Generative AI'a sentetik veri seti üretme ile veri setimizi çoğalttık.
Hiper-Parametrelerimiz
from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir='./results',
evaluation_strategy="epoch",
per_device_train_batch_size=24, # Batch size'ı artırdık
per_device_eval_batch_size=24, # Batch size'ı artırdık
num_train_epochs=2, # Epoch sayısını artırdık
weight_decay=0.01,
learning_rate=1e-5, # Öğrenme oranını düşürdük
logging_dir='./logs',
logging_steps=1000,
fp16=True,
report_to='none',
save_total_limit=1, # Yalnızca son checkpoint saklanacak
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
)
trainer.train()
Sonuçlar
Modelin performansını değerlendirmek için elde edilen sonuçlar burada listelenir. Örneğin, accuracy
, precision
, recall
, ve f1-score
gibi metrikler belirtilebilir:
Metrik | Değer |
---|---|
Doğruluk | 0.9382220300240934 |
F1-Skoru | 0.9380159183820019 |
Katkıda Bulunma
Bu projeye katkıda bulunmak isterseniz, lütfen bir Pull Request gönderin veya bir Issue açın. Katkılar her zaman memnuniyetle karşılanır!
Lisans
Bu proje Apache-2.0 altında lisanslanmıştır. Daha fazla bilgi için LICENSE dosyasına bakabilirsiniz.
- Downloads last month
- 6