pegasus-x-thai-sum / README.md
satjawat's picture
Update README.md
865436d
|
raw
history blame
2.28 kB
metadata
language:
  - th
pipeline_tag: summarization
tags:
  - summarization
  - pegasus_x
widget:
  - text: >-
      ผมกินตับหมูดิบแล้วหมดสติไป พอฟื้นอีกทีในต่างโลกดันกลายเป็นหมูซะงั้น!
      คนที่ช่วยผมเอาไว้คือเจส สาวน้อยผู้อ่านใจคนได้ อู๊ด! น่ารัก!
      ผมก็ตัดสินใจมุ่งหน้าสู่นครหลวงพร้อมกับเจสเพื่อหาทางกลับเป็นมนุษย์
      การเดินทางแสนรื่นรมย์จึงเริ่มต้นขึ้น...
      แต่ไหงเราถึงถูกตามล่าเอาชีวิตล่ะเนี่ย!?
    example_title: Novel

This repository features a fine-tuned Pegasus X model designed for summarizing Thai text. The architecture of the model is based on the Pegasus X model.

Library

pip install transformers

Example

from transformers import PegasusXForConditionalGeneration, AutoTokenizer

model = PegasusXForConditionalGeneration.from_pretrained("satjawat/pegasus-x-thai-sum")
tokenizer = AutoTokenizer.from_pretrained("satjawat/pegasus-x-thai-sum")

new_input_string = "ข้อความ"
new_input_ids = tokenizer(new_input_string.lower(), return_tensors="pt").input_ids
summary_ids = model.generate(new_input_ids, max_length=50, num_beams=6, length_penalty=2.0, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Input:", new_input_string)
print("Generated Summary:", summary)

Training hyperparameters

The following hyperparameters were used during training:

  • accumulation_steps:2
  • num_epochs:20
  • num_beams:6
  • learning_rate:lr=5e-5
  • optimizer:AdamW with betas=(0.9,0.999) and epsilon=1e-08
  • activation_function:gelu
  • add_bias_logits:True
  • normalize_embedding:True
  • add_final_layer_norm:False
  • normalize_before:False