|
--- |
|
tags: |
|
- summarization |
|
- mT5 |
|
language: |
|
- th |
|
widget: |
|
- text: "ผมกินตับหมูดิบแล้วหมดสติไป พอฟื้นอีกทีในต่างโลกดันกลายเป็นหมูซะงั้น! คนที่ช่วยผมเอาไว้คือเจส สาวน้อยผู้อ่านใจคนได้ อู๊ด! น่ารัก! ระดับสายตาหมูทำให้เห็นอะไรสีขาวบริสุทธิ์แวบๆ แจ่มเลย... “เอ่อ ฉันได้ยินเสียงในใจของคุณนะคะ…” ฉิบแล้ว! ความมักมากรั่วไหลหมด! แม้ว่าชีวิตประสาหมูที่มีเด็กสาวผู้อ่อนโยนคอยดูแลจะไม่เลว ผมก็ตัดสินใจมุ่งหน้าสู่นครหลวงพร้อมกับเจสเพื่อหาทางกลับเป็นมนุษย์ การเดินทางแสนรื่นรมย์จึงเริ่มต้นขึ้น... แต่ไหงเราถึงถูกตามล่าเอาชีวิตล่ะเนี่ย!?" |
|
example_title: "Novel" |
|
- text: "พริ้ง คนเริงเมือง, ผลิตโดยบริษัท มีเดีย สตูดิโอ ร่วมกับ ,นีโน่ บราเดอร์ส, ที่ตอนนี้เดินทางมาถึงตอนอวสานแล้ว โดยวันนี้ถึงตอนที่, พริ้ง (จั๊กจั่น–อคัมย์สิริ), ฆ่าสามีที่ 6 ,หลวงเสนาะ, ตายไปเรียบร้อย ก็ถึงคราวที่จะทำตามใจตัวเองด้วยการอ่อย ,เปรมฤทัย (โตนนท์), ลูกชายคนเดียวของ ,หลวงเสนาะ, ให้กลายมาเป็นสามีของตัวเองสมใจอยากเสียที,งานนี้สกิลการอ่อยมาเต็ม เริ่มจากเดินมาหา, เปรมฤทัย, ที่ห้องก่อนจะบอกว่าไม่สามารถทำใจให้เลิกรักได้เลย จนมาถึงวันนี้วันที่สามารถเปิดใจได้แล้ว วันที่เราจะรักกันได้แล้ว ทำไมต้องห้ามใจอีก, เปรมฤทัย, ได้ยินแบบนี้ก็หวั่นไหวคล้อยตามไม่ห้ามใจปล่อยตัวให้ความเสน่หาเข้าครอบงำ,ฉากนี้ ผกก. ,บุ๋ม–รัญญา, ยกกองไปถ่ายทำที่บ้านท่าไม้ จ.สมุทรสงคราม ก่อนเริ่มถ่ายจริง ,บุ๋ม, เรียกทั้ง, จั๊กจั่น, และ ,โตนนท์, มาทำสมาธิ และบิ้วท์ให้ทั้งคู่เข้าใจในความต้องการที่ทั้งตัวละคร ,พริ้ง, และ ,เปรมฤทัย, ต้องการปลดปล่อยออกมา เมื่อทั้งคู่เข้าใจบทแล้วเริ่มถ่ายจริง ,จั๊กจั่น, เล่นเต็มที่ไม่ยั้ง พรั่งพรูความรู้สึกที่มีออกมาพร้อมน้ำตาเรียกความสงสาร ก่อนจะโน้มจูบกันอย่างดูดดื่ม งานนี้จูบจริงไม่ใช้สแตนด์อินใดๆ ติดตามชมฉากแซ่บทิ้งทวน คืนวันพฤหัสบดีนี้ ทางช่อง 7.,ติดตามอ่านนิยายเรื่อง พริ้ง คนเริงเมือง ได้ที่นี่" |
|
example_title: "Thai movie" |
|
- text: "หนุ่มใหญ่วัย 49 ปี เสียชีวิตคาบ้านย่านปากเกร็ด สภาพมีเลือดออกปากกองใหญ่ ข้างศพมีไซริงค์ฉีดยา เพื่อนบอกมาหาที่บ้าน เห็นว่าฉีดไอซ์ไป 2 เข็ม ก่อนคลุ้มคลั่งทำลายข้าวของ ล้มคว่ำหน้าแน่นิ่ง ,เวลา 22.00 น. วันที่ 6 ส.ค. ร.ต.ท.พันธ์พงศ์ ภูริวัฒนพงศ์ รอง สว.(สอบสวน) สภ.ปากเกร็ด จ.นนทบุรี รับแจ้งมีผู้เสียชีวิตภายในบ้านเลขที่ 77/489 หมู่ 1 หมู่บ้านดวงแก้ว ถนนติวานนท์ ต.บ้านใหม่ ไปสอบสวนพร้อมด้วย พ.ต.อ.พงศ์จักร ปรีชาการุณพงศ์ ผกก. พ.ต.ท.นภธร วาชัยยุง รอง ผกก.ป สภ.ปากเกร็ด แพทย์สถาบันนิติวิทยาศาสตร์ และเจ้าหน้าที่กู้ภัยมูลนิธิป่อเต็กตึ๊ง ,ที่เกิดเหตุเป็นบ้านทาวน์เฮาส์ 2 ชั้น บนชั้น 2 พบศพ นายพงษ์ธนกร หรือเอ อุ่นทน อายุ 49 ปี เจ้าของบ้าน นอนคว่ำหน้าเสียชีวิตอยู่บนพื้น ในสภาพเลือดออกปาก ข้างศพพบไซริงค์ฉีดยาตกอยู่ ทางเจ้าหน้าที่จึงเก็บไว้เป็นหลักฐาน นอกจากนี้ข้าวของภายในห้องล้มระเนระนาดกระจัดกระจาย ,จากการสอบปากคำ นายเอ๋ (นามสมมติ) อายุ 31 ปี ให้การว่า ตนเป็นเพื่อนกับผู้เสียชีวิต ก่อนเกิดเหตุได้เดินทางมาหาที่บ้านเห็นผู้เสียชีวิตฉีดยาไอซ์เข้าไป 2 เข็ม จากนั้นผู้เสียชีวิตมีอาการคลุ้มคลั่งทำลายข้าวของก่อนนอนคว่ำหน้าแน่นิ่งไป กระทั่งเสียชีวิตในที่สุด เบื้องต้นเจ้าหน้าที่คาดว่าสาเหตุการเสียชีวิตน่าจะเกิดจากการเสพยาเกินขนาด อย่างไรก็ตามจะได้สอบสวนหาสาเหตุที่แท้จริงอีกครั้ง" |
|
example_title: "Crime news" |
|
inference: |
|
parameters: |
|
min_length: 40 |
|
max_length: 140 |
|
|
|
--- |
|
|
|
# mt5-base-thaisum |
|
This repository contains the finetuned mT5-base model for Thai sentence summarization. The architecture of the model is based on mT5 model and fine-tuned on text-summarization pairs in Thai. |
|
|
|
### Example |
|
```python |
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
|
import torch |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("preechanon/mt5-base-thaisum-text-summarization") |
|
model = AutoModelForSeq2SeqLM.from_pretrained("preechanon/mt5-base-thaisum-text-summarization") |
|
new_input_string = "ข้อความที่ต้องการ" |
|
input_ = tokenizer(new_input_string, truncation=True, max_length=1024, return_tensors="pt") |
|
with torch.no_grad(): |
|
preds = model.generate( |
|
input_['input_ids'].to('cpu'), |
|
num_beams=15, |
|
num_return_sequences=1, |
|
no_repeat_ngram_size=1, |
|
remove_invalid_values=True, |
|
max_length=140, |
|
) |
|
|
|
summary = tokenizer.decode(preds[0], skip_special_tokens=True) |
|
summary |
|
``` |
|
|
|
### Score |
|
- Rouge1: 0.488931 |
|
- Rouge2: 0.309732 |
|
- Rougel: 0.425490 |
|
- Rougelsum: 0.444359 |
|
|
|
### Training hyperparameters |
|
|
|
The following hyperparameters were used during training: |
|
- learning_rate: 5e-04 |
|
- train_batch_size: 8 |
|
- eval_batch_size: 1 |
|
- seed: 42 |
|
- optimizer: AdamW with betas=(0.9,0.999), epsilon=1e-08 and weight_decay=0.1 |
|
- warmup step: 5000 |
|
- lr_scheduler_type: linear |
|
- num_epochs: 6 |
|
- gradient_accumulation_steps: 4 |
|
|
|
### Framework versions |
|
|
|
- Transformers 4.36.1 |
|
- Pytorch 2.1.2 |
|
|
|
### Resource Funding |
|
NSTDA Supercomputer center (ThaiSC) and the National e-Science Infrastructure Consortium for their support of computer facilities. |
|
|
|
# Citation |
|
If you use "preechanon/mt5-base-thaisum-text-summarization" in your project or publication, please cite the model as follows: |
|
|
|
``` |
|
ปรีชานนท์ ชาติไทย และ สัจจวัจน์ ส่งเสริม. (2567), |
|
การสรุปข้อความข่าวภาษาไทยด้วยโครงข่ายประสาทเทียม (Thai News Text Summarization Using Neural Network), |
|
วิทยาศาสตรบัณฑิต (วทบ.):ขอนแก่น, มหาวิทยาลัยขอนแก่น |
|
``` |
|
|