sagorbrur
added model card
2af2285
|
raw
history blame
No virus
3.16 kB
metadata
language: bn
tags:
  - mbert
  - bengali
  - question-answering
  - bangla
  - qa
license: MIT
datasets:
  - tydiqa

mBERT Bengali Question Answering

mBERT-Bengali-Tydiqa-QA is a question answering model fine-tuning bert-base-multilingual-uncased model with tydiqa Bengali datasets.

Usage

from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline

model_name = "sagorsarker/mbert-bengali-tydiqa-qa"
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
qa_input = {
    'question': 'মাস্টারদা সূর্যকুমার সেনের বাবার নাম কী ছিল ?',
    'context': 'সূর্য সেন ১৮৯৪ সালের ২২ মার্চ চট্টগ্রামের রাউজান থানার নোয়াপাড়ায় অর্থনৈতিক ভাবে অস্বচ্ছল পরিবারে জন্মগ্রহণ করেন। তাঁর পিতার নাম রাজমনি সেন এবং মাতার নাম শশী বালা সেন। রাজমনি সেনের দুই ছেলে আর চার মেয়ে। সূর্য সেন তাঁদের পরিবারের চতুর্থ সন্তান। দুই ছেলের নাম সূর্য ও কমল। চার মেয়ের নাম বরদাসুন্দরী, সাবিত্রী, ভানুমতী ও প্রমিলা। শৈশবে পিতা মাতাকে হারানো সূর্য সেন কাকা গৌরমনি সেনের কাছে মানুষ হয়েছেন। সূর্য সেন ছেলেবেলা থেকেই খুব মনোযোগী ভাল ছাত্র ছিলেন এবং ধর্মভাবাপন্ন গম্ভীর প্রকৃতির ছিলেন।'
}
result = nlp(qa_input)
print(result)

Training Details

  • mBERT-Bengali-Tydiqa-QA model build using bert-base-multilingual-uncased
  • mBERT-Bengali-Tydiqa-QA model trained with tydiqa Bengali datasets.
  • Tydiqa Bengali data contains 2390 train data and 113 validation data
  • mBERT-Bengali-Tydiqa-QA model trained in kaggle GPU
  • mBERT-Bengali-Tydiqa-QA model trained total 5 epochs
  • mBERT-Bengali-Tydiqa-QA trained using transformers/example/question-aswering notebook with all default settings except pre-trained model and datasets part

Evaluation Results

Here is the training evaluation part

Exact Match: 57.52212389380531
F1 Score: 68.66183963529096