Alyosha11 commited on
Commit
2b62dc4
1 Parent(s): 961b233

Upload training_experiments.ipynb with huggingface_hub

Browse files
Files changed (1) hide show
  1. training_experiments.ipynb +327 -0
training_experiments.ipynb ADDED
@@ -0,0 +1,327 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 1,
6
+ "id": "3773101f-4a16-4a7f-aef7-f0bff19ec326",
7
+ "metadata": {},
8
+ "outputs": [],
9
+ "source": [
10
+ "from datasets import load_dataset\n",
11
+ "from models.unigram_trainer import UnigramTrainer\n",
12
+ "from transformers import PreTrainedTokenizerFast\n",
13
+ "from phonemizer import phonemize\n",
14
+ "from phonemizer.separator import Separator"
15
+ ]
16
+ },
17
+ {
18
+ "cell_type": "markdown",
19
+ "id": "7579cb9d-993b-441d-b026-5e449fa4f92a",
20
+ "metadata": {},
21
+ "source": [
22
+ "### Loading the training dataset\n",
23
+ "\n",
24
+ "- `combined_hibn_corpus`: Bilingual (hi + bn) Corpus\n",
25
+ "- `combined_hibn_phonemized_corpus`: Bilingual (hi + bn) Phonemized Corpus\n",
26
+ "\n",
27
+ "Both the corpus have word-to-word correspondences between the native and phonemized text. One thing to note is that phonemized version doesn't have any punctuation (TODO: Resolve later).\n",
28
+ "\n",
29
+ "This notebook has sample usage for combined corpus. \n",
30
+ "\n",
31
+ "To separate the corpus into individual languages into different folders (required in case of training a monolingual tokenizer), use the following -\n",
32
+ "- `combined_hibn_corpus` has both Hindi and Bengali text files in the form `sample_XXX.txt` and `bn_sample_XXX.txt` respectively.\n",
33
+ "- `combined_hibn_phonemized_corpus` has both Hindi and Bengali text files in the form `phn_sample_XXX.txt` and `bn_phn_sample_XXX.txt` respectively."
34
+ ]
35
+ },
36
+ {
37
+ "cell_type": "code",
38
+ "execution_count": 2,
39
+ "id": "f046073d-be7f-4af9-83e7-e91ab9141eb0",
40
+ "metadata": {},
41
+ "outputs": [
42
+ {
43
+ "name": "stdout",
44
+ "output_type": "stream",
45
+ "text": [
46
+ "CPU times: user 152 ms, sys: 242 ms, total: 394 ms\n",
47
+ "Wall time: 3.43 s\n"
48
+ ]
49
+ }
50
+ ],
51
+ "source": [
52
+ "%%time\n",
53
+ "# Native language corpus\n",
54
+ "\n",
55
+ "ds = load_dataset(\"parquet\", data_files={'train': 'data/combined_hibn_corpus.parquet'})\n",
56
+ "ds = ds['train'] # Select the train split (All data in the directory is loaded as train split if not otherwise specified)"
57
+ ]
58
+ },
59
+ {
60
+ "cell_type": "code",
61
+ "execution_count": 3,
62
+ "id": "f189f6a6-01cc-42dc-b376-33b1dfd702b2",
63
+ "metadata": {},
64
+ "outputs": [
65
+ {
66
+ "name": "stdout",
67
+ "output_type": "stream",
68
+ "text": [
69
+ "CPU times: user 66.4 ms, sys: 81.8 ms, total: 148 ms\n",
70
+ "Wall time: 2.21 s\n"
71
+ ]
72
+ }
73
+ ],
74
+ "source": [
75
+ "%%time\n",
76
+ "# Phonemized language corpus\n",
77
+ "\n",
78
+ "phon_ds = load_dataset(\"parquet\", data_files={'train': 'data/combined_hibn_phonemized_corpus.parquet'})\n",
79
+ "phon_ds = phon_ds['train']"
80
+ ]
81
+ },
82
+ {
83
+ "cell_type": "markdown",
84
+ "id": "c0720ca4-3047-4ce6-85b7-bac28de3926b",
85
+ "metadata": {},
86
+ "source": [
87
+ "### Trainer"
88
+ ]
89
+ },
90
+ {
91
+ "cell_type": "code",
92
+ "execution_count": 4,
93
+ "id": "dd932096-bc5d-47d0-873c-7415c677b54a",
94
+ "metadata": {},
95
+ "outputs": [
96
+ {
97
+ "name": "stdout",
98
+ "output_type": "stream",
99
+ "text": [
100
+ "\n",
101
+ "\n",
102
+ "CPU times: user 1h 16min 23s, sys: 3min 36s, total: 1h 20min\n",
103
+ "Wall time: 6min 14s\n"
104
+ ]
105
+ }
106
+ ],
107
+ "source": [
108
+ "%%time\n",
109
+ "# Train a native lang tokenizer, change dataset = ds and save it to an output directory\n",
110
+ "UnigramTrainer(dataset=ds, vocab_size=8000, batch_size=10000, output_dir=\"hibn_unigramtokenizer_8k\")"
111
+ ]
112
+ },
113
+ {
114
+ "cell_type": "code",
115
+ "execution_count": 5,
116
+ "id": "b4139763-fefe-4ddf-96f1-d42628b22124",
117
+ "metadata": {},
118
+ "outputs": [
119
+ {
120
+ "name": "stdout",
121
+ "output_type": "stream",
122
+ "text": [
123
+ "\n",
124
+ "\n",
125
+ "CPU times: user 40min 2s, sys: 39.5 s, total: 40min 41s\n",
126
+ "Wall time: 3min 1s\n"
127
+ ]
128
+ }
129
+ ],
130
+ "source": [
131
+ "%%time\n",
132
+ "# Train a phonemized lang tokenizer, change dataset = phon_ds\n",
133
+ "UnigramTrainer(dataset=phon_ds, vocab_size=8000, batch_size=10000, output_dir=\"hibn_phn_unigramtokenizer_8k\")"
134
+ ]
135
+ },
136
+ {
137
+ "cell_type": "markdown",
138
+ "id": "38363765-6eef-4d69-ab40-91b17bd9668e",
139
+ "metadata": {},
140
+ "source": [
141
+ "### Load the trained tokenizers"
142
+ ]
143
+ },
144
+ {
145
+ "cell_type": "code",
146
+ "execution_count": 6,
147
+ "id": "2f1fcbd1-e56c-49ec-a0f1-e17b4198f488",
148
+ "metadata": {},
149
+ "outputs": [],
150
+ "source": [
151
+ "baseline_tokenizer = PreTrainedTokenizerFast.from_pretrained(\"hibn_unigramtokenizer_8k\") # input directory for the saved tokenizer\n",
152
+ "phoneme_tokenizer = PreTrainedTokenizerFast.from_pretrained(\"hibn_phn_unigramtokenizer_8k\")"
153
+ ]
154
+ },
155
+ {
156
+ "cell_type": "markdown",
157
+ "id": "6541d07b-66bc-4fa9-b015-171dab7ffac6",
158
+ "metadata": {},
159
+ "source": [
160
+ "### Testing the tokenizers"
161
+ ]
162
+ },
163
+ {
164
+ "cell_type": "code",
165
+ "execution_count": 7,
166
+ "id": "86f819b4-d3ac-456a-8b69-1dc8143dc195",
167
+ "metadata": {},
168
+ "outputs": [],
169
+ "source": [
170
+ "test_string_hi = 'बहुत ही पुरानी बात है,ये कहानी है सुन्दर फूलों की दुनिया की है जहा बहुत से सुन्दर सुन्दर फूल है जो आपस में बाते करते है खेलते है और बहुत खुश रहते है एक सुंदर जगह जहां हर किसी फूल का दिल खुश था। जो एक अनोखी दुनिया है जो फूलों से महकती है। उसी सुन्दर जगह में बहुत सुन्दर गुलाब नाम का फूल रहता था। गुलाब, जैसा कि उसका नाम है, फूलों के के बीच रहने रहने वाला बहुत प्यार फूल था। उसका सपना था कि वह सभी फूलों की दुनिया में घूमे और और उन्हें देखे वे कितने सुन्दर है जो उसके ही जैसे है वह उनसे बातें करे।'\n",
171
+ "test_string_bn = 'এখনই তো খাবার বয়স, অথচ পকেটমানি জোটে না। ওদিকে হিরুদা আর ধীরুদার গলায় গলায় বন্ধুত্ব। কেন ওদের জুটি অটুট তাও জানে বিল্টু-মিল্টু। ওরা ভোজনা বাড়িতে বিনা নিমন্ত্রণে, বিনামূল্যে গান্ডে পিন্ডে গিলে আসে। অনুষ্ঠানের হলের আশেপাশে ঘাপটি মেরে অপেক্ষা করে, যেই কনেযাত্রী বা বরযাত্রীর দল ঢোকে, ওদের সঙ্গে মিশে যায়। কোন তরফের অতিথি কেউ বুঝতে পারেনা।ভোলাদার চায়ের দোকানের ঠেকে ব্যঙ্গ করে হীরুদা বলে, মজার খবর বোম্বাইের এক রেস্টুরেন্টে খাবারের বিল না মেটানোর জন্য কাপ-ডিশ ধুইয়ে ছেড়ে দিয়েছে। বিল্টু, মিল্টুকে বলে এইরকম একটা রেস্টুরেন্ট যদি এখানে থাকত বেশি বেশি করে ডিশ ধুয়ে দিতাম। হিরুদা খবর পরিবেশন করল, অনাবাসী কয়েকজন ভারতীয় ম্যাগনাম রেস্টুরেন্ট খুলেছে। সেখানে নাকি বিল মেটাতে পারেনি বলে, জামা খুলে জমা রেখেছে। বিল মিটিয়ে জামা ফেরত নিতে হবে।ওরা রেস্টুরেন্টটা খুঁজে পেল। দেখতে পেল একধারে পুরনো জামা কাপড় সুন্দর করে ঝোলানো আছে। তাহলে খবরটি মিথ্যে নয়। বেশি খাবারের অর্ডার দিল না প্রথম দিন রয়ে সয়ে খাওয়া ভাল। ম্যাগনাম আমাদের মাগনায় দেবে। কাউন্টারে দাম দেওয়ার সময় বলল, “আমাদের মানিব্যাগটা মনে হয় কোথাও পড়ে গেছে। দাম দিতে পারছি না, পরে দিয়ে যাব।” ম্যানেজার বলল, “ঠিক আছে ভাই তোমাদের জামাটা খুলে রেখে যাও পয়সা দিয়ে নিয়ে যেও।” বাইরে এসে বিল্টু বলে, “কেন তোকে বলেছিলাম রঙিন গেঞ্জি পড়ে আসতে এখন বুঝলি?” মিল্টু বলে, “রাস্তার লোকরা জানতে পারবেনা আমরা জামা রেস্টুরেন্টে বন্ধক রেখেছি।” খুব খুশি। এত দিনে মনের মতো একটা রেস্টুরেন্ট হয়েছে। যুগ যুগ জিও। কিছুদিনের মধ্যেই ওরা আবার হাজির। দেখলো ওদের জামাগুলো টাঙানো আছে। ভারিক্কি গলায় ভাল ভাল খাবারের অর্ডার দিল। বেয়ারা একগ্লাস শরবত ধরিয়ে দিয়ে বলে, “ম্যনেজার সাহেব বলেছেন খাবার তৈরি করতে একটু সময় লাগবে। আপনারা ততক্ষণ বিনি পয়সার শরবত খান।”শরবত অর্ধেক শেষ হয়েছে। পেট মোচড় দিয়ে উঠল। আর থাকতে পারছে না দুজনেই ছুটল বাথরুমে। ম্যনেজার বাথরুমে তালা লাগিয়ে বলে, “আমাদের ফটো আইডেন্টি মেশিনে ধরা পড়েছে, বিল মেটাওনি। পুলিশে খবর দেওয়া হয়েছে। ওরাই ব্যবস্থা নেবে।'"
172
+ ]
173
+ },
174
+ {
175
+ "cell_type": "code",
176
+ "execution_count": 8,
177
+ "id": "dfc81392-1576-4071-9dff-b4abd5403b99",
178
+ "metadata": {},
179
+ "outputs": [],
180
+ "source": [
181
+ "# phonemize both the test strings\n",
182
+ "# phonemize func takes input as a list of strings instead of a single string, input is [test_string_hi]\n",
183
+ "# The output is also a list, to access the phonemized string, use phonemized_hi[0]\n",
184
+ "\n",
185
+ "phonemized_hi = phonemize(\n",
186
+ " [test_string_hi],\n",
187
+ " language = 'hi',\n",
188
+ " backend = 'espeak',\n",
189
+ " separator = Separator(phone = None, word = ' ', syllable = None),\n",
190
+ " strip = True,\n",
191
+ " language_switch='remove-flags',\n",
192
+ " preserve_punctuation = True,\n",
193
+ " njobs = 1\n",
194
+ " )\n",
195
+ "\n",
196
+ "phonemized_bn = phonemize(\n",
197
+ " [test_string_bn],\n",
198
+ " language = 'bn',\n",
199
+ " backend = 'espeak',\n",
200
+ " separator = Separator(phone = None, word = ' ', syllable = None),\n",
201
+ " strip = True,\n",
202
+ " language_switch='remove-flags',\n",
203
+ " preserve_punctuation = True,\n",
204
+ " njobs = 1\n",
205
+ " )"
206
+ ]
207
+ },
208
+ {
209
+ "cell_type": "code",
210
+ "execution_count": 9,
211
+ "id": "b6526118-9c93-481d-9e14-081be9d2300b",
212
+ "metadata": {},
213
+ "outputs": [
214
+ {
215
+ "name": "stdout",
216
+ "output_type": "stream",
217
+ "text": [
218
+ "Number of Hindi words: 111\n",
219
+ "Number of phonemized Hindi words: 111\n",
220
+ "Number of Bengali words: 290\n",
221
+ "Number of phonemized Bengali words: 292\n"
222
+ ]
223
+ }
224
+ ],
225
+ "source": [
226
+ "# Hindi test\n",
227
+ "\n",
228
+ "hi_words = test_string_hi.split()\n",
229
+ "hi_phn_words = phonemized_hi[0].split()\n",
230
+ "print(\"Number of Hindi words:\",len(hi_words))\n",
231
+ "print(\"Number of phonemized Hindi words:\",len(hi_phn_words))\n",
232
+ "\n",
233
+ "# Bengali test\n",
234
+ "\n",
235
+ "bn_words = test_string_bn.split()\n",
236
+ "bn_phn_words = phonemized_bn[0].split()\n",
237
+ "print(\"Number of Bengali words:\",len(bn_words))\n",
238
+ "print(\"Number of phonemized Bengali words:\",len(bn_phn_words))"
239
+ ]
240
+ },
241
+ {
242
+ "cell_type": "markdown",
243
+ "id": "4de575f5-45e8-4a7c-b98b-1804aa29948a",
244
+ "metadata": {},
245
+ "source": [
246
+ "#### Test on Hindi"
247
+ ]
248
+ },
249
+ {
250
+ "cell_type": "code",
251
+ "execution_count": 10,
252
+ "id": "144aba82-0ae6-4fdb-b651-9398fdd8b59c",
253
+ "metadata": {},
254
+ "outputs": [
255
+ {
256
+ "name": "stdout",
257
+ "output_type": "stream",
258
+ "text": [
259
+ "Number of baseline tokens: 143\n",
260
+ "['▁बहुत', '▁ही', '▁पुरानी', '▁बात', '▁है,', 'ये', '▁कहानी', '▁है', '▁सु', 'न्द', 'र', '▁फूल', 'ों', '▁की', '▁दुनिया', '▁की', '▁है', '▁ज', 'हा', '▁बहुत', '▁से', '▁सु', 'न्द', 'र', '▁सु', 'न्द', 'र', '▁फूल', '▁है', '▁जो', '▁आप', 'स', '▁में', '▁बात', 'े', '▁करते', '▁है', '▁खेल', 'ते', '▁है', '▁और', '▁बहुत', '▁खुश', '▁रहते', '▁है', '▁एक', '▁सुंदर', '▁जगह', '▁जहां', '▁हर', '▁किसी', '▁फूल', '▁का', '▁दिल', '▁खुश', '▁था।', '▁जो', '▁एक', '▁अन', 'ो', 'ख', 'ी', '▁दुनिया', '▁है', '▁जो', '▁फूल', 'ों', '▁से', '▁मह', 'क', 'ती', '▁है।', '▁उसी', '▁सु', 'न्द', 'र', '▁जगह', '▁में', '▁बहुत', '▁सु', 'न्द', 'र', '▁गुलाब', '▁नाम', '▁का', '▁फूल', '▁रहता', '▁था।', '▁गुलाब', ',', '▁जैसा', '▁कि', '▁उसका', '▁नाम', '▁है,', '▁फूल', 'ों', '▁के', '▁के', '▁बीच', '▁रहने', '▁रहने', '▁वाला', '▁बहुत', '▁��्यार', '▁फूल', '▁था।', '▁उसका', '▁सपना', '▁था', '▁कि', '▁वह', '▁सभी', '▁फूल', 'ों', '▁की', '▁दुनिया', '▁में', '▁घूम', 'े', '▁और', '▁और', '▁उन्हें', '▁देख', 'े', '▁वे', '▁कितने', '▁सु', 'न्द', 'र', '▁है', '▁जो', '▁उसके', '▁ही', '▁जैसे', '▁है', '▁वह', '▁उनसे', '▁बातें', '▁करे', '।']\n",
261
+ "Number of phoneme tokens: 139\n",
262
+ "['▁bʌhʊt', '▁hi', '▁pʊɾaːni', '▁baːt', '▁hɛː', ',', 'jeː', '▁kəhaːni', '▁hɛː', '▁sʊn', 'dəɾ', '▁phuːl', 'õ', '▁ki', '▁dʊnɪjaː', '▁ki', '▁hɛː', '▁ɟʌ', 'haː', '▁bʌhʊt', '▁seː', '▁sʊn', 'dəɾ', '▁sʊn', 'dəɾ', '▁phuːl', '▁hɛː', '▁ɟoː', '▁aːp', 'əs', '▁mẽː', '▁baːt', 'eː', '▁kʌɾteː', '▁hɛː', '▁kheːl', 'teː', '▁hɛː', '▁ɔːɾ', '▁bʌhʊt', '▁khʊʃ', '▁ɾʌhəteː', '▁hɛː', '▁eːk', '▁sũdəɾ', '▁ɟʌɡəh', '▁ɟʌhã', '▁hʌɾ', '▁kɪsi', '▁phuːl', '▁kaː', '▁dɪl', '▁khʊʃ', '▁thaː', '▁ɟoː', '▁eːk', '▁ʌnoːkh', 'i', '▁dʊnɪjaː', '▁hɛː', '▁ɟoː', '▁phuːl', 'õ', '▁seː', '▁mʌhə', 'kti', '▁hɛː', '▁ʊsi', '▁sʊn', 'dəɾ', '▁ɟʌɡəh', '▁mẽː', '▁bʌhʊt', '▁sʊn', 'dəɾ', '▁ɡʊlaːb', '▁naːm', '▁kaː', '▁phuːl', '▁ɾʌhət', 'aː', '▁thaː', '▁ɡʊlaːb', ',', '▁ɟɛːsaː', '▁kɪ', '▁ʊskaː', '▁naːm', '▁hɛː', ',', '▁phuːl', 'õ', '▁keː', '▁keː', '▁biːc', '▁ɾʌhəneː', '▁ɾʌhəneː', '▁ʋaːlaː', '▁bʌhʊt', '▁pːjaːɾ', '▁phuːl', '▁thaː', '▁ʊskaː', '▁', 'sʌpnaː', '▁thaː', '▁kɪ', '▁ʋəh', '▁sʌbhi', '▁phuːl', 'õ', '▁ki', '▁dʊnɪjaː', '▁mẽː', '▁ɡhuːm', 'eː', '▁ɔːɾ', '▁ɔːɾ', '▁ʊnhẽː', '▁deːkh', 'eː', '▁ʋeː', '▁', 'kɪtneː', '▁sʊn', 'dəɾ', '▁hɛː', '▁ɟoː', '▁ʊskeː', '▁hi', '▁ɟɛːseː', '▁hɛː', '▁ʋəh', '▁', 'ʊnseː', '▁baːtẽː', '▁kʌɾeː']\n"
263
+ ]
264
+ }
265
+ ],
266
+ "source": [
267
+ "print(\"Number of baseline tokens:\",len(baseline_tokenizer.encode(test_string_hi)))\n",
268
+ "print(baseline_tokenizer.tokenize(test_string_hi))\n",
269
+ "print(\"Number of phoneme tokens:\",len(phoneme_tokenizer.encode(phonemized_hi[0])))\n",
270
+ "print(phoneme_tokenizer.tokenize(phonemized_hi[0]))"
271
+ ]
272
+ },
273
+ {
274
+ "cell_type": "markdown",
275
+ "id": "b5a681b3-878c-43fd-be33-7ad2fcd4b038",
276
+ "metadata": {},
277
+ "source": [
278
+ "#### Test on Bengali"
279
+ ]
280
+ },
281
+ {
282
+ "cell_type": "code",
283
+ "execution_count": 11,
284
+ "id": "3ba25cb3-81ea-46ec-99c7-df0a217cc00c",
285
+ "metadata": {},
286
+ "outputs": [
287
+ {
288
+ "name": "stdout",
289
+ "output_type": "stream",
290
+ "text": [
291
+ "Number of baseline tokens: 631\n",
292
+ "['▁এখন', 'ই', '▁তো', '▁খাবার', '▁বয়স', ',', '▁অথচ', '▁প', 'কে', 'ট', 'মান', 'ি', '▁জো', 'টে', '▁না।', '▁ও', 'দিকে', '▁হি', 'রু', 'দা', '▁আর', '▁ধ', 'ী', 'রু', 'দার', '▁গ', 'লায়', '▁গ', 'লায়', '▁বন্ধু', 'ত্ব', '।', '▁কেন', '▁ও', 'দের', '▁জু', 'টি', '▁অ', 'টু', 'ট', '▁তা', 'ও', '▁জা', 'নে', '▁বি', 'ল্ট', 'ু', '-', 'মি', 'ল্ট', 'ু', '।', '▁ও', 'রা', '▁', 'ভো', 'জ', 'না', '▁বাড়িতে', '▁বি', 'না', '▁নি', 'ম', 'ন্ত্র', 'ণ', 'ে', ',', '▁বিনামূল্যে', '▁গা', 'ন্ড', 'ে', '▁পি', 'ন্ড', 'ে', '▁', 'গি', 'লে', '▁আসে', '।', '▁অনুষ্ঠানে', 'র', '▁হলে', 'র', '▁আ', 'শে', 'পা', 'শে', '▁ঘ', 'া', 'প', 'টি', '▁মে', 'রে', '▁অপেক্ষা', '▁করে', ',', '▁যে', 'ই', '▁কন', 'ে', 'যা', 'ত্রী', '▁বা', '▁বর', 'যা', 'ত্রী', 'র', '▁দল', '▁ঢে', 'া', 'কে', ',', '▁ও', 'দের', '▁সঙ্গে', '▁মি', 'শে', '▁যায়।', '▁কোন', '▁তর', 'ফ', 'ের', '▁অতিথি', '▁কেউ', '▁বুঝতে', '▁পারেন', 'া।', 'ভো', 'লা', 'দার', '▁চায়', 'ের', '▁দোকান', 'ের', '▁', 'ঠ', 'ে', 'কে', '▁', 'ব্য', 'ঙ্গ', '▁করে', '▁হ', 'ী', 'রু', 'দা', '▁বলে', ',', '▁ম', 'জার', '▁খবর', '▁বো', 'ম্ব', 'াই', 'ের', '▁এক', '▁রে', 'স্ট', 'ুর', 'েন্ট', 'ে', '▁খাবার', 'ের', '▁বিল', '▁না', '▁মে', 'ট', 'ানোর', '▁জন্য', '▁কা', 'প', '-', 'ডি', 'শ', '▁', 'ধু', 'ই', 'য়ে', '▁ছেড়ে', '▁দিয়েছে', '।', '▁বি', 'ল্ট', 'ু', ',', '▁মি', 'ল্ট', 'ু', 'কে', '▁বলে', '▁এই', 'রকম', '▁একটা', '▁রে', 'স্ট', 'ুর', 'েন্ট', '▁যদি', '▁এখানে', '▁থাক', 'ত', '▁বেশি', '▁বেশি', '▁করে', '▁ডি', 'শ', '▁', 'ধু', 'য়ে', '▁দি', 'তা', 'ম', '।', '▁হি', 'রু', 'দা', '▁খবর', '▁পরিবেশ', 'ন', '▁কর', 'ল,', '▁অ', 'না', 'বাসী', '▁কয়েকজন', '▁ভারতীয়', '▁ম্যা', 'গ', 'না', 'ম', '▁রে', 'স্ট', 'ুর', 'েন্ট', '▁খুলে', 'ছে।', '▁সেখানে', '▁নাকি', '▁বিল', '▁মে', 'টা', 'তে', '▁পারেন', 'ি', '▁বলে', ',', '▁জা', 'মা', '▁খুলে', '▁জমা', '▁রেখে', 'ছে।', '▁বিল', '▁মি', 'টি', 'য়ে', '▁জা', 'মা', '▁ফের', 'ত', '▁নিতে', '▁হবে।', 'ও', 'রা', '▁রে', 'স্ট', 'ুর', 'েন্ট', 'টা', '▁খুঁজে', '▁পে', 'ল', '।', '▁দেখতে', '▁পে', 'ল', '▁এক', 'ধার', 'ে', '▁', 'পুর', 'নো', '▁জা', 'মা', '▁কাপড়', '▁সুন্দর', '▁করে', '▁ঝ', 'ে', 'াল', 'ানো', '▁আছে।', '▁তাহলে', '▁খবর', 'টি', '▁মি', 'থ', '্য', 'ে', '▁নয়।', '▁বেশি', '▁খাবার', 'ের', '▁অ', 'র্', 'ডার', '▁দিল', '▁না', '▁প্রথম', '▁দিন', '▁', 'র', 'য়ে', '▁স', 'য়ে', '▁খাওয়া', '▁ভাল', '।', '▁ম্যা', 'গ', 'না', 'ম', '▁আমাদের', '▁মা', 'গ', 'নায়', '▁দেবে', '।', '▁', 'কাউন্ট', 'ার', 'ে', '▁দাম', '▁দেওয়ার', '▁সময়', '▁বল', 'ল,', '▁', '“', 'আ', 'মা', 'দের', '▁মা', 'নি', 'ব', '্যা', 'গ', 'টা', '▁মনে', '▁হয়', '▁কোথাও', '▁পড়ে', '▁গেছে।', '▁দাম', '▁দিতে', '▁পার', 'ছি', '▁না,', '▁পরে', '▁দিয়ে', '▁যা', 'ব', '।', '”', '▁ম্যানেজার', '▁বল', 'ল,', '▁', '“', 'ঠ', 'িক', '▁আছে', '▁ভাই', '▁তোমাদের', '▁জা', 'মা', 'টা', '▁খুলে', '▁রেখে', '▁যা', 'ও', '▁প', 'য়', 'সা', '▁দিয়ে', '▁নিয়ে', '▁যে', 'ও', '।', '”', '▁বাইরে', '▁এসে', '▁বি', 'ল্ট', 'ু', '▁বলে', ',', '▁', '“', 'কে', 'ন', '▁তো', 'কে', '▁বলে', 'ছিলাম', '▁রঙ', 'িন', '▁গে', 'ঞ্জ', 'ি', '▁পড়ে', '▁আসতে', '▁এখন', '▁বুঝ', 'লি', '?', '”', '▁মি', 'ল্ট', 'ু', '▁বলে', ',', '▁', '“', 'রা', 'স্তা', 'র', '▁লোক', 'রা', '▁জানতে', '▁পারবেন', 'া', '▁আমরা', '▁জা', 'মা', '▁রে', 'স্ট', 'ুর', 'েন্ট', 'ে', '▁বন্ধ', 'ক', '▁রেখে', 'ছি।', '”', '▁খুব', '▁খুশি', '।', '▁এত', '▁দিন', 'ে', '▁মনে', 'র', '▁মতো', '▁একটা', '▁রে', 'স্ট', 'ুর', 'েন্ট', '▁হয়েছে।', '▁যুগ', '▁যুগ', '▁জি', 'ও', '।', '▁কিছু', 'দিন', 'ের', '▁মধ্যে', 'ই', '▁ও', 'রা', '▁আবার', '▁হা', 'জি', 'র', '।', '▁দেখলে', 'া', '▁ও', 'দের', '▁জা', 'মা', 'গুলো', '▁', 'টা', 'ঙ', 'ানো', '▁আছে।', '▁', 'ভার', 'িক', '্', 'কি', '▁গ', 'লায়', '▁ভাল', '▁ভাল', '▁খাবার', 'ের', '▁অ', 'র্', 'ডার', '▁দিল', '।', '▁বে', 'য়া', 'রা', '▁এক', 'গ্ল', 'াস', '▁শ', 'র', 'ব', 'ত', '▁ধর', 'িয়ে', '▁দিয়ে', '▁বলে', ',', '▁', '“', 'ম', '্য', 'নে', 'জার', '▁সাহেব', '▁বলেছেন', '▁খাবার', '▁তৈরি', '▁করতে', '▁একটু', '▁সময়', '▁লাগবে', '।', '▁আপনার', 'া', '▁তত', 'ক্ষণ', '▁বি', 'নি', '▁প', 'য়', 'সার', '▁শ', 'র', 'ব', 'ত', '▁খান', '।', '”', 'শ', 'র', 'ব', 'ত', '▁অ', 'র্ধ', 'ে', 'ক', '▁শেষ', '▁হয়েছে।', '▁পে', 'ট', '▁মো', 'চ', 'ড়', '▁দিয়ে', '▁উঠল', '।', '���আর', '▁থাকতে', '▁পার', 'ছে', '▁না', '▁দুজন', 'েই', '▁', 'ছু', 'ট', 'ল', '▁বা', 'থ', 'রু', 'মে', '।', '▁ম', '্য', 'নে', 'জার', '▁বা', 'থ', 'রু', 'মে', '▁তা', 'লা', '▁লাগিয়ে', '▁বলে', ',', '▁', '“', 'আ', 'মা', 'দের', '▁ফ', 'টো', '▁আই', 'ডে', 'ন্টি', '▁মেশিন', 'ে', '▁ধরা', '▁পড়েছে', ',', '▁বিল', '▁মে', 'টা', 'ও', 'নি।', '▁পুলিশ', 'ে', '▁খবর', '▁দেওয়া', '▁হয়েছে।', '▁ও', 'রা', 'ই', '▁ব্যবস্থা', '▁নেবে', '।']\n",
293
+ "Number of phoneme tokens: 604\n",
294
+ "['▁', 'ekhɔnɔi', '▁to', '▁khabaɾ', '▁bɔjɔʃ', ',', '▁', 'ɔːthoco', '▁p', 'ɔke', 'ʈ', 'ɔman', 'i', '▁ɟo', 'ʈ', 'e', '▁na', '▁oː', 'di', 'ke', '▁hi', 'ɾ', 'u', 'da', '▁aɾ', '▁', 'dhi', 'ɾ', 'u', 'daɾ', '▁ɡɔla', 'j', 'o', '▁ɡɔla', 'j', 'o', '▁bondhu', 'tbɔ', '▁ken', '▁oː', 'deɾ', '▁ɟu', 'ʈi', '▁', 'o', 'ʈ', 'uʈ', '▁ta', 'oː', '▁ɟane', '▁bil', 'ʈu', 'mil', 'ʈu', '▁oːɾ', 'a', '▁bho', 'ɟɔn', 'a', '▁bar.', 'ite', '▁bi', 'na', '▁ni', 'mɔn', 'tɾɔ', 'n', 'e', ',', '▁binamulle', '▁ɡa', 'nɖe', '▁pi', 'nɖe', '▁ɡ', 'ile', '▁aʃe', '▁onuʃʈhane', 'ɾ', '▁hɔle', 'ɾ', '▁aʃe', 'paʃ', 'e', '▁ɡh', 'a', 'p', 'ɔʈi', '▁meɾ', 'e', '▁ɔpekhkha', '▁kɔɾe', ',', '▁dʒe', 'i', '▁kɔn', 'e', 'dʒa', 'tɾi', '▁ba', '▁bɔɾ', 'ɔ', 'dʒa', 'tɾi', 'ɾ', '▁dɔl', '▁ɖh', 'o', 'ke', ',', '▁oː', 'deɾ', '▁ʃɔŋɡe', '▁miʃ', 'e', '▁dʒaj', 'o', '▁kon', '▁tɔɾɔf', 'eɾ', '▁otithi', '▁kew', '▁buɟhɔte', '▁paɾen', 'a', '▁bho', 'la', 'daɾ', '▁tʃa', 'eɾ', '▁dokan', 'eɾ', '▁', 'ʈhe', 'ke', '▁bæ', 'ŋɡɔ', '▁kɔɾe', '▁hi', 'ɾ', 'u', 'da', '▁bɔle', ',', '▁mɔɟa', 'ɾ', '▁khɔbɔɾ', '▁bo', 'm', 'ba', 'i', 'ɾ', '▁ek', '▁ɾeʃʈuɾenʈe', '▁khabaɾ', 'eɾ', '▁bil', '▁na', '▁me', 'ʈ', 'anoɾ', '▁ɟɔnnɔ', '▁ka', 'pɔ', 'ɖi', 'ʃ', '▁', 'dhu', 'i', '▁tʃher.', '▁ditʃhe', '▁bil', 'ʈu', ',', '▁mil', 'ʈu', 'ke', '▁bɔle', '▁ei', 'ɾɔkɔm', '▁ækʈaː', '▁', 'ɾeʃ', 'ʈ', 'uɾ', 'enʈɔ', '▁dʒodi', '▁ekhane', '▁thak', 'ɔto', '▁beʃi', '▁beʃi', '▁kɔɾe', '▁ɖi', 'ʃ', '▁', 'dhu', 'e', '▁di', 'ta', 'm', '▁hi', 'ɾ', 'u', 'da', '▁khɔbɔɾ', '▁poɾibeʃ', 'ɔn', '▁kɔɾɔl', ',', '▁', 'ɔna', 'baʃi', '▁kɔkɔɟɔn', '▁bhaɾɔtij', '▁mæ', 'ɡɔn', 'am', '▁', 'ɾeʃ', 'ʈ', 'uɾ', 'enʈɔ', '▁khule', 'tʃhe', '▁ʃekhane', '▁naki', '▁bil', '▁me', 'ʈa', 'te', '▁paɾen', 'i', '▁bɔle', ',', '▁ɟama', '▁khule', '▁ɟɔma', '▁ɾekhetʃhe', '▁bil', '▁mi', 'ʈi', 'e', '▁ɟama', '▁', 'feɾɔto', '▁nite', '▁hɔbe', '▁oːɾ', 'a', '▁', 'ɾeʃ', 'ʈ', 'uɾ', 'enʈɔ', 'ʈa', '▁khũɟe', '▁pe', 'l', '▁dekhɔte', '▁pe', 'l', '▁ekɔ', 'dha', 'ɾ', 'e', '▁puɾɔn', 'o', '▁ɟama', '▁kapɔr.', '▁ʃundɔɾ', '▁kɔɾe', '▁ɟh', 'o', 'l', 'ano', '▁atʃhe', '▁tahɔle', '▁khɔbɔɾ', 'ɔʈi', '▁mi', 'th', 'ː', 'e', '▁nɔj', 'o', '▁beʃi', '▁khabaɾ', 'eɾ', '▁', 'ɔɾɖ', 'aɾ', '▁di', 'l', '▁na', '▁pɾothɔm', '▁din', '▁ɾo', 'e', '▁ʃɔ', 'e', '▁khaoː', 'a', '▁bhal', '▁mæ', 'ɡɔn', 'am', '▁amadeɾ', '▁ma', 'ɡɔn', 'aj', 'o', '▁debe', '▁ka', 'un', 'ʈaɾ', 'e', '▁dam', '▁deoːɾ', '▁ʃɔmɔj', '▁bɔlɔl', ',', '▁', '“', 'a', 'ma', 'deɾ', '▁man', 'i', 'bæ', 'ɡ', 'ɔʈa', '▁mɔne', '▁hɔj', '▁kothaoː', '▁pɔr.', '▁ɡetʃhe', '▁dam', '▁dite', '▁paɾɔtʃhi', '▁na', ',', '▁pɔɾe', '▁di', '▁dʒa', 'b', '”', '▁mæneɟaɾ', '▁bɔlɔl', ',', '▁', '“', 'ʈhi', 'k', '▁atʃhe', '▁bhai', '▁tomadeɾ', '▁ɟama', 'ʈa', '▁khule', '▁ɾekhe', '▁dʒaoː', '▁pɔ', 'j', 'ɔʃa', '▁di', 'e', '▁ni', 'e', '▁dʒe', 'oː', '”', '▁baiɾe', '▁eʃe', '▁bil', 'ʈu', '▁bɔle', ',', '▁', '“', 'ke', 'n', '▁to', 'ke', '▁bɔle', 'tʃhilam', '▁ɾo', 'ŋ', 'i', 'n', '▁ɡ', 'e', 'n', 'ɟi', '▁pɔr.', '▁aʃɔte', '▁ekhɔn', '▁buɟh', 'ɔl', 'i', '?”', '▁mil', 'ʈu', '▁bɔle', ',', '▁', '“', 'ɾ', 'a', 'sta', 'ɾ', '▁lok', 'ɔɾa', '▁ɟanɔte', '▁paɾɔben', 'a', '▁amɔɾa', '▁ɟama', '▁ɾeʃʈuɾenʈe', '▁bɔndhɔ', 'k', '▁ɾekhe', 'tʃhi', '”', '▁khub', '▁khuʃi', '▁', 'æto', '▁dine', '▁mɔne', 'ɾ', '▁mɔto', '▁ækʈaː', '▁', 'ɾeʃ', 'ʈ', 'uɾ', 'enʈɔ', '▁hɔ', 'e', 'tʃhe', '▁dʒuɡ', '▁dʒuɡ', '▁ɟi', 'oː', '▁kitʃhudin', 'eɾ', '▁', 'mɔdhdʒei', '▁oːɾ', 'a', '▁abaɾ', '▁ha', 'ɟi', 'ɾ', '▁dekh', 'ɔlo', '▁oː', 'deɾ', '▁ɟama', 'ɡulo', '▁ʈa', 'ŋ', 'ano', '▁atʃhe', '▁', 'bhaɾ', 'i', 'k', 'ki', '▁ɡɔla', 'j', 'o', '▁bhal', '▁bhal', '▁khabaɾ', 'eɾ', '▁', 'ɔɾɖ', 'aɾ', '▁di', 'l', '▁be', 'aɾ', 'a', '▁ekɔ', 'ɡ', 'laʃ', '▁ʃɔɾɔ', 'b', 'ɔto', '▁dho', 'ɾ', 'i', 'e', '▁di', 'e', '▁bɔle', ',', '▁', '“', 'm', 'æn', 'e', 'ɟaɾ', '▁ʃaheb', '▁bɔletʃhen', '▁khabaɾ', '▁tojɾi', '▁kɔɾɔte', '▁ekɔʈu', '▁ʃɔmɔj', 'o', '▁laɡɔbe', '▁apɔnaɾa', '▁tɔtɔ', 'khkhɔn', '▁bin', 'i', '▁pɔ', 'jɔ', 'ʃaɾ', '▁ʃɔɾɔ', 'b', 'ɔto', '▁khan', '”', 'ʃɔɾ', 'ɔbɔ', 'to', '▁ɔɾdhek', '▁ʃeʃ', '▁hɔtʃhe', '▁pe', 'ʈ', '▁mo', 'tʃɔ', 'r.', '▁di', '▁uʈhɔl', '▁aɾ', '▁thakɔte', '▁paɾ', 'ɔtʃhe', '▁na', '▁duɟɔn', 'e', 'i', '▁', 'tʃhu', 'ʈɔl', '▁ba', 'th', 'ɔɾum', 'e', '▁mæneɟaɾ', '▁ba', 'th', 'ɔɾum', 'e', '▁ta', 'la', '▁laɡi', 'e', '▁bɔle', ',', '▁', '“', 'a', 'ma', 'deɾ', '▁fɔʈo', '▁', 'aiɖ', 'e', 'n', 'ʈi', '▁meʃin', 'e', '▁dhɔɾa', '▁pɔr.', 'e', 'tʃhe', ',', '▁bil', '▁me', 'ʈa', 'oː', 'ni', '▁puliʃ', 'e', '▁khɔbɔɾ', '▁deoː', 'a', '▁hɔ', 'e', 'tʃhe', '▁oːɾ', 'a', 'i', '▁bæbɔstha', '▁nebe']\n"
295
+ ]
296
+ }
297
+ ],
298
+ "source": [
299
+ "print(\"Number of baseline tokens:\",len(baseline_tokenizer.encode(test_string_bn)))\n",
300
+ "print(baseline_tokenizer.tokenize(test_string_bn))\n",
301
+ "print(\"Number of phoneme tokens:\",len(phoneme_tokenizer.encode(phonemized_bn[0])))\n",
302
+ "print(phoneme_tokenizer.tokenize(phonemized_bn[0]))"
303
+ ]
304
+ }
305
+ ],
306
+ "metadata": {
307
+ "kernelspec": {
308
+ "display_name": "Python 3 (ipykernel)",
309
+ "language": "python",
310
+ "name": "python3"
311
+ },
312
+ "language_info": {
313
+ "codemirror_mode": {
314
+ "name": "ipython",
315
+ "version": 3
316
+ },
317
+ "file_extension": ".py",
318
+ "mimetype": "text/x-python",
319
+ "name": "python",
320
+ "nbconvert_exporter": "python",
321
+ "pygments_lexer": "ipython3",
322
+ "version": "3.11.7"
323
+ }
324
+ },
325
+ "nbformat": 4,
326
+ "nbformat_minor": 5
327
+ }