|
--- |
|
language: |
|
- ru |
|
- en |
|
tags: |
|
- summarization |
|
- dialogue-summarization |
|
- text2text-generation |
|
- t5 |
|
datasets: |
|
- d0rj/samsum-ru |
|
- IlyaGusev/gazeta |
|
- zjkarina/matreshka |
|
- rcp-meetings/rudialogsum_v2 |
|
- GEM/wiki_lingua |
|
- mlsum |
|
metrics: |
|
- bleu |
|
- rouge |
|
widget: |
|
- example_title: Diploma Introduction |
|
text: 'Актуальность проблемы. Электронная информация играет все большую роль во |
|
всех сферах жизни современного общества. В последние годы объем научно-технической |
|
текстовой информации в электронном виде возрос настолько, что возникает угроза |
|
обесценивания этой информации в связи с трудностями поиска необходимых сведений |
|
среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно |
|
усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными |
|
становятся методы автоматизации реферирования текстовой информации, то есть методы |
|
получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка проблемы автоматического |
|
реферирования текста и соответственно попытки ее решения с использованием различных |
|
подходов предпринимались многими исследователями. История применения вычислительной |
|
техники для реферирования насчитывает уже более 50 лет и связана с именами таких |
|
исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г. |
|
Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы |
|
к решению данной проблемы, которые достаточно четко подразделяются на два направления: |
|
автоматическое реферирование, основанное на экстрагировании из первичных документов |
|
с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), |
|
совокупность которых образует некоторый экстракт; автоматическое реферирование, |
|
основанное на выделении из текстов с помощью специальных информационных языков |
|
наиболее существенной информации и порождении новых текстов (рефератов), содержательно |
|
обобщающих первичные документы. |
|
|
|
' |
|
- example_title: Biological Info |
|
text: Первую многоножку, у которой более тысячи ног, обнаружили в австралийских |
|
пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству |
|
ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на |
|
нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого |
|
перемещения и проникновения в труднодоступные места — ученые полагают, такая многоножка |
|
может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными |
|
и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих |
|
членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более |
|
тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и |
|
США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в |
|
журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных |
|
вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда |
|
наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих |
|
на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый |
|
вид исследователи назвали Eumillipes persephone, в честь Персефоны — древнегреческой |
|
богини подземного мира. У многоножки оказалось 1306 ног — больше, чем у любого |
|
другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme |
|
plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны, |
|
— говорит биолог Бруно Бузатто. — Как только я понял, какой длины они были... |
|
Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело |
|
длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие |
|
ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте, |
|
эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью, |
|
выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала |
|
снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток |
|
ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml) |
|
model-index: |
|
- name: d0rj/rut5-base-summ |
|
results: |
|
- task: |
|
type: summarization |
|
name: Summarization |
|
dataset: |
|
name: samsum |
|
type: samsum |
|
config: samsum |
|
split: test |
|
metrics: |
|
- type: rouge |
|
value: 28.8694 |
|
name: ROUGE-1 |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTdhMjM4YWJiZTBiNmJhNTc0ZjQ4M2E1M2RjMDI4YThmYjEzMmJmZjdlOGRjOWRiZDA2YWEzOTU0MTMwYmJjNCIsInZlcnNpb24iOjF9.6bddYV-Rnp4zhgQjbv4cHKtXHDCLknfxTH2bYsVe6R9wgW45gUSck61EIeJdqj0PS7Vi2zcz8YW4DEXDd-UECQ |
|
- type: rouge |
|
value: 8.4686 |
|
name: ROUGE-2 |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiN2NiOTdkNTE0NjVmYTcyMDY1ZjYzMjZlZjI1MDViOWFmM2M1MDZjOGZiYThlMTc4MWY5YThlNDJmOGYyNWRmZCIsInZlcnNpb24iOjF9.BLeNnva3EJFMz8xwXZamguKWhLyaGTRFr1C12Yh8xTlimrc_mENHqwshJxdi4RULcGwlQmjGjXNw1DMJ42pDCQ |
|
- type: rouge |
|
value: 24.2357 |
|
name: ROUGE-L |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjM2OGMwMGYzOTgwNjhlZjhjNjU2YzU3MDZkMjljMzExZjYwNTU1MDM0YmM1NmE3OTUyYzBhMzcyOGM5ZmY1MSIsInZlcnNpb24iOjF9.ttNXKqK9rTsMM1aj4XvXUVuJZZAtgG2JE2NI3ZWT4kVcsC7F6mYFXNfUKEk2koKPkq0gwdPiAc-wrpbtmQg5Cg |
|
- type: rouge |
|
value: 25.8543 |
|
name: ROUGE-LSUM |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmMzNTdjMGFkNzhiYzFkYWMwNWRlZTM5ZTMxMjU5MjFiMDVjNDk3MWFlMTM5Yzc4MTFjYzNhODVmNjQ3ZTBmNyIsInZlcnNpb24iOjF9.80eUellPpBKzjW-kKDjr6WlzFh_nyC2Q4-gNtzQekOzUyuPynl913nWh4NcAw5YXbYC24dklshdFD5VheeYlBQ |
|
- type: loss |
|
value: 3.2456042766571045 |
|
name: loss |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOWEwZTRlMDEyZDQ0ZTBiMzAyZTkyZWUwOGYyODQ0NzA1MWM4NTE3ZDBjYTYxNmMxODIyNmNiZDM0MmYzMzNjZCIsInZlcnNpb24iOjF9.evm57JUbHamIx2FcFmjRHwvZ3e818BYxT8tuv26KVnq9IHO8xyMHPes9slOMhdTijAT_leexMIKMRT_iFOGHAg |
|
- type: gen_len |
|
value: 27.5543 |
|
name: gen_len |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZTIzNWY2NGEyNjQyMzdmYmM4ZDI5MTVkZDQ0ZTk3NmFiOWRjNTdiMjU3MmQwY2NhZTEzNTVhZGU5NTZhN2JiZiIsInZlcnNpb24iOjF9.7C3OQP2bl0EZRhRlRYtxd6cQapif0a2Vq5kRFiSdX6KLxU_QALZAlh_9DFyyYPh39R3e6Hyi438Ox6BGaalmBA |
|
- task: |
|
type: summarization |
|
name: Summarization |
|
dataset: |
|
name: xsum |
|
type: xsum |
|
config: default |
|
split: test |
|
metrics: |
|
- type: rouge |
|
value: 16.1279 |
|
name: ROUGE-1 |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTgxZjgzZjAwOGViNTNjZDZhNTBhNzUzOTJiYmRkOWM5NDc0MjAxNzdjZDMyMDhlYzFiN2NlNGI5OTVkNDNiOCIsInZlcnNpb24iOjF9.Ix7CPD9gti8W7OMF4NtbMejt6fPEoZRJw2O-GeV-JRkgrIRXkrifGGE55BHdQyEe2KRcAcNCTav6igtiuEd7Cw |
|
- type: rouge |
|
value: 2.1128 |
|
name: ROUGE-2 |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmViN2Y2OTA2YmE4YWYyODUxZDljNzkwMTM0ZWQ0ZTdjYWIzOTY0NzZjZTA1ZWNhNmE3OTU0NDAzNjVkMmE4ZSIsInZlcnNpb24iOjF9.G0EZ_XzRCLNeNL32Hzr7nGQmbX8rOjHfVuZW2zyIgnzenMMHWzAtN5vqq7R9ZVPP3roLFD5XSFyigHchIqu2Cg |
|
- type: rouge |
|
value: 12.2033 |
|
name: ROUGE-L |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTM3YTY2YWY5M2VhM2MyNWZhOGZlNTZlMjk5Y2MzMGViYTAyOGJjODZkZTBhMjZjOWViYTI4Y2RkMmEwZTQxNCIsInZlcnNpb24iOjF9.i3wgF36CvXF3rVGQHiR7bpkQ4zB7huuOn8yNnj-elmOkDmp7Mmw1UfGCX_1x99mBrnMHWdCJ57rCCYr2XbWrAw |
|
- type: rouge |
|
value: 12.4127 |
|
name: ROUGE-LSUM |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiODg2MDUxZGU3MThjNzUxY2FiYjE3NTk5ZTdkNTYzMmFmNGVmZGU0NDQwOWQzOWNiZDE5YmViNDZlMzA4OWI2ZCIsInZlcnNpb24iOjF9.VJsGd6PO5iy5p5bE2QS81UXhxocsEnRNswbPcWdMDO9yQ4rU7v0QlucI53bQ7MPGpDThMCfyjpvnu682rQDGDg |
|
- type: loss |
|
value: 4.575754165649414 |
|
name: loss |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMmY5NTc1MGY3MmFkNWMyZDlmNTZhOWYyYWRhNGM0MWJkYmVjZGZiODAzYmZmMDk3MjViMDNjYjFlYmJlZDhiYSIsInZlcnNpb24iOjF9.0Tc8MQAwiII5CcQTtb7MO-vZX_KXiBuKy30c4qG5MeRgcLmKMYZcG-zb2MgHr-kthgsHAasDciWOPhzMxMNzDg |
|
- type: gen_len |
|
value: 39.2258 |
|
name: gen_len |
|
verified: true |
|
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMGM1NTgzMjJlYjMxZjhmM2E1NjIwMDI4YTJkNzI5YjNlMWNiOTQxYTMxNzg3Zjk4YjBiOGU3MGMxNWJkNzUwZSIsInZlcnNpb24iOjF9.xFEROlFxxfmkQDBXQOaCOXApaVoarWTQYTVw8pB8CCRuKSRWljDWuPARSLX79Mv0k3VtHhWNRneW4PakeVyPCA |
|
--- |
|
|
|
# rut5-base-summ |
|
|
|
## Model |
|
|
|
Finetuned [ai-forever/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) for text and dialogue summarization. |
|
|
|
## Data |
|
|
|
- [d0rj/samsum-ru](https://huggingface.co/datasets/d0rj/samsum-ru) |
|
- [IlyaGusev/gazeta](https://huggingface.co/datasets/IlyaGusev/gazeta) |
|
- [zjkarina/matreshka](https://huggingface.co/datasets/zjkarina/matreshka) |
|
- [rcp-meetings/rudialogsum_v2](https://huggingface.co/datasets/rcp-meetings/rudialogsum_v2) |
|
- [GEM/wiki_lingua](https://huggingface.co/datasets/GEM/wiki_lingua) |
|
- [mlsum](https://huggingface.co/datasets/mlsum) |
|
|
|
All 'train' subsets was concatenated and shuffled with seed `1000 - 7`. |
|
|
|
Train subset = 155678 rows. |
|
|
|
## Metrics |
|
|
|
Evaluation on 10% of concatenated 'validation' subsets = 1458 rows. |
|
|
|
See [WandB logs](https://wandb.ai/d0rj/summarization/runs/5mmyskgi). |
|
|
|
See report at **REPORT WIP**. |
|
|
|
## Notes |
|
|
|
> Scheduler, optimizer and trainer states are saved into this repo, so you can use that to continue finetune with your own data with existing gradients. |
|
|
|
## Usage |
|
|
|
### Summarization pipeline |
|
|
|
```python |
|
from transformers import pipeline |
|
|
|
|
|
pipe = pipeline('summarization', model='d0rj/rut5-base-summ') |
|
pipe(text) |
|
``` |
|
|
|
### Text-to-text generation |
|
|
|
```python |
|
from transformers import T5Tokenizer, T5ForConditionalGeneration |
|
|
|
|
|
tokenizer = T5Tokenizer.from_pretrained('d0rj/rut5-base-summ') |
|
model = T5ForConditionalGeneration.from_pretrained('d0rj/rut5-base-summ').eval() |
|
|
|
input_ids = tokenizer(text, return_tensors='pt').input_ids |
|
outputs = model.generate(input_ids) |
|
summary = tokenizer.decode(outputs[0], skip_special_tokens=True) |
|
``` |
|
|