Spaces:

IES-Rafael-Alberti
/

Proyecto1_AleGil

Runtime error

App Files Files Community

aleegr10 commited on Nov 6, 2023

Commit

8ec42f8

•

1 Parent(s): 22866e0

Add application file

Browse files

Files changed (3) hide show

.gitignore +1 -0
app.py +126 -0
requirements.txt +108 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ venv

app.py ADDED Viewed

	@@ -0,0 +1,126 @@

+import gradio as gr
+from transformers import pipeline, SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
+from datasets import load_dataset
+import torch
+replacements = [
+    ("á", "a"),
+    ("í", "i"),
+    ("ñ", "n"),
+    ("ó", "o"),
+    ("ú", "u"),
+    ("ü", "u"),
+]
+def cleanup_text(text):
+    for src, dst in replacements:
+        text = text.replace(src, dst)
+    return text
+def modelo1(image):
+    imageToText = pipeline(
+        "image-to-text", model="Salesforce/blip-image-captioning-large")
+    resultado = imageToText(image)
+    resultado = resultado[0]["generated_text"].replace("araffe ", "")
+    return resultado
+def modelo2(text):
+    enToEs = pipeline("translation", model="Helsinki-NLP/opus-mt-en-es")
+    resultado = enToEs(text)
+    return resultado[0]["translation_text"]
+def modelo3En(text):
+    processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+    model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+    vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+    embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+    speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+    inputs = processor(text=text, return_tensors="pt")
+    speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+    return gr.Audio.update(value=(16000, speech.cpu().numpy()))
+def modelo3Es(text):
+    model = SpeechT5ForTextToSpeech.from_pretrained("Sandiago21/speecht5_finetuned_facebook_voxpopuli_spanish")
+    vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+    embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+    processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+    speaker_embeddings = torch.tensor(embeddings_dataset[7440]["xvector"]).unsqueeze(0)
+    text = cleanup_text(text)
+    inputs = processor(text=text, return_tensors="pt")
+    speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+    return gr.Audio.update(value=(16000, speech.cpu().numpy()))
+def executionIMG(image, lan):
+    print(lan)
+    if lan == 'english':
+        model1res = modelo1(image)
+        model3res = modelo3En(model1res)
+        return model3res
+    elif lan == 'spanish':
+        model1res = modelo1(image)
+        model2res = modelo2(model1res)
+        model3res = modelo3Es(model2res)
+        return model3res
+def executionTEXT(text, lan):
+    if lan == 'english':
+        model3res = modelo3En(text)
+        return model3res
+    elif lan == 'spanish':
+        model3res = modelo3Es(text)
+        return model3res
+with gr.Blocks() as demo:
+    gr.Markdown(
+        """
+        Se quiere hacer un programa que saque un audio de una imagen o de un texto, el cual tiene que ser introducido por el usuario. Para resolver este problema se realiza el siguiente programa. Se van a usar
+        tres modelos (Salesforce/blip-image-captioning-large, Helsinki-NLP/opus-mt-en-es, microsoft/speecht5_tts), los cuales se describen a continuación cuál es la función de cada uno:  \n
+            - Primero necesitaremos dos Tabs, uno con un input tipo Image (IMAGE) en el que pasaremos una imagen y otro con un input tipo Textbox (TEXT) en el que pasaremos un texto.  \n
+            - En el caso de la imagen, la pasaremos a texto usando un modelo con esta función (Salesforce/blip-image-captioning-large). Este modelo está entrenado para sacar texto describiendo qué hay en la
+            foto. El modelo nos sacará un texto en inglés.  \n
+            - En caso del texto, no hace falta usar el modelo anterior ya que directamente tenemos el texto que queremos pasar a audio.  \n
+            - Luego, tenemos un evento de tipo Radio, con el cual podemos elegir el idioma en el que vamos a sacar el audio. En el caso de la imagen, dado que el modelo saca el texto de esta imagen en inglés,
+            si hemos seleccionado que queremos sacar el audio en español tendremos que traducir este texto de inglés a español. En el caso del texto se da por hecho que el texto va a ser introducido en el
+            mismo idioma que se quiere sacar el audio.  \n
+            - Para traducir el texto usaremos un modelo que está entrenado para pasar texto de inglés a español (Helsinki-NLP/opus-mt-en-es), por lo que nos devolverá un texto casi perfectamente traducido al
+            español.  \n
+            - Una vez tenemos el texto que queremos pasar a audio en el idioma deseado, con el último modelo pasaremos este texto a audio (microsoft/speecht5_tts). Este modelo está entrenado para sacar audio a
+            raíz de un texto, en el que
+            se escucha justo lo que pone en el texto que le mandamos.  \n
+            - Por último tendremos un output de tipo Audio que nos mostrará el audio que hemos conseguido con el último modelo.
+      """)
+    with gr.Tab("IMAGE"):
+        inp = gr.inputs.Image(type="pil")
+        language = gr.Radio(["english", "spanish"], label="Language", info="Choose the language in which you want the audio to appear", value='english', interactive=True)
+        out = gr.Audio()
+        btn = gr.Button("RUN")
+        btn.click(fn=executionIMG, inputs=[inp, language], outputs=out)
+    with gr.Tab("TEXT"):
+        inp = gr.inputs.Textbox()
+        language = gr.Radio(["english", "spanish"], label="Language", info="Choose the language in which you want the audio to appear", value='english', interactive=True)
+        out = gr.Audio()
+        btn = gr.Button("RUN")
+        btn.click(fn=executionTEXT, inputs=[inp, language], outputs=out)
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,108 @@

+aiofiles==23.2.1
+aiohttp==3.8.6
+aiosignal==1.3.1
+altair==5.1.2
+annotated-types==0.6.0
+anyio==3.7.1
+async-timeout==4.0.3
+attrs==23.1.0
+audioread==3.0.1
+certifi==2023.7.22
+cffi==1.16.0
+charset-normalizer==3.3.1
+click==8.1.7
+contourpy==1.1.1
+cycler==0.12.1
+datasets==2.14.6
+decorator==5.1.1
+dill==0.3.7
+exceptiongroup==1.1.3
+fastapi==0.104.0
+ffmpy==0.3.1
+filelock==3.13.0
+fonttools==4.43.1
+frozenlist==1.4.0
+fsspec==2023.10.0
+gradio==3.50.2
+gradio_client==0.6.1
+h11==0.14.0
+httpcore==0.18.0
+httpx==0.25.0
+huggingface-hub==0.17.3
+idna==3.4
+importlib-resources==6.1.0
+Jinja2==3.1.2
+joblib==1.3.2
+jsonschema==4.19.1
+jsonschema-specifications==2023.7.1
+kiwisolver==1.4.5
+lazy_loader==0.3
+librosa==0.10.1
+llvmlite==0.41.1
+MarkupSafe==2.1.3
+matplotlib==3.8.0
+mpmath==1.3.0
+msgpack==1.0.7
+multidict==6.0.4
+multiprocess==0.70.15
+networkx==3.2.1
+numba==0.58.1
+numpy==1.26.1
+nvidia-cublas-cu12==12.1.3.1
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cudnn-cu12==8.9.2.26
+nvidia-cufft-cu12==11.0.2.54
+nvidia-curand-cu12==10.3.2.106
+nvidia-cusolver-cu12==11.4.5.107
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-nccl-cu12==2.18.1
+nvidia-nvjitlink-cu12==12.3.52
+nvidia-nvtx-cu12==12.1.105
+orjson==3.9.10
+packaging==23.2
+pandas==2.1.2
+Pillow==10.1.0
+platformdirs==3.11.0
+pooch==1.8.0
+psutil==5.9.6
+pyarrow==13.0.0
+pycparser==2.21
+pydantic==2.4.2
+pydantic_core==2.10.1
+pydub==0.25.1
+pyparsing==3.1.1
+python-dateutil==2.8.2
+python-multipart==0.0.6
+pytz==2023.3.post1
+PyYAML==6.0.1
+referencing==0.30.2
+regex==2023.10.3
+requests==2.31.0
+rpds-py==0.10.6
+safetensors==0.4.0
+scikit-learn==1.3.2
+scipy==1.11.3
+semantic-version==2.10.0
+sentencepiece==0.1.99
+six==1.16.0
+sniffio==1.3.0
+soundfile==0.12.1
+soxr==0.3.7
+starlette==0.27.0
+sympy==1.12
+threadpoolctl==3.2.0
+tokenizers==0.14.1
+toolz==0.12.0
+torch==2.1.0
+tqdm==4.66.1
+transformers==4.34.1
+triton==2.1.0
+typing_extensions==4.8.0
+tzdata==2023.3
+urllib3==2.0.7
+uvicorn==0.23.2
+websockets==11.0.3
+xxhash==3.4.1
+yarl==1.9.2