InternVL

Runtime error

App Files Files Community

zyliu commited on Jul 23

Commit

148979f

•

1 Parent(s): aa347cd

update app.py and model_worker.py

Browse files

Files changed (2) hide show

app.py +853 -109
model_worker.py +0 -3

app.py CHANGED Viewed

@@ -1,116 +1,860 @@
-import fire
-import subprocess
 import os
 import time
-import signal
-import subprocess
-import atexit
-def kill_processes_by_cmd_substring(cmd_substring):
-    # execute `ps -ef` and obtain its output
-    result = subprocess.run(["ps", "-ef"], stdout=subprocess.PIPE, text=True)
-    lines = result.stdout.splitlines()
-    # visit each line
-    for line in lines:
-        if cmd_substring in line:
-            # extract PID
-            parts = line.split()
-            pid = int(parts[1])
-            print(f"Killing process with PID: {pid}, CMD: {line}")
-            os.kill(pid, signal.SIGTERM)
-def main(
-    python_path="python",
-    run_controller=True,
-    run_worker=True,
-    run_gradio=True,
-    controller_port=10086,
-    gradio_port=7860,
-    worker_names=[
-        "OpenGVLab/InternVL2-8B",
-    ],
-    run_sd_worker=False,
-    **kwargs,
-):
-    host = "http://0.0.0.0"
-    controller_process = None
-    if run_controller:
-        # python controller.py --host 0.0.0.0 --port 10086
-        cmd_args = [
-            f"{python_path}",
-            "controller.py",
-            "--host",
-            "0.0.0.0",
-            "--port",
-            f"{controller_port}",
         ]
-        kill_processes_by_cmd_substring(" ".join(cmd_args))
-        print("Launching controller: ", " ".join(cmd_args))
-        controller_process = subprocess.Popen(cmd_args)
-        atexit.register(controller_process.terminate)
-    worker_processes = []
-    if run_worker:
-        worker_port = 10088
-        for worker_name in worker_names:
-            cmd_args = [
-                f"{python_path}",
-                "model_worker.py",
-                "--port",
-                f"{worker_port}",
-                "--controller-url",
-                f"{host}:{controller_port}",
-                "--model-path",
-                f"{worker_name}",
-                "--load-8bit",
-            ]
-            kill_processes_by_cmd_substring(" ".join(cmd_args))
-            print("Launching worker: ", " ".join(cmd_args))
-            worker_process = subprocess.Popen(cmd_args)
-            worker_processes.append(worker_process)
-            atexit.register(worker_process.terminate)
-            worker_port += 1
-    time.sleep(60)
-    gradio_process = None
-    if run_gradio:
-        #  python gradio_web_server.py --port 10088 --controller-url http://0.0.0.0:10086
-        cmd_args = [
-            f"{python_path}",
-            "gradio_web_server.py",
-            "--port",
-            f"{gradio_port}",
-            "--controller-url",
-            f"{host}:{controller_port}",
-            "--model-list-mode",
-            "reload",
         ]
-        kill_processes_by_cmd_substring(" ".join(cmd_args))
-        print("Launching gradio: ", " ".join(cmd_args))
-        gradio_process = subprocess.Popen(cmd_args)
-        atexit.register(gradio_process.terminate)
-    sd_worker_process = None
-    if run_sd_worker:
-        # python model_worker.py --port 10088 --controller-address http://
-        cmd_args = [f"{python_path}", "sd_worker.py"]
-        kill_processes_by_cmd_substring(" ".join(cmd_args))
-        print("Launching sd_worker: ", " ".join(cmd_args))
-        sd_worker_process = subprocess.Popen(cmd_args)
-        atexit.register(sd_worker_process.terminate)
-    for worker_process in worker_processes:
-        worker_process.wait()
-    if controller_process:
-        controller_process.wait()
-    if gradio_process:
-        gradio_process.wait()
-    if sd_worker_process:
-        sd_worker_process.wait()
 if __name__ == "__main__":
-    fire.Fire(main)

+import spaces
+import argparse
+from ast import parse
+import datetime
+import json
 import os
 import time
+import hashlib
+import re
+import gradio as gr
+import requests
+import random
+from filelock import FileLock
+from io import BytesIO
+from PIL import Image, ImageDraw, ImageFont
+from constants import LOGDIR
+from utils import (
+    build_logger,
+    server_error_msg,
+    violates_moderation,
+    moderation_msg,
+    load_image_from_base64,
+    get_log_filename,
+)
+from conversation import Conversation
+logger = build_logger("gradio_web_server", "gradio_web_server.log")
+headers = {"User-Agent": "InternVL-Chat Client"}
+no_change_btn = gr.Button()
+enable_btn = gr.Button(interactive=True)
+disable_btn = gr.Button(interactive=False)
+@spaces.GPU(duration=10)
+def make_zerogpu_happy():
+    pass
+def write2file(path, content):
+    lock = FileLock(f"{path}.lock")
+    with lock:
+        with open(path, "a") as fout:
+            fout.write(content)
+def sort_models(models):
+    def custom_sort_key(model_name):
+        # InternVL-Chat-V1-5 should be the first item
+        if model_name == "InternVL-Chat-V1-5":
+            return (1, model_name)  # 1 indicates highest precedence
+        elif model_name.startswith("InternVL-Chat-V1-5-"):
+            return (1, model_name)  # 1 indicates highest precedence
+        else:
+            return (0, model_name)  # 0 indicates normal order
+    models.sort(key=custom_sort_key, reverse=True)
+    try:  # We have five InternVL-Chat-V1-5 models, randomly choose one to be the first
+        first_three = models[:4]
+        random.shuffle(first_three)
+        models[:4] = first_three
+    except:
+        pass
+    return models
+def get_model_list():
+    logger.info(f"Call `get_model_list`")
+    ret = requests.post(args.controller_url + "/refresh_all_workers")
+    logger.info(f"status_code from `get_model_list`: {ret.status_code}")
+    assert ret.status_code == 200
+    ret = requests.post(args.controller_url + "/list_models")
+    logger.info(f"status_code from `list_models`: {ret.status_code}")
+    models = ret.json()["models"]
+    models = sort_models(models)
+    logger.info(f"Models (from {args.controller_url}): {models}")
+    return models
+get_window_url_params = """
+function() {
+    const params = new URLSearchParams(window.location.search);
+    url_params = Object.fromEntries(params);
+    console.log(url_params);
+    return url_params;
+    }
+"""
+def init_state(state=None):
+    if state is not None:
+        del state
+    return Conversation()
+def find_bounding_boxes(state, response):
+    pattern = re.compile(r"<ref>\s*(.*?)\s*</ref>\s*<box>\s*(\[\[.*?\]\])\s*</box>")
+    matches = pattern.findall(response)
+    results = []
+    for match in matches:
+        results.append((match[0], eval(match[1])))
+    returned_image = None
+    latest_image = state.get_images(source=state.USER)[-1]
+    returned_image = latest_image.copy()
+    width, height = returned_image.size
+    draw = ImageDraw.Draw(returned_image)
+    for result in results:
+        line_width = max(1, int(min(width, height) / 200))
+        random_color = (
+            random.randint(0, 128),
+            random.randint(0, 128),
+            random.randint(0, 128),
+        )
+        category_name, coordinates = result
+        coordinates = [
+            (
+                float(x[0]) / 1000,
+                float(x[1]) / 1000,
+                float(x[2]) / 1000,
+                float(x[3]) / 1000,
+            )
+            for x in coordinates
         ]
+        coordinates = [
+            (
+                int(x[0] * width),
+                int(x[1] * height),
+                int(x[2] * width),
+                int(x[3] * height),
+            )
+            for x in coordinates
         ]
+        for box in coordinates:
+            draw.rectangle(box, outline=random_color, width=line_width)
+            font = ImageFont.truetype("assets/SimHei.ttf", int(20 * line_width / 2))
+            text_size = font.getbbox(category_name)
+            text_width, text_height = (
+                text_size[2] - text_size[0],
+                text_size[3] - text_size[1],
+            )
+            text_position = (box[0], max(0, box[1] - text_height))
+            draw.rectangle(
+                [
+                    text_position,
+                    (text_position[0] + text_width, text_position[1] + text_height),
+                ],
+                fill=random_color,
+            )
+            draw.text(text_position, category_name, fill="white", font=font)
+    return returned_image if len(matches) > 0 else None
+def query_image_generation(response, sd_worker_url, timeout=15):
+    if not sd_worker_url:
+        return None
+    sd_worker_url = f"{sd_worker_url}/generate_image/"
+    pattern = r"```drawing-instruction\n(.*?)\n```"
+    match = re.search(pattern, response, re.DOTALL)
+    if match:
+        payload = {"caption": match.group(1)}
+        print("drawing-instruction:", payload)
+        response = requests.post(sd_worker_url, json=payload, timeout=timeout)
+        response.raise_for_status()  # 检查HTTP请求是否成功
+        image = Image.open(BytesIO(response.content))
+        return image
+    else:
+        return None
+def load_demo(url_params, request: gr.Request = None):
+    if not request:
+        logger.info(f"load_demo. ip: {request.client.host}. params: {url_params}")
+    dropdown_update = gr.Dropdown(visible=True)
+    if "model" in url_params:
+        model = url_params["model"]
+        if model in models:
+            dropdown_update = gr.Dropdown(value=model, visible=True)
+    state = init_state()
+    return state, dropdown_update
+def load_demo_refresh_model_list(request: gr.Request = None):
+    if not request:
+        logger.info(f"load_demo. ip: {request.client.host}")
+    models = get_model_list()
+    state = init_state()
+    dropdown_update = gr.Dropdown(
+        choices=models, value=models[0] if len(models) > 0 else ""
+    )
+    return state, dropdown_update
+def vote_last_response(state, liked, model_selector, request: gr.Request):
+    conv_data = {
+        "tstamp": round(time.time(), 4),
+        "like": liked,
+        "model": model_selector,
+        "state": state.dict(),
+        "ip": request.client.host,
+    }
+    write2file(get_log_filename(), json.dumps(conv_data) + "\n")
+def upvote_last_response(state, model_selector, request: gr.Request):
+    logger.info(f"upvote. ip: {request.client.host}")
+    vote_last_response(state, True, model_selector, request)
+    textbox = gr.MultimodalTextbox(value=None, interactive=True)
+    return (textbox,) + (disable_btn,) * 3
+def downvote_last_response(state, model_selector, request: gr.Request):
+    logger.info(f"downvote. ip: {request.client.host}")
+    vote_last_response(state, False, model_selector, request)
+    textbox = gr.MultimodalTextbox(value=None, interactive=True)
+    return (textbox,) + (disable_btn,) * 3
+def vote_selected_response(
+    state, model_selector, request: gr.Request, data: gr.LikeData
+):
+    logger.info(
+        f"Vote: {data.liked}, index: {data.index}, value: {data.value} , ip: {request.client.host}"
+    )
+    conv_data = {
+        "tstamp": round(time.time(), 4),
+        "like": data.liked,
+        "index": data.index,
+        "model": model_selector,
+        "state": state.dict(),
+        "ip": request.client.host,
+    }
+    write2file(get_log_filename(), json.dumps(conv_data) + "\n")
+    return
+def flag_last_response(state, model_selector, request: gr.Request):
+    logger.info(f"flag. ip: {request.client.host}")
+    vote_last_response(state, "flag", model_selector, request)
+    textbox = gr.MultimodalTextbox(value=None, interactive=True)
+    return (textbox,) + (disable_btn,) * 3
+def regenerate(state, image_process_mode, request: gr.Request):
+    logger.info(f"regenerate. ip: {request.client.host}")
+    # state.messages[-1][-1] = None
+    state.update_message(Conversation.ASSISTANT, None, -1)
+    prev_human_msg = state.messages[-2]
+    if type(prev_human_msg[1]) in (tuple, list):
+        prev_human_msg[1] = (*prev_human_msg[1][:2], image_process_mode)
+    state.skip_next = False
+    textbox = gr.MultimodalTextbox(value=None, interactive=True)
+    return (state, state.to_gradio_chatbot(), textbox) + (disable_btn,) * 5
+def clear_history(request: gr.Request):
+    logger.info(f"clear_history. ip: {request.client.host}")
+    state = init_state()
+    textbox = gr.MultimodalTextbox(value=None, interactive=True)
+    return (state, state.to_gradio_chatbot(), textbox) + (disable_btn,) * 5
+def change_system_prompt(state, system_prompt, request: gr.Request):
+    logger.info(f"Change system prompt. ip: {request.client.host}")
+    state.set_system_message(system_prompt)
+    return state
+def add_text(state, message, system_prompt, model_selector, request: gr.Request):
+    print(f"state: {state}")
+    if not state:
+        state, model_selector = load_demo_refresh_model_list(request)
+    images = message.get("files", [])
+    text = message.get("text", "").strip()
+    logger.info(f"add_text. ip: {request.client.host}. len: {len(text)}")
+    # import pdb; pdb.set_trace()
+    textbox = gr.MultimodalTextbox(value=None, interactive=False)
+    if len(text) <= 0 and len(images) == 0:
+        state.skip_next = True
+        return (state, state.to_gradio_chatbot(), textbox) + (no_change_btn,) * 5
+    if args.moderate:
+        flagged = violates_moderation(text)
+        if flagged:
+            state.skip_next = True
+            textbox = gr.MultimodalTextbox(
+                value={"text": moderation_msg}, interactive=True
+            )
+            return (state, state.to_gradio_chatbot(), textbox) + (no_change_btn,) * 5
+    images = [Image.open(path).convert("RGB") for path in images]
+    if len(images) > 0 and len(state.get_images(source=state.USER)) > 0:
+        state = init_state(state)
+    state.set_system_message(system_prompt)
+    state.append_message(Conversation.USER, text, images)
+    state.skip_next = False
+    return (state, state.to_gradio_chatbot(), textbox, model_selector) + (
+        disable_btn,
+    ) * 5
+def http_bot(
+    state,
+    model_selector,
+    temperature,
+    top_p,
+    repetition_penalty,
+    max_new_tokens,
+    max_input_tiles,
+    # bbox_threshold,
+    # mask_threshold,
+    request: gr.Request,
+):
+    logger.info(f"http_bot. ip: {request.client.host}")
+    start_tstamp = time.time()
+    model_name = model_selector
+    if hasattr(state, "skip_next") and state.skip_next:
+        # This generate call is skipped due to invalid inputs
+        yield (
+            state,
+            state.to_gradio_chatbot(),
+            gr.MultimodalTextbox(interactive=False),
+        ) + (no_change_btn,) * 5
+        return
+    # Query worker address
+    controller_url = args.controller_url
+    ret = requests.post(
+        controller_url + "/get_worker_address", json={"model": model_name}
+    )
+    worker_addr = ret.json()["address"]
+    if worker_addr.startswith("http://0.0.0.0") and args.worker_ip:
+        worker_addr = worker_addr.replace("0.0.0.0", args.worker_ip)
+    logger.info(f"model_name: {model_name}, worker_addr: {worker_addr}")
+    # No available worker
+    if worker_addr == "":
+        # state.messages[-1][-1] = server_error_msg
+        state.update_message(Conversation.ASSISTANT, server_error_msg)
+        yield (
+            state,
+            state.to_gradio_chatbot(),
+            gr.MultimodalTextbox(interactive=False),
+            disable_btn,
+            disable_btn,
+            disable_btn,
+            enable_btn,
+            enable_btn,
+        )
+        return
+    all_images = state.get_images(source=state.USER)
+    all_image_paths = [state.save_image(image) for image in all_images]
+    # Make requests
+    pload = {
+        "model": model_name,
+        "prompt": state.get_prompt(),
+        "temperature": float(temperature),
+        "top_p": float(top_p),
+        "max_new_tokens": max_new_tokens,
+        "max_input_tiles": max_input_tiles,
+        # "bbox_threshold": bbox_threshold,
+        # "mask_threshold": mask_threshold,
+        "repetition_penalty": repetition_penalty,
+        "images": f"List of {len(all_images)} images: {all_image_paths}",
+    }
+    logger.info(f"==== request ====\n{pload}")
+    pload.pop("images")
+    pload["prompt"] = state.get_prompt(inlude_image=True)
+    state.append_message(Conversation.ASSISTANT, state.streaming_placeholder)
+    yield (
+        state,
+        state.to_gradio_chatbot(),
+        gr.MultimodalTextbox(interactive=False),
+    ) + (disable_btn,) * 5
+    try:
+        # Stream output
+        response = requests.post(
+            worker_addr + "/worker_generate_stream",
+            headers=headers,
+            json=pload,
+            stream=True,
+            timeout=20,
+        )
+        for chunk in response.iter_lines(decode_unicode=False, delimiter=b"\0"):
+            if chunk:
+                data = json.loads(chunk.decode())
+                if data["error_code"] == 0:
+                    if "text" in data:
+                        output = data["text"].strip()
+                        output += state.streaming_placeholder
+                    image = None
+                    if "image" in data:
+                        image = load_image_from_base64(data["image"])
+                        _ = state.save_image(image)
+                    state.update_message(Conversation.ASSISTANT, output, image)
+                    yield (
+                        state,
+                        state.to_gradio_chatbot(),
+                        gr.MultimodalTextbox(interactive=False),
+                    ) + (disable_btn,) * 5
+                else:
+                    output = (
+                        f"**{data['text']}**" + f" (error_code: {data['error_code']})"
+                    )
+                    state.update_message(Conversation.ASSISTANT, output, None)
+                    yield (
+                        state,
+                        state.to_gradio_chatbot(),
+                        gr.MultimodalTextbox(interactive=True),
+                    ) + (
+                        disable_btn,
+                        disable_btn,
+                        disable_btn,
+                        enable_btn,
+                        enable_btn,
+                    )
+                    return
+    except requests.exceptions.RequestException as e:
+        state.update_message(Conversation.ASSISTANT, server_error_msg, None)
+        yield (
+            state,
+            state.to_gradio_chatbot(),
+            gr.MultimodalTextbox(interactive=True),
+        ) + (
+            disable_btn,
+            disable_btn,
+            disable_btn,
+            enable_btn,
+            enable_btn,
+        )
+        return
+    ai_response = state.return_last_message()
+    if "<ref>" in ai_response:
+        returned_image = find_bounding_boxes(state, ai_response)
+        returned_image = [returned_image] if returned_image else []
+        state.update_message(Conversation.ASSISTANT, ai_response, returned_image)
+    if "```drawing-instruction" in ai_response:
+        returned_image = query_image_generation(
+            ai_response, sd_worker_url=sd_worker_url
+        )
+        returned_image = [returned_image] if returned_image else []
+        state.update_message(Conversation.ASSISTANT, ai_response, returned_image)
+    state.end_of_current_turn()
+    yield (
+        state,
+        state.to_gradio_chatbot(),
+        gr.MultimodalTextbox(interactive=True),
+    ) + (enable_btn,) * 5
+    finish_tstamp = time.time()
+    logger.info(f"{output}")
+    data = {
+        "tstamp": round(finish_tstamp, 4),
+        "like": None,
+        "model": model_name,
+        "start": round(start_tstamp, 4),
+        "finish": round(start_tstamp, 4),
+        "state": state.dict(),
+        "images": all_image_paths,
+        "ip": request.client.host,
+    }
+    write2file(get_log_filename(), json.dumps(data) + "\n")
+title_html = """
+<h2> <span class="gradient-text" id="text">InternVL2</span><span class="plain-text">: Better than the Best—Expanding Performance Boundaries of Open-Source Multimodal Models with the Progressive Scaling Strategy</span></h2>
+<a href="https://internvl.github.io/blog/2024-07-02-InternVL-2.0/">[📜 InternVL2 Blog]</a>
+<a href="https://huggingface.co/spaces/OpenGVLab/InternVL">[🤗 HF Demo]</a>
+<a href="https://github.com/OpenGVLab/InternVL?tab=readme-ov-file#quick-start-with-huggingface">[🚀 Quick Start]</a>
+<a href="https://github.com/OpenGVLab/InternVL/blob/main/document/How_to_use_InternVL_API.md">[🌐 API]</a>
+"""
+tos_markdown = """
+### Terms of use
+By using this service, users are required to agree to the following terms:
+The service is a research preview intended for non-commercial use only. It only provides limited safety measures and may generate offensive content. It must not be used for any illegal, harmful, violent, racist, or sexual purposes. The service may collect user dialogue data for future research.
+Please click the "Flag" button if you get any inappropriate answer! We will collect those to keep improving our moderator.
+For an optimal experience, please use desktop computers for this demo, as mobile devices may compromise its quality.
+"""
+learn_more_markdown = """
+### License
+The service is a research preview intended for non-commercial use only, subject to the model [License](https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md) of LLaMA, [Terms of Use](https://openai.com/policies/terms-of-use) of the data generated by OpenAI, and [Privacy Practices](https://chrome.google.com/webstore/detail/sharegpt-share-your-chatg/daiacboceoaocpibfodeljbdfacokfjb) of ShareGPT. Please contact us if you find any potential violation.
+### Acknowledgement
+This demo is modified from LLaVA's demo. Thanks for their awesome work!
+"""
+# .gradio-container {margin: 5px 10px 0 10px !important};
+block_css = """
+.gradio-container {margin: 0.1% 1% 0 1% !important; max-width: 98% !important;};
+#buttons button {
+    min-width: min(120px,100%);
+}
+.gradient-text {
+    font-size: 28px;
+    width: auto;
+    font-weight: bold;
+    background: linear-gradient(45deg, red, orange, yellow, green, blue, indigo, violet);
+    background-clip: text;
+    -webkit-background-clip: text;
+    color: transparent;
+}
+.plain-text {
+    font-size: 22px;
+    width: auto;
+    font-weight: bold;
+}
+"""
+js = """
+function createWaveAnimation() {
+    const text = document.getElementById('text');
+    var i = 0;
+    setInterval(function() {
+        const colors = [
+            'red, orange, yellow, green, blue, indigo, violet, purple',
+            'orange, yellow, green, blue, indigo, violet, purple, red',
+            'yellow, green, blue, indigo, violet, purple, red, orange',
+            'green, blue, indigo, violet, purple, red, orange, yellow',
+            'blue, indigo, violet, purple, red, orange, yellow, green',
+            'indigo, violet, purple, red, orange, yellow, green, blue',
+            'violet, purple, red, orange, yellow, green, blue, indigo',
+            'purple, red, orange, yellow, green, blue, indigo, violet',
+        ];
+        const angle = 45;
+        const colorIndex = i % colors.length;
+        text.style.background = `linear-gradient(${angle}deg, ${colors[colorIndex]})`;
+        text.style.webkitBackgroundClip = 'text';
+        text.style.backgroundClip = 'text';
+        text.style.color = 'transparent';
+        text.style.fontSize = '28px';
+        text.style.width = 'auto';
+        text.textContent = 'InternVL2';
+        text.style.fontWeight = 'bold';
+        i += 1;
+    }, 200);
+    const params = new URLSearchParams(window.location.search);
+    url_params = Object.fromEntries(params);
+    // console.log(url_params);
+    // console.log('hello world...');
+    // console.log(window.location.search);
+    // console.log('hello world...');
+    // alert(window.location.search)
+    // alert(url_params);
+    return url_params;
+}
+"""
+def build_demo(embed_mode):
+    textbox = gr.MultimodalTextbox(
+        interactive=True,
+        file_types=["image", "video"],
+        placeholder="Enter message or upload file...",
+        show_label=False,
+    )
+    with gr.Blocks(
+        title="InternVL-Chat",
+        theme=gr.themes.Default(),
+        css=block_css,
+    ) as demo:
+        state = gr.State()
+        if not embed_mode:
+            # gr.Markdown(title_markdown)
+            gr.HTML(title_html)
+        with gr.Row():
+            with gr.Column(scale=2):
+                with gr.Row(elem_id="model_selector_row"):
+                    model_selector = gr.Dropdown(
+                        choices=models,
+                        value=models[0] if len(models) > 0 else "",
+                        # value="InternVL-Chat-V1-5",
+                        interactive=True,
+                        show_label=False,
+                        container=False,
+                    )
+                with gr.Accordion("System Prompt", open=False) as system_prompt_row:
+                    system_prompt = gr.Textbox(
+                        value="请尽可能详细地回答用户的问题。",
+                        label="System Prompt",
+                        interactive=True,
+                    )
+                with gr.Accordion("Parameters", open=False) as parameter_row:
+                    temperature = gr.Slider(
+                        minimum=0.0,
+                        maximum=1.0,
+                        value=0.2,
+                        step=0.1,
+                        interactive=True,
+                        label="Temperature",
+                    )
+                    top_p = gr.Slider(
+                        minimum=0.0,
+                        maximum=1.0,
+                        value=0.7,
+                        step=0.1,
+                        interactive=True,
+                        label="Top P",
+                    )
+                    repetition_penalty = gr.Slider(
+                        minimum=1.0,
+                        maximum=1.5,
+                        value=1.1,
+                        step=0.02,
+                        interactive=True,
+                        label="Repetition penalty",
+                    )
+                    max_output_tokens = gr.Slider(
+                        minimum=0,
+                        maximum=4096,
+                        value=1024,
+                        step=64,
+                        interactive=True,
+                        label="Max output tokens",
+                    )
+                    max_input_tiles = gr.Slider(
+                        minimum=1,
+                        maximum=32,
+                        value=12,
+                        step=1,
+                        interactive=True,
+                        label="Max input tiles (control the image size)",
+                    )
+                examples = gr.Examples(
+                    examples=[
+                        [
+                            {
+                                "files": [
+                                    "gallery/prod_9.jpg",
+                                ],
+                                "text": "What's at the far end of the image?",
+                            }
+                        ],
+                        [
+                            {
+                                "files": [
+                                    "gallery/astro_on_unicorn.png",
+                                ],
+                                "text": "What does this image mean?",
+                            }
+                        ],
+                        [
+                            {
+                                "files": [
+                                    "gallery/prod_12.png",
+                                ],
+                                "text": "What are the consequences of the easy decisions shown in this image?",
+                            }
+                        ],
+                        [
+                            {
+                                "files": [
+                                    "gallery/child_1.jpg",
+                                    "gallery/child_2.jpg",
+                                    f"gallery/child_3.jpg",
+                                ],
+                                "text": "这三帧图片讲述了一件什么事情？",
+                            }
+                        ],
+                    ],
+                    inputs=[textbox],
+                )
+            with gr.Column(scale=8):
+                chatbot = gr.Chatbot(
+                    elem_id="chatbot",
+                    label="InternVL2",
+                    height=580,
+                    show_copy_button=True,
+                    show_share_button=True,
+                    avatar_images=[
+                        "assets/human.png",
+                        "assets/assistant.png",
+                    ],
+                    bubble_full_width=False,
+                )
+                with gr.Row():
+                    with gr.Column(scale=8):
+                        textbox.render()
+                    with gr.Column(scale=1, min_width=50):
+                        submit_btn = gr.Button(value="Send", variant="primary")
+                with gr.Row(elem_id="buttons") as button_row:
+                    upvote_btn = gr.Button(value="👍  Upvote", interactive=False)
+                    downvote_btn = gr.Button(value="👎  Downvote", interactive=False)
+                    flag_btn = gr.Button(value="⚠️  Flag", interactive=False)
+                    # stop_btn = gr.Button(value="⏹️  Stop Generation", interactive=False)
+                    regenerate_btn = gr.Button(
+                        value="🔄  Regenerate", interactive=False
+                    )
+                    clear_btn = gr.Button(value="🗑️  Clear", interactive=False)
+        if not embed_mode:
+            gr.Markdown(tos_markdown)
+            gr.Markdown(learn_more_markdown)
+        url_params = gr.JSON(visible=False)
+        # Register listeners
+        btn_list = [upvote_btn, downvote_btn, flag_btn, regenerate_btn, clear_btn]
+        upvote_btn.click(
+            upvote_last_response,
+            [state, model_selector],
+            [textbox, upvote_btn, downvote_btn, flag_btn],
+        )
+        downvote_btn.click(
+            downvote_last_response,
+            [state, model_selector],
+            [textbox, upvote_btn, downvote_btn, flag_btn],
+        )
+        chatbot.like(
+            vote_selected_response,
+            [state, model_selector],
+            [],
+        )
+        flag_btn.click(
+            flag_last_response,
+            [state, model_selector],
+            [textbox, upvote_btn, downvote_btn, flag_btn],
+        )
+        regenerate_btn.click(
+            regenerate,
+            [state, system_prompt],
+            [state, chatbot, textbox] + btn_list,
+        ).then(
+            http_bot,
+            [
+                state,
+                model_selector,
+                temperature,
+                top_p,
+                repetition_penalty,
+                max_output_tokens,
+                max_input_tiles,
+                # bbox_threshold,
+                # mask_threshold,
+            ],
+            [state, chatbot, textbox] + btn_list,
+        )
+        clear_btn.click(clear_history, None, [state, chatbot, textbox] + btn_list)
+        textbox.submit(
+            add_text,
+            [state, textbox, system_prompt, model_selector],
+            [state, chatbot, textbox, model_selector] + btn_list,
+        ).then(
+            http_bot,
+            [
+                state,
+                model_selector,
+                temperature,
+                top_p,
+                repetition_penalty,
+                max_output_tokens,
+                max_input_tiles,
+                # bbox_threshold,
+                # mask_threshold,
+            ],
+            [state, chatbot, textbox] + btn_list,
+        )
+        submit_btn.click(
+            add_text,
+            [state, textbox, system_prompt, model_selector],
+            [state, chatbot, textbox, model_selector] + btn_list,
+        ).then(
+            http_bot,
+            [
+                state,
+                model_selector,
+                temperature,
+                top_p,
+                repetition_penalty,
+                max_output_tokens,
+                max_input_tiles,
+                # bbox_threshold,
+                # mask_threshold,
+            ],
+            [state, chatbot, textbox] + btn_list,
+        )
+        # NOTE: The following code will be not triggered when deployed on HF space.
+        # It's very strange. I don't know why.
+        """
+        if args.model_list_mode == "once":
+            demo.load(
+                load_demo,
+                [url_params],
+                [state, model_selector],
+                js=js,
+            )
+        elif args.model_list_mode == "reload":
+            demo.load(
+                load_demo_refresh_model_list,
+                None,
+                [state, model_selector],
+                js=js,
+            )
+        else:
+            raise ValueError(f"Unknown model list mode: {args.model_list_mode}")
+        """
+    return demo
 if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--host", type=str, default="0.0.0.0")
+    parser.add_argument("--port", type=int, default=7860)
+    parser.add_argument("--controller-url", type=str, default=None)
+    parser.add_argument("--worker-ip", type=str, default=None)
+    parser.add_argument("--concurrency-count", type=int, default=10)
+    parser.add_argument(
+        "--model-list-mode", type=str, default="reload", choices=["once", "reload"]
+    )
+    parser.add_argument("--sd-worker-url", type=str, default=None)
+    parser.add_argument("--share", action="store_true")
+    parser.add_argument("--moderate", action="store_true")
+    parser.add_argument("--embed", action="store_true")
+    args = parser.parse_args()
+    logger.info(f"args: {args}")
+    if not args.controller_url:
+        args.controller_url = os.environ.get("CONTROLLER_URL", None)
+    if not args.controller_url:
+        raise ValueError("controller-url is required.")
+    if not args.worker_ip:
+        args.worker_ip = os.environ.get("WORKER_IP", None)
+    models = get_model_list()
+    sd_worker_url = args.sd_worker_url
+    logger.info(args)
+    demo = build_demo(args.embed)
+    demo.queue(api_open=False).launch(
+        server_name=args.host,
+        server_port=args.port,
+        share=args.share,
+        max_threads=args.concurrency_count,
+    )

model_worker.py CHANGED Viewed

@@ -20,7 +20,6 @@ import uuid
 import traceback
 from functools import partial
 from threading import Thread
-import multiprocessing as mp
 import requests
 import torch
@@ -39,7 +38,6 @@ from utils import (
     load_image_from_base64,
 )
-mp.set_start_method("fork", force=True)
 worker_id = str(uuid.uuid4())[:6]
 logger = build_logger("model_worker", f"model_worker_{worker_id}.log")
@@ -160,7 +158,6 @@ def split_model(model_name):
     return device_map
-@spaces.GPU(duration=120)
 def multi_thread_infer(
     model, tokenizer, pixel_values, question, history, generation_config
 ):

 import traceback
 from functools import partial
 from threading import Thread
 import requests
 import torch
     load_image_from_base64,
 )
 worker_id = str(uuid.uuid4())[:6]
 logger = build_logger("model_worker", f"model_worker_{worker_id}.log")
     return device_map
 def multi_thread_infer(
     model, tokenizer, pixel_values, question, history, generation_config
 ):