Kedreamix commited on
Commit
b7cb511
1 Parent(s): 2ae9032

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +144 -2
README.md CHANGED
@@ -1,3 +1,145 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # 数字人智能对话系统 - Linly-Talker — “数字人交互,与虚拟的自己互动”
2
+
3
+ <div align="center">
4
+ <h1>Linly-Talker WebUI</h1>
5
+
6
+
7
+ [![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange)](https://github.com/Kedreamix/Linly-Talker)
8
+
9
+ <img src="docs/linly_logo.png" /><br>
10
+
11
+ [![Open In Colab](https://img.shields.io/badge/Colab-F9AB00?style=for-the-badge&logo=googlecolab&color=525252)](https://colab.research.google.com/github/Kedreamix/Linly-Talker/blob/main/colab_webui.ipynb)
12
+ [![Licence](https://img.shields.io/badge/LICENSE-MIT-green.svg?style=for-the-badge)](https://github.com/Kedreamix/Linly-Talker/blob/main/LICENSE)
13
+ [![Huggingface](https://img.shields.io/badge/🤗%20-Models%20Repo-yellow.svg?style=for-the-badge)](https://huggingface.co/Kedreamix/Linly-Talker)
14
+
15
+ [**English**](./README.md) | [**中文简体**](./README_zh.md)
16
+
17
+ </div>
18
+
19
+ **2023.12 更新** 📆
20
+
21
+ **用户可以上传任意图片进行对话**
22
+
23
+ **2024.01 更新** 📆
24
+
25
+ - **令人兴奋的消息!我现在已经将强大的GeminiPro和Qwen大模型融入到我们的对话场景中。用户现在可以在对话中上传任何图片,为我们的互动增添了全新的层面。**
26
+ - **更新了FastAPI的部署调用方法。**
27
+ - **更新了微软TTS的高级设置选项,增加声音种类的多样性,以及加入视频字幕加强可视化。**
28
+ - **更新了GPT多轮对话系统,使得对话有上下文联系,提高数字人的交互性和真实感。**
29
+
30
+ **2024.02 更新** 📆
31
+
32
+ - **更新了Gradio的版本为最新版本4.16.0,使得界面拥有更多的功能,比如可以摄像头拍摄图片构建数字人等。**
33
+ - **更新了ASR和THG,其中ASR加入了阿里的FunASR,具体更快的速度;THG部分加入了Wav2Lip模型,ER-NeRF在准备中(Comming Soon)。**
34
+ - **加入了语音克隆方法GPT-SoVITS模型,能够通过微调一分钟对应人的语料进行克隆,效果还是相当不错的,值得推荐。**
35
+ - **集成一个WebUI界面,能够更好的运行Linly-Talker。**
36
+
37
  ---
38
+
39
+ <details>
40
+ <summary>目录</summary>
41
+
42
+
43
+ <!-- TOC -->
44
+
45
+ - [数字人对话系统 - Linly-Talker —— “数字人交互,与虚拟的自己互动”](#数字人对话系统---linly-talker--数字人交互与虚拟的自己互动)
46
+ - [介绍](#介绍)
47
+ - [TO DO LIST](#to-do-list)
48
+ - [示例](#示例)
49
+ - [创建环境](#创建环境)
50
+ - [ASR - Speech Recognition](#asr---speech-recognition)
51
+ - [Whisper](#whisper)
52
+ - [FunASR](#funasr)
53
+ - [TTS - Edge TTS](#tts---edge-tts)
54
+ - [Voice Clone](#voice-clone)
55
+ - [GPT-SoVITS(推荐)](#gpt-sovits推荐)
56
+ - [XTTS](#xtts)
57
+ - [THG - Avatar](#thg---avatar)
58
+ - [SadTalker](#sadtalker)
59
+ - [Wav2Lip](#wav2lip)
60
+ - [ER-NeRF(Comming Soon)](#er-nerfcomming-soon)
61
+ - [LLM - Conversation](#llm---conversation)
62
+ - [Linly-AI](#linly-ai)
63
+ - [Qwen](#qwen)
64
+ - [Gemini-Pro](#gemini-pro)
65
+ - [LLM 多模型选择](#llm-多模型选择)
66
+ - [优化](#优化)
67
+ - [Gradio](#gradio)
68
+ - [启动WebUI](#启动webui)
69
+ - [文件夹结构](#文件夹结构)
70
+ - [参考](#参考)
71
+ - [Star History](#star-history)
72
+
73
+ <!-- /TOC -->
74
+
75
+ </details>
76
+
77
+
78
+
79
+ ## 介绍
80
+
81
+ Linly-Talker是一款创新的数字人对话系统,它融合了最新的人工智能技术,包括大型语言模型(LLM)、自动语音识别(ASR)、文本到语音转换(TTS)和语音克隆技术。这个系统通过Gradio平台提供了一个交互式的Web界面,允许用户上传图片与AI进行个性化的对话交流。
82
+
83
+ 系统的核心特点包括:
84
+
85
+ 1. **多模型集成**:Linly-Talker整合了Linly、GeminiPro、Qwen等大模型,以及Whisper、SadTalker等视觉模型,实现了高质量的对话和视觉生成。
86
+ 2. **多轮对话能力**:通过GPT模型的多轮对话系统,Linly-Talker能够理解并维持上下文相关的连贯对话,极大地提升了交互的真实感。
87
+ 3. **语音克隆**:利用GPT-SoVITS等技术,用户可以上传一分钟的语音样本进行微调,系统将克隆用户的声音,使得数字人能够以用户的声音进行对话。
88
+ 4. **实时互动**:系统支持实时语音识别和视频字幕,使得用户可以通过语音与数字人进行自然的交流。
89
+ 5. **视觉增强**:通过数字人生成等技术,Linly-Talker能够生成逼真的数字人形象,提供更加沉浸式的体验。
90
+
91
+ Linly-Talker的设计理念是创造一种全新的人机交互方式,不仅仅是简单的问答,而是通过高度集成的技术,提供一个能够理解、响应并模拟人类交流的智能数字人。
92
+
93
+ ![The system architecture of multimodal human–computer interaction.](https://github.com/Kedreamix/Linly-Talker/raw/main/docs/HOI.png)
94
+
95
+ > 查看我们的介绍视频 [demo video](https://www.bilibili.com/video/BV1rN4y1a76x/)
96
+
97
+
98
+ ###### 模型文件和权重,请浏览“模型文件”页面获取。
99
+
100
+
101
+ **HuggingFace下载**
102
+
103
+ 如果速度太慢可以考虑镜像,���考[简便快捷获取 Hugging Face 模型(使用镜像站点)](https://kedreamix.github.io/2024/01/05/Note/HuggingFace/?highlight=镜像)
104
+
105
+ ```bash
106
+ # 从huggingface下载预训练模型
107
+ git lfs install
108
+ git clone https://huggingface.co/Kedreamix/Linly-Talker
109
+ ```
110
+
111
+ **ModelScope下载**
112
+
113
+ ```bash
114
+ # 从modelscope下载预训练模型
115
+ # 1. git 方法
116
+ git lfs install
117
+ git clone https://www.modelscope.cn/Kedreamix/Linly-Talker.git
118
+
119
+ # 2. Python 代码下载
120
+ pip install modelscope
121
+ from modelscope import snapshot_download
122
+ model_dir = snapshot_download('Kedreamix/Linly-Talker')
123
+ ```
124
+
125
+ **移动所有模型到当前目录**
126
+
127
+ 如果百度网盘下载后,可以参考文档最后目录结构来移动
128
+
129
+ ```bash
130
+ # 移动所有模型到当前目录
131
+ # checkpoint中含有SadTalker和Wav2Lip
132
+ mv Linly-Talker/chechpoints/* ./checkpoints/
133
+
134
+ # SadTalker的增强GFPGAN
135
+ # pip install gfpgan
136
+ # mv Linly-Talker/gfpan ./
137
+
138
+ # 语音克隆模型
139
+ mv Linly-Talker/GPT_SoVITS/pretrained_models/* ./GPT_SoVITS/pretrained_models/
140
+
141
+ # Qwen大模型
142
+ mv Linly-Talker/Qwen ./
143
+ ```
144
+
145
+