Spaces:

derek-thomas
/

top2vec

Sleeping

App Files Files Community

derek-thomas HF staff commited on Mar 14, 2023

Commit

d5f15cb

•

1 Parent(s): ea72d75

Abstracted `session_state`. Should work for multiple users now

Browse files

Files changed (5) hide show

app/Top2Vec.py +4 -0
app/pages/01_Topic_Explorer_📚.py +32 -39
app/pages/02_Document_Explorer_📖.py +32 -39
app/pages/03_Semantic_Search_🔍.py +34 -41
app/utilities.py +40 -0

app/Top2Vec.py CHANGED Viewed

@@ -1,6 +1,10 @@
 import streamlit as st
 st.set_page_config(page_title="Top2Vec", layout="wide")
 st.markdown(
         """

 import streamlit as st
+from utilities import initialization
 st.set_page_config(page_title="Top2Vec", layout="wide")
+initialization()
 st.markdown(
         """

app/pages/01_Topic_Explorer_📚.py CHANGED Viewed

@@ -1,47 +1,40 @@
 from logging import getLogger
 from pathlib import Path
-import joblib
 import pandas as pd
 import plotly.graph_objects as go
 import streamlit as st
-from top2vec import Top2Vec
-@st.cache(show_spinner=False)
-def initialize_state():
-    with st.spinner("Loading app..."):
-        if 'model' not in st.session_state:
-            model = Top2Vec.load('models/model.pkl')
-            model._check_model_status()
-            model.hierarchical_topic_reduction(num_topics=20)
-            st.session_state.model = model
-            st.session_state.umap_model = joblib.load(proj_dir / 'models' / 'umap.sav')
-            logger.info("loading data...")
-            data = pd.read_csv(proj_dir / 'data' / 'data.csv')
-            data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.data = data
-            topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
-            topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.topics = topics
-        if 'data' not in st.session_state:
-            logger.info("loading data...")
-            data = pd.read_csv(proj_dir / 'data' / 'data.csv')
-            data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.data = data
-            st.session_state.selected_data = data
-            st.session_state.all_topics = list(data.topic_id.unique())
-        if 'topics' not in st.session_state:
-            logger.info("loading topics...")
-            topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
-            topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.topics = topics
 def main():
@@ -73,10 +66,10 @@ if __name__ == "__main__":
     pd.set_option('display.max_colwidth', 0)
     # Streamlit settings
-    st.set_page_config(layout="wide")
     md_title = "# Topic Explorer 📚"
     st.markdown(md_title)
     st.sidebar.markdown(md_title)
-    initialize_state()
     main()

 from logging import getLogger
 from pathlib import Path
 import pandas as pd
 import plotly.graph_objects as go
 import streamlit as st
+from utilities import initialization
+initialization()
+# @st.cache(show_spinner=False)
+# def initialize_state():
+#     with st.spinner("Loading app..."):
+#         if 'model' not in st.session_state:
+#             model = Top2Vec.load('models/model.pkl')
+#             model._check_model_status()
+#             model.hierarchical_topic_reduction(num_topics=20)
+#
+#             st.session_state.model = model
+#             st.session_state.umap_model = joblib.load(proj_dir / 'models' / 'umap.sav')
+#             logger.info("loading data...")
+#
+#         if 'data' not in st.session_state:
+#             logger.info("loading data...")
+#             data = pd.read_csv(proj_dir / 'data' / 'data.csv')
+#             data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
+#             st.session_state.data = data
+#             st.session_state.selected_data = data
+#             st.session_state.all_topics = list(data.topic_id.unique())
+#
+#         if 'topics' not in st.session_state:
+#             logger.info("loading topics...")
+#             topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
+#             topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
+#             st.session_state.topics = topics
 def main():
     pd.set_option('display.max_colwidth', 0)
     # Streamlit settings
+    # st.set_page_config(layout="wide")
     md_title = "# Topic Explorer 📚"
     st.markdown(md_title)
     st.sidebar.markdown(md_title)
+    # initialize_state()
     main()

app/pages/02_Document_Explorer_📖.py CHANGED Viewed

@@ -1,49 +1,42 @@
 from logging import getLogger
 from pathlib import Path
-import joblib
 import pandas as pd
 import plotly.express as px
 import streamlit as st
 from st_aggrid import AgGrid, ColumnsAutoSizeMode, GridOptionsBuilder
 from streamlit_plotly_events import plotly_events
-from top2vec import Top2Vec
-@st.cache(show_spinner=False)
-def initialize_state():
-    with st.spinner("Loading app..."):
-        if 'model' not in st.session_state:
-            model = Top2Vec.load('models/model.pkl')
-            model._check_model_status()
-            model.hierarchical_topic_reduction(num_topics=20)
-            st.session_state.model = model
-            st.session_state.umap_model = joblib.load(proj_dir / 'models' / 'umap.sav')
-            logger.info("loading data...")
-            data = pd.read_csv(proj_dir / 'data' / 'data.csv')
-            data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.data = data
-            topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
-            topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.topics = topics
-        if 'data' not in st.session_state:
-            logger.info("loading data...")
-            data = pd.read_csv(proj_dir / 'data' / 'data.csv')
-            data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.data = data
-            st.session_state.selected_data = data
-            st.session_state.all_topics = list(data.topic_id.unique())
-        if 'topics' not in st.session_state:
-            logger.info("loading topics...")
-            topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
-            topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.topics = topics
 def reset():
@@ -131,10 +124,10 @@ if __name__ == "__main__":
     pd.set_option('display.max_colwidth', 0)
     # Streamlit settings
-    st.set_page_config(layout="wide")
     md_title = "# Document Explorer 📖"
     st.markdown(md_title)
     st.sidebar.markdown(md_title)
-    initialize_state()
     main()

 from logging import getLogger
 from pathlib import Path
 import pandas as pd
 import plotly.express as px
 import streamlit as st
 from st_aggrid import AgGrid, ColumnsAutoSizeMode, GridOptionsBuilder
 from streamlit_plotly_events import plotly_events
+from utilities import initialization
+initialization()
+# @st.cache(show_spinner=False)
+# def initialize_state():
+#     with st.spinner("Loading app..."):
+#         if 'model' not in st.session_state:
+#             model = Top2Vec.load('models/model.pkl')
+#             model._check_model_status()
+#             model.hierarchical_topic_reduction(num_topics=20)
+#
+#             st.session_state.model = model
+#             st.session_state.umap_model = joblib.load(proj_dir / 'models' / 'umap.sav')
+#             logger.info("loading data...")
+#
+#         if 'data' not in st.session_state:
+#             logger.info("loading data...")
+#             data = pd.read_csv(proj_dir / 'data' / 'data.csv')
+#             data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
+#             st.session_state.data = data
+#             st.session_state.selected_data = data
+#             st.session_state.all_topics = list(data.topic_id.unique())
+#
+#         if 'topics' not in st.session_state:
+#             logger.info("loading topics...")
+#             topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
+#             topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
+#             st.session_state.topics = topics
 def reset():
     pd.set_option('display.max_colwidth', 0)
     # Streamlit settings
+    # st.set_page_config(layout="wide")
     md_title = "# Document Explorer 📖"
     st.markdown(md_title)
     st.sidebar.markdown(md_title)
+    # initialize_state()
     main()

app/pages/03_Semantic_Search_🔍.py CHANGED Viewed

@@ -1,50 +1,43 @@
 from logging import getLogger
 from pathlib import Path
-import joblib
 import pandas as pd
 import plotly.express as px
 import streamlit as st
 from st_aggrid import AgGrid, ColumnsAutoSizeMode, GridOptionsBuilder
-from top2vec import Top2Vec
-@st.cache(show_spinner=False)
-def initialize_state():
-    with st.spinner("Loading app..."):
-        if 'model' not in st.session_state:
-            model = Top2Vec.load('models/model.pkl')
-            model._check_model_status()
-            model.hierarchical_topic_reduction(num_topics=20)
-            st.session_state.model = model
-            st.session_state.umap_model = joblib.load(proj_dir / 'models' / 'umap.sav')
-            logger.info("loading data...")
-            data = pd.read_csv(proj_dir / 'data' / 'data.csv')
-            data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.data = data
-            topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
-            topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.topics = topics
-        if 'data' not in st.session_state:
-            logger.info("loading data...")
-            data = pd.read_csv(proj_dir / 'data' / 'data.csv')
-            data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.data = data
-            st.session_state.selected_data = data
-            st.session_state.all_topics = list(data.topic_id.unique())
-        if 'topics' not in st.session_state:
-            logger.info("loading topics...")
-            topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
-            topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
-            st.session_state.topics = topics
-            st.session_state.selected_points = []
 def main():
@@ -124,10 +117,10 @@ if __name__ == "__main__":
     pd.set_option('display.max_colwidth', 0)
     # Streamlit settings
-    st.set_page_config(layout="wide")
     md_title = "# Semantic Search 🔍"
     st.markdown(md_title)
     st.sidebar.markdown(md_title)
-    initialize_state()
     main()

 from logging import getLogger
 from pathlib import Path
 import pandas as pd
 import plotly.express as px
 import streamlit as st
 from st_aggrid import AgGrid, ColumnsAutoSizeMode, GridOptionsBuilder
+from utilities import initialization
+initialization()
+# @st.cache(show_spinner=False)
+# def initialize_state():
+#     with st.spinner("Loading app..."):
+#         if 'model' not in st.session_state:
+#             model = Top2Vec.load('models/model.pkl')
+#             model._check_model_status()
+#             model.hierarchical_topic_reduction(num_topics=20)
+#
+#             st.session_state.model = model
+#             st.session_state.umap_model = joblib.load(proj_dir / 'models' / 'umap.sav')
+#             logger.info("loading data...")
+#
+#         if 'data' not in st.session_state:
+#             logger.info("loading data...")
+#             data = pd.read_csv(proj_dir / 'data' / 'data.csv')
+#             data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
+#             st.session_state.data = data
+#             st.session_state.selected_data = data
+#             st.session_state.all_topics = list(data.topic_id.unique())
+#
+#         if 'topics' not in st.session_state:
+#             logger.info("loading topics...")
+#             topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
+#             topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
+#             st.session_state.topics = topics
+#
+#             st.session_state.selected_points = []
 def main():
     pd.set_option('display.max_colwidth', 0)
     # Streamlit settings
+    # st.set_page_config(layout="wide")
     md_title = "# Semantic Search 🔍"
     st.markdown(md_title)
     st.sidebar.markdown(md_title)
+    # initialize_state()
     main()

app/utilities.py ADDED Viewed

	@@ -0,0 +1,40 @@

+from logging import getLogger
+from pathlib import Path
+import joblib
+import pandas as pd
+import streamlit as st
+from top2vec import Top2Vec
+logger = getLogger(__name__)
+proj_dir = Path(__file__).parents[1]
+def initialization():
+    with st.spinner("Loading app..."):
+        if 'model' not in st.session_state:
+            model = Top2Vec.load('models/model.pkl')
+            model._check_model_status()
+            model.hierarchical_topic_reduction(num_topics=20)
+            st.session_state.model = model
+            st.session_state.umap_model = joblib.load(proj_dir / 'models' / 'umap.sav')
+            logger.info("loading data...")
+        if 'data' not in st.session_state:
+            logger.info("loading data...")
+            data = pd.read_csv(proj_dir / 'data' / 'data.csv')
+            data['topic_id'] = data['topic_id'].apply(lambda x: f'{x:02d}')
+            st.session_state.data = data
+            st.session_state.selected_data = data
+            st.session_state.all_topics = list(data.topic_id.unique())
+        if 'topics' not in st.session_state:
+            logger.info("loading topics...")
+            topics = pd.read_csv(proj_dir / 'data' / 'topics.csv')
+            topics['topic_id'] = topics['topic_id'].apply(lambda x: f'{x:02d}')
+            st.session_state.topics = topics
+        if 'selected_points' not in st.session_state:
+            st.session_state.selected_points = []