ctheodoris
/

Geneformer

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "a91bca46-c056-4784-8c6c-b0f5d3f33496",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## Tokenizing .loom single cell RNA-seq data to rank value encoding .dataset format"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "080fdd9c-0c48-4d5d-a254-52b6c53cdf78",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from geneformer import TranscriptomeTokenizer"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "9641b146-af2c-4688-9d8a-9c570246d116",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tk = TranscriptomeTokenizer({\"cell_type\": \"cell_type\", \"organ_major\": \"organ_major\"}, nproc=4)   # Dictionary of custom attributes to be added to the dataset.\n",
+    "tk.tokenize_data(\"loom_data_directory\", \"output_directory\", \"output_prefix\")"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.11"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}