{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Example usage\n",
    "\n",
    "The poorly named `labtools` python package is a collection of diverse modules that might be of use to Staller Lab members and collaborators. \n",
    "- tools to analyze raw sequencing data\n",
    "- simple tools to shuffle/mutate sequences for library design\n",
    "- (hopefully) tools to run in-house neural net"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [],
   "source": [
    "# add the comment \n",
    "    # @hidden\n",
    "# anywhere in any cell you want to hide\n",
    "# works with custom sphinx layout\n",
    "\n",
    "# Following code is used to style and truncate the pandas dataframe outputs for easier example viewing\n",
    "\n",
    "def format_index(s):\n",
    "    return f\"font-size: 8pt; max-width: 250px; text-overflow: ellipsis; overflow: hidden\"\n",
    "def format(s):\n",
    "    return [\"font-size: 10pt;\"] *len(s)\n",
    "def display_df(df, **kwargs):\n",
    "    disp = df.head(10).style.applymap_index(format_index)\n",
    "    disp = disp.applymap_index(format_index, axis = 0)\n",
    "    disp = disp.apply(format)\n",
    "    return disp\n",
    "\n",
    "# @hidden"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Sequencing Analysis Tools"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Sort Processing Example\n",
    "#### What you need\n",
    "[Also, see documentation for clearer idea of what inputs should look like](https://massivejords.github.io/tools/docs/_build/html/autoapi/labtools/adtools/sort/index.html)\n",
    "\n",
    "* data_files : list of str\n",
    "    + path to fastq file for each sample in the sort in order of bins\n",
    "* bin_counts : list of int\n",
    "    + cells per bin in order of data files\n",
    "* bin_values : list of int\n",
    "    + mean or median fluorescence of the bin in order of data files\n",
    "    \n",
    "**If you want to look for only perfect matches to certain sequences ([see note](#perfect_matches_note))**\n",
    "* design_file : str\n",
    "    + path to a csv with one column headered as \"ArrayDNA\" which contains your 120 bp AD sequences as DNA\n",
    "    \n",
    "<span style=\"color:red;font-weight:800\">NOTE: If you want to count untransformed plasmid, **please add what that tile would look like to your design file.** </span> The length does not matter as long as the sequence covers the end of the read. If you used phasing, include additional seqs for each primer possibility. For example, for pMVS219 backbone phased with 4 R primers, you should add the following:\n",
    "* \"GGTTAATTAAGGCGCGCCACTTCTAAATAAGCGATAG\"\n",
    "* \"GGTTAATTAAGGCGCGCCACTTCTAAATAAGCGATA\"\n",
    "* \"GGTTAATTAAGGCGCGCCACTTCTAAATAAGCGAT\"\n",
    "* \"GGTTAATTAAGGCGCGCCACTTCTAAATAAGCGA\"\n",
    "\n",
    "<span style=\"color:blue;font-weight:800\">**NOTE: the read cutoff is 10 reads total summed across all bins** This means that if a tile is not found at least 10 times combined across any of the fastq files, it will not be analysed.</span>\n",
    "\n",
    "**If your reads differ from default ([see example](#custom_anchor_example))**\n",
    "* ad_preceder : str\n",
    "    + the sequence directly preceding your AD sequence in your reads (anchor sequence)\n",
    "\n",
    "**If you have barcodes, you need the sequence directly preceding them and anteceding them (anchor sequences), otherwise ignore these. See the example with barcodes below.** \n",
    "* bc_preceder : str\n",
    "* bc_anteceder : str\n",
    "\n",
    "#### What you get out\n",
    "* a dataframe with your AD tiles as indices, normalized scores for tile at each bin, and the tile Activity value"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Use the sequence directly preceding the AD/tile as an anchor sequence. Additional characters between AD/tile and preceding anchor seqeunce will not work\n",
    "\n",
    "My preceding anchor sequence is in blue while my AD/tile sequence is in green in this example read.\n",
    "\n",
    "The anchor sequence preceding the barcode is purple while the anchor sequence anteceding is red. Barcode length is 11 by default. (Not necessary if you don't have barcodes)\n",
    "\n",
    "##### Example read showing the default values. No need to change anything if your sequence matches the defaults.\n",
    "\n",
    "<span style=\"font-size:10px\">TCCCTGCGGGCTCTACTTCATCG<span style=\"color:blue;font-weight:800\">GCTAGC</span><span style=\"color:green;font-weight:500;font-size:10px\">**GGTTCTT...CTGCTAAA**</span>TGATAAATAGATGA<span style=\"color:purple;font-weight:800\">GGGCCCG</span>TCAACATAGAA<span style=\"color:red;font-weight:800\">GGAGAGAA</span>ACATCTAAAAAAGCGATA</span>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Imports"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "from labtools.adtools import sort"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Initialize a sort"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "my_sort = sort.Sort([\"../exampledata/bin1.fastq\", \"../exampledata/bin2.fastq\", \"../exampledata/bin3.fastq\", \n",
    "                \"../exampledata/bin4.fastq\"], bin_counts = [100000,100000,100000,100000], \n",
    "               bin_values = [61,141,251,1462], design_file = \"../exampledata/unique_seqs.csv\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Get activity values"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "activities, total_reads, reads_per_bin = my_sort.process()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_a4c90_row0_col0, #T_a4c90_row0_col1, #T_a4c90_row0_col2, #T_a4c90_row0_col3, #T_a4c90_row0_col4, #T_a4c90_row1_col0, #T_a4c90_row1_col1, #T_a4c90_row1_col2, #T_a4c90_row1_col3, #T_a4c90_row1_col4, #T_a4c90_row2_col0, #T_a4c90_row2_col1, #T_a4c90_row2_col2, #T_a4c90_row2_col3, #T_a4c90_row2_col4, #T_a4c90_row3_col0, #T_a4c90_row3_col1, #T_a4c90_row3_col2, #T_a4c90_row3_col3, #T_a4c90_row3_col4, #T_a4c90_row4_col0, #T_a4c90_row4_col1, #T_a4c90_row4_col2, #T_a4c90_row4_col3, #T_a4c90_row4_col4, #T_a4c90_row5_col0, #T_a4c90_row5_col1, #T_a4c90_row5_col2, #T_a4c90_row5_col3, #T_a4c90_row5_col4, #T_a4c90_row6_col0, #T_a4c90_row6_col1, #T_a4c90_row6_col2, #T_a4c90_row6_col3, #T_a4c90_row6_col4, #T_a4c90_row7_col0, #T_a4c90_row7_col1, #T_a4c90_row7_col2, #T_a4c90_row7_col3, #T_a4c90_row7_col4, #T_a4c90_row8_col0, #T_a4c90_row8_col1, #T_a4c90_row8_col2, #T_a4c90_row8_col3, #T_a4c90_row8_col4, #T_a4c90_row9_col0, #T_a4c90_row9_col1, #T_a4c90_row9_col2, #T_a4c90_row9_col3, #T_a4c90_row9_col4 {\n",
       "  font-size: 10pt;\n",
       "}\n",
       "#T_a4c90_level0_row0, #T_a4c90_level0_row1, #T_a4c90_level0_row2, #T_a4c90_level0_row3, #T_a4c90_level0_row4, #T_a4c90_level0_row5, #T_a4c90_level0_row6, #T_a4c90_level0_row7, #T_a4c90_level0_row8, #T_a4c90_level0_row9 {\n",
       "  font-size: 8pt;\n",
       "  max-width: 250px;\n",
       "  text-overflow: ellipsis;\n",
       "  overflow: hidden;\n",
       "  font-size: 8pt;\n",
       "  max-width: 250px;\n",
       "  text-overflow: ellipsis;\n",
       "  overflow: hidden;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_a4c90\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_a4c90_level0_col0\" class=\"col_heading level0 col0\" >0</th>\n",
       "      <th id=\"T_a4c90_level0_col1\" class=\"col_heading level0 col1\" >1</th>\n",
       "      <th id=\"T_a4c90_level0_col2\" class=\"col_heading level0 col2\" >2</th>\n",
       "      <th id=\"T_a4c90_level0_col3\" class=\"col_heading level0 col3\" >3</th>\n",
       "      <th id=\"T_a4c90_level0_col4\" class=\"col_heading level0 col4\" >Activity</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row0\" class=\"row_heading level0 row0\" >GAAGATCCAACTTGGTTTGATTCTGGTTCTCAATTTATCTTAAATTCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATGCTGCTGGTTCTCAAGATAGAGAAGAGAATACTAAT</th>\n",
       "      <td id=\"T_a4c90_row0_col0\" class=\"data row0 col0\" >0.251461</td>\n",
       "      <td id=\"T_a4c90_row0_col1\" class=\"data row0 col1\" >0.288201</td>\n",
       "      <td id=\"T_a4c90_row0_col2\" class=\"data row0 col2\" >0.460339</td>\n",
       "      <td id=\"T_a4c90_row0_col3\" class=\"data row0 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row0_col4\" class=\"data row0 col4\" >171.520411</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row1\" class=\"row_heading level0 row1\" >GAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTGATCAAGATAGAGAAGAGAATGATAATGATGGTGATTTGAAAGATAAACAACCATGTATTGCTGATTATGCTCATTTGGGTCCAGAA</th>\n",
       "      <td id=\"T_a4c90_row1_col0\" class=\"data row1 col0\" >0.097356</td>\n",
       "      <td id=\"T_a4c90_row1_col1\" class=\"data row1 col1\" >0.519277</td>\n",
       "      <td id=\"T_a4c90_row1_col2\" class=\"data row1 col2\" >0.343084</td>\n",
       "      <td id=\"T_a4c90_row1_col3\" class=\"data row1 col3\" >0.040284</td>\n",
       "      <td id=\"T_a4c90_row1_col4\" class=\"data row1 col4\" >224.165635</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row2\" class=\"row_heading level0 row2\" >GATTTGGCTGAAGATGATGAAGTTATGTGTATGGAAGATGAAGTTCAATCTATTCAACCAAATCATGAAAGACCAGATGATGGTCCAGAATTGGAACATGGTTTGGAGAATGGTGCTAAA</th>\n",
       "      <td id=\"T_a4c90_row2_col0\" class=\"data row2 col0\" >0.352021</td>\n",
       "      <td id=\"T_a4c90_row2_col1\" class=\"data row2 col1\" >0.502035</td>\n",
       "      <td id=\"T_a4c90_row2_col2\" class=\"data row2 col2\" >0.145944</td>\n",
       "      <td id=\"T_a4c90_row2_col3\" class=\"data row2 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row2_col4\" class=\"data row2 col4\" >128.892233</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row3\" class=\"row_heading level0 row3\" >GGTCAAAGGAAGAGAAGGAAGATTACTCCAACTTTGGTTAATGATGAACCAGTTAGATGGCATAAGACTGGTAGAACTAAACCAGTTATGTTGTCTGGTGTTCAAAGAGGTTGTAAGAAA</th>\n",
       "      <td id=\"T_a4c90_row3_col0\" class=\"data row3 col0\" >0.378641</td>\n",
       "      <td id=\"T_a4c90_row3_col1\" class=\"data row3 col1\" >0.367199</td>\n",
       "      <td id=\"T_a4c90_row3_col2\" class=\"data row3 col2\" >0.254160</td>\n",
       "      <td id=\"T_a4c90_row3_col3\" class=\"data row3 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row3_col4\" class=\"data row3 col4\" >138.666285</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row4\" class=\"row_heading level0 row4\" >TCTGAATTGACTTCTACTTTGGGTATTTCTCATAGATTGCCACAATCTTTGACTCCATGTGTTAAGACTGGTTCTTTGCAATCTGGTGGTTTGGTTCAATCTGTTCCATTTGAAGAATTG</th>\n",
       "      <td id=\"T_a4c90_row4_col0\" class=\"data row4 col0\" >0.330550</td>\n",
       "      <td id=\"T_a4c90_row4_col1\" class=\"data row4 col1\" >0.278750</td>\n",
       "      <td id=\"T_a4c90_row4_col2\" class=\"data row4 col2\" >0.390700</td>\n",
       "      <td id=\"T_a4c90_row4_col3\" class=\"data row4 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row4_col4\" class=\"data row4 col4\" >157.533007</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row5\" class=\"row_heading level0 row5\" >GAAATGGCTGATGATAAAGAAGAACAAGAGAAAGATAGAGATAATGAGAATCAAGGTGAAGAAGATCCAACTTGGGCTGATTCTGGTGATCAATTTATTGCTAATTCTCAACAATTGGTT</th>\n",
       "      <td id=\"T_a4c90_row5_col0\" class=\"data row5 col0\" >0.361290</td>\n",
       "      <td id=\"T_a4c90_row5_col1\" class=\"data row5 col1\" >0.420448</td>\n",
       "      <td id=\"T_a4c90_row5_col2\" class=\"data row5 col2\" >0.218262</td>\n",
       "      <td id=\"T_a4c90_row5_col3\" class=\"data row5 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row5_col4\" class=\"data row5 col4\" >136.105579</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row6\" class=\"row_heading level0 row6\" >TCTGAACCACATGTCTTGATTGAAGAATTTATTAGACCAGTTACTGAAGATGTTGGTATTAATTATACTCATCCACAGAATTTGCCAGGTGCTAATAAAGATGGTGTTTCTGTCTTCTTT</th>\n",
       "      <td id=\"T_a4c90_row6_col0\" class=\"data row6 col0\" >0.315398</td>\n",
       "      <td id=\"T_a4c90_row6_col1\" class=\"data row6 col1\" >0.367040</td>\n",
       "      <td id=\"T_a4c90_row6_col2\" class=\"data row6 col2\" >0.317562</td>\n",
       "      <td id=\"T_a4c90_row6_col3\" class=\"data row6 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row6_col4\" class=\"data row6 col4\" >150.700019</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row7\" class=\"row_heading level0 row7\" >CAATTTATCTTGAATGCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTTCTCAAGATAGAGAAGAGAATACTAATTCTGGTTCTTTGAAAGATAAACAACCATGT</th>\n",
       "      <td id=\"T_a4c90_row7_col0\" class=\"data row7 col0\" >0.393467</td>\n",
       "      <td id=\"T_a4c90_row7_col1\" class=\"data row7 col1\" >0.254385</td>\n",
       "      <td id=\"T_a4c90_row7_col2\" class=\"data row7 col2\" >0.352148</td>\n",
       "      <td id=\"T_a4c90_row7_col3\" class=\"data row7 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row7_col4\" class=\"data row7 col4\" >148.258990</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row8\" class=\"row_heading level0 row8\" >ATTATTTGGCATTTGTTGGCTAAATCTGGTTTGTCTGGTTTGTCTTCTCATCCATTTATTGATGAATTTATTCCAACTGTTAATCAAGATGATGGTATTTGTTATACTCATCCTAAGAAT</th>\n",
       "      <td id=\"T_a4c90_row8_col0\" class=\"data row8 col0\" >0.566048</td>\n",
       "      <td id=\"T_a4c90_row8_col1\" class=\"data row8 col1\" >0.243975</td>\n",
       "      <td id=\"T_a4c90_row8_col2\" class=\"data row8 col2\" >0.189977</td>\n",
       "      <td id=\"T_a4c90_row8_col3\" class=\"data row8 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row8_col4\" class=\"data row8 col4\" >116.613702</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a4c90_level0_row9\" class=\"row_heading level0 row9\" >AAGAAGAGGAAGAATAAGAATCAAGGTAAGAAGAAACCAACTTGGTTTAAATCTGGTGCTCAATTTATCTTGAATGCTCAACAATTGGTTAAAGCTGCTTCTGCTTGTAAGAAATTGTTG</th>\n",
       "      <td id=\"T_a4c90_row9_col0\" class=\"data row9 col0\" >0.253394</td>\n",
       "      <td id=\"T_a4c90_row9_col1\" class=\"data row9 col1\" >0.491474</td>\n",
       "      <td id=\"T_a4c90_row9_col2\" class=\"data row9 col2\" >0.255133</td>\n",
       "      <td id=\"T_a4c90_row9_col3\" class=\"data row9 col3\" >0.000000</td>\n",
       "      <td id=\"T_a4c90_row9_col4\" class=\"data row9 col4\" >148.793098</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f33c43b0760>"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# activity + normalized abundance in each bin\n",
    "display_df(activities)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "GAAGATCCAACTTGGTTTGATTCTGGTTCTCAATTTATCTTAAATTCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATGCTGCTGGTTCTCAAGATAGAGAAGAGAATACTAAT    44.0\n",
       "GAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTGATCAAGATAGAGAAGAGAATGATAATGATGGTGATTTGAAAGATAAACAACCATGTATTGCTGATTATGCTCATTTGGGTCCAGAA    21.0\n",
       "GATTTGGCTGAAGATGATGAAGTTATGTGTATGGAAGATGAAGTTCAATCTATTCAACCAAATCATGAAAGACCAGATGATGGTCCAGAATTGGAACATGGTTTGGAGAATGGTGCTAAA    49.0\n",
       "GGTCAAAGGAAGAGAAGGAAGATTACTCCAACTTTGGTTAATGATGAACCAGTTAGATGGCATAAGACTGGTAGAACTAAACCAGTTATGTTGTCTGGTGTTCAAAGAGGTTGTAAGAAA    16.0\n",
       "TCTGAATTGACTTCTACTTTGGGTATTTCTCATAGATTGCCACAATCTTTGACTCCATGTGTTAAGACTGGTTCTTTGCAATCTGGTGGTTTGGTTCAATCTGTTCCATTTGAAGAATTG    70.0\n",
       "                                                                                                                            ... \n",
       "GACCCAACTGAATGGTTTGATTCTGGTGCTCAATTTATCTTGAATGCTCAACAATTGGTTGAAGCTCAATGTTTGGATGATAATTTGACTAGAGAATTGGAATCTAATGATGGTGCTTTG    23.0\n",
       "TCTACTGATTCTACTCCAATGTTTGATTATGATAATTTGGAAGATAATTCTAAAGATTGGACTTCTTTGTTTGATAATGATATTCCAGTTACTACTGATGATGTTTCTTTGGCTGATAAA    24.0\n",
       "TCTACTGGTCAAGTCTTGTTTGATATTGATGACTTTAGATGGTTGTTGGATCCAGATGATGAACAATTGGGTAAAGAAGCTATCTTGTCTGATCAATTTGGTAAACCAACTCCAGAGAAT    12.0\n",
       "GAAGATCCAACTTCTGATTCTGCTATTCAACAATTGTGGAATCAAGGATTCTTGTTTGTTGAATCTTTGTCTTTGTGTGATGATTTGTTGGGTTCTCAAGATAGAGAAGAGAATACTAAT    11.0\n",
       "GAAATTGATCAAATTTCTGATCCAGATAAATTGCCAGTTAATTTGGAACCATTTAGATTGGATCAATTGGAATTTACTGGTGATGATACTTCTGGTGCTGGTTTGAAATTTCAATGGGAT    13.0\n",
       "Length: 200, dtype: float64"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# the total reads for each sequence\n",
    "total_reads"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {
    "scrolled": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_e54aa_row0_col0, #T_e54aa_row0_col1, #T_e54aa_row0_col2, #T_e54aa_row0_col3, #T_e54aa_row1_col0, #T_e54aa_row1_col1, #T_e54aa_row1_col2, #T_e54aa_row1_col3, #T_e54aa_row2_col0, #T_e54aa_row2_col1, #T_e54aa_row2_col2, #T_e54aa_row2_col3, #T_e54aa_row3_col0, #T_e54aa_row3_col1, #T_e54aa_row3_col2, #T_e54aa_row3_col3, #T_e54aa_row4_col0, #T_e54aa_row4_col1, #T_e54aa_row4_col2, #T_e54aa_row4_col3, #T_e54aa_row5_col0, #T_e54aa_row5_col1, #T_e54aa_row5_col2, #T_e54aa_row5_col3, #T_e54aa_row6_col0, #T_e54aa_row6_col1, #T_e54aa_row6_col2, #T_e54aa_row6_col3, #T_e54aa_row7_col0, #T_e54aa_row7_col1, #T_e54aa_row7_col2, #T_e54aa_row7_col3, #T_e54aa_row8_col0, #T_e54aa_row8_col1, #T_e54aa_row8_col2, #T_e54aa_row8_col3, #T_e54aa_row9_col0, #T_e54aa_row9_col1, #T_e54aa_row9_col2, #T_e54aa_row9_col3 {\n",
       "  font-size: 10pt;\n",
       "}\n",
       "#T_e54aa_level0_row0, #T_e54aa_level0_row1, #T_e54aa_level0_row2, #T_e54aa_level0_row3, #T_e54aa_level0_row4, #T_e54aa_level0_row5, #T_e54aa_level0_row6, #T_e54aa_level0_row7, #T_e54aa_level0_row8, #T_e54aa_level0_row9 {\n",
       "  font-size: 8pt;\n",
       "  max-width: 250px;\n",
       "  text-overflow: ellipsis;\n",
       "  overflow: hidden;\n",
       "  font-size: 8pt;\n",
       "  max-width: 250px;\n",
       "  text-overflow: ellipsis;\n",
       "  overflow: hidden;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_e54aa\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_e54aa_level0_col0\" class=\"col_heading level0 col0\" >0</th>\n",
       "      <th id=\"T_e54aa_level0_col1\" class=\"col_heading level0 col1\" >1</th>\n",
       "      <th id=\"T_e54aa_level0_col2\" class=\"col_heading level0 col2\" >2</th>\n",
       "      <th id=\"T_e54aa_level0_col3\" class=\"col_heading level0 col3\" >3</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row0\" class=\"row_heading level0 row0\" >GAAGATCCAACTTGGTTTGATTCTGGTTCTCAATTTATCTTAAATTCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATGCTGCTGGTTCTCAAGATAGAGAAGAGAATACTAAT</th>\n",
       "      <td id=\"T_e54aa_row0_col0\" class=\"data row0 col0\" >11.000000</td>\n",
       "      <td id=\"T_e54aa_row0_col1\" class=\"data row0 col1\" >13.000000</td>\n",
       "      <td id=\"T_e54aa_row0_col2\" class=\"data row0 col2\" >20.000000</td>\n",
       "      <td id=\"T_e54aa_row0_col3\" class=\"data row0 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row1\" class=\"row_heading level0 row1\" >GAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTGATCAAGATAGAGAAGAGAATGATAATGATGGTGATTTGAAAGATAAACAACCATGTATTGCTGATTATGCTCATTTGGGTCCAGAA</th>\n",
       "      <td id=\"T_e54aa_row1_col0\" class=\"data row1 col0\" >2.000000</td>\n",
       "      <td id=\"T_e54aa_row1_col1\" class=\"data row1 col1\" >11.000000</td>\n",
       "      <td id=\"T_e54aa_row1_col2\" class=\"data row1 col2\" >7.000000</td>\n",
       "      <td id=\"T_e54aa_row1_col3\" class=\"data row1 col3\" >1.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row2\" class=\"row_heading level0 row2\" >GATTTGGCTGAAGATGATGAAGTTATGTGTATGGAAGATGAAGTTCAATCTATTCAACCAAATCATGAAAGACCAGATGATGGTCCAGAATTGGAACATGGTTTGGAGAATGGTGCTAAA</th>\n",
       "      <td id=\"T_e54aa_row2_col0\" class=\"data row2 col0\" >17.000000</td>\n",
       "      <td id=\"T_e54aa_row2_col1\" class=\"data row2 col1\" >25.000000</td>\n",
       "      <td id=\"T_e54aa_row2_col2\" class=\"data row2 col2\" >7.000000</td>\n",
       "      <td id=\"T_e54aa_row2_col3\" class=\"data row2 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row3\" class=\"row_heading level0 row3\" >GGTCAAAGGAAGAGAAGGAAGATTACTCCAACTTTGGTTAATGATGAACCAGTTAGATGGCATAAGACTGGTAGAACTAAACCAGTTATGTTGTCTGGTGTTCAAAGAGGTTGTAAGAAA</th>\n",
       "      <td id=\"T_e54aa_row3_col0\" class=\"data row3 col0\" >6.000000</td>\n",
       "      <td id=\"T_e54aa_row3_col1\" class=\"data row3 col1\" >6.000000</td>\n",
       "      <td id=\"T_e54aa_row3_col2\" class=\"data row3 col2\" >4.000000</td>\n",
       "      <td id=\"T_e54aa_row3_col3\" class=\"data row3 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row4\" class=\"row_heading level0 row4\" >TCTGAATTGACTTCTACTTTGGGTATTTCTCATAGATTGCCACAATCTTTGACTCCATGTGTTAAGACTGGTTCTTTGCAATCTGGTGGTTTGGTTCAATCTGTTCCATTTGAAGAATTG</th>\n",
       "      <td id=\"T_e54aa_row4_col0\" class=\"data row4 col0\" >23.000000</td>\n",
       "      <td id=\"T_e54aa_row4_col1\" class=\"data row4 col1\" >20.000000</td>\n",
       "      <td id=\"T_e54aa_row4_col2\" class=\"data row4 col2\" >27.000000</td>\n",
       "      <td id=\"T_e54aa_row4_col3\" class=\"data row4 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row5\" class=\"row_heading level0 row5\" >GAAATGGCTGATGATAAAGAAGAACAAGAGAAAGATAGAGATAATGAGAATCAAGGTGAAGAAGATCCAACTTGGGCTGATTCTGGTGATCAATTTATTGCTAATTCTCAACAATTGGTT</th>\n",
       "      <td id=\"T_e54aa_row5_col0\" class=\"data row5 col0\" >5.000000</td>\n",
       "      <td id=\"T_e54aa_row5_col1\" class=\"data row5 col1\" >6.000000</td>\n",
       "      <td id=\"T_e54aa_row5_col2\" class=\"data row5 col2\" >3.000000</td>\n",
       "      <td id=\"T_e54aa_row5_col3\" class=\"data row5 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row6\" class=\"row_heading level0 row6\" >TCTGAACCACATGTCTTGATTGAAGAATTTATTAGACCAGTTACTGAAGATGTTGGTATTAATTATACTCATCCACAGAATTTGCCAGGTGCTAATAAAGATGGTGTTTCTGTCTTCTTT</th>\n",
       "      <td id=\"T_e54aa_row6_col0\" class=\"data row6 col0\" >5.000000</td>\n",
       "      <td id=\"T_e54aa_row6_col1\" class=\"data row6 col1\" >6.000000</td>\n",
       "      <td id=\"T_e54aa_row6_col2\" class=\"data row6 col2\" >5.000000</td>\n",
       "      <td id=\"T_e54aa_row6_col3\" class=\"data row6 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row7\" class=\"row_heading level0 row7\" >CAATTTATCTTGAATGCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTTCTCAAGATAGAGAAGAGAATACTAATTCTGGTTCTTTGAAAGATAAACAACCATGT</th>\n",
       "      <td id=\"T_e54aa_row7_col0\" class=\"data row7 col0\" >9.000000</td>\n",
       "      <td id=\"T_e54aa_row7_col1\" class=\"data row7 col1\" >6.000000</td>\n",
       "      <td id=\"T_e54aa_row7_col2\" class=\"data row7 col2\" >8.000000</td>\n",
       "      <td id=\"T_e54aa_row7_col3\" class=\"data row7 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row8\" class=\"row_heading level0 row8\" >ATTATTTGGCATTTGTTGGCTAAATCTGGTTTGTCTGGTTTGTCTTCTCATCCATTTATTGATGAATTTATTCCAACTGTTAATCAAGATGATGGTATTTGTTATACTCATCCTAAGAAT</th>\n",
       "      <td id=\"T_e54aa_row8_col0\" class=\"data row8 col0\" >9.000000</td>\n",
       "      <td id=\"T_e54aa_row8_col1\" class=\"data row8 col1\" >4.000000</td>\n",
       "      <td id=\"T_e54aa_row8_col2\" class=\"data row8 col2\" >3.000000</td>\n",
       "      <td id=\"T_e54aa_row8_col3\" class=\"data row8 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_e54aa_level0_row9\" class=\"row_heading level0 row9\" >AAGAAGAGGAAGAATAAGAATCAAGGTAAGAAGAAACCAACTTGGTTTAAATCTGGTGCTCAATTTATCTTGAATGCTCAACAATTGGTTAAAGCTGCTTCTGCTTGTAAGAAATTGTTG</th>\n",
       "      <td id=\"T_e54aa_row9_col0\" class=\"data row9 col0\" >5.000000</td>\n",
       "      <td id=\"T_e54aa_row9_col1\" class=\"data row9 col1\" >10.000000</td>\n",
       "      <td id=\"T_e54aa_row9_col2\" class=\"data row9 col2\" >5.000000</td>\n",
       "      <td id=\"T_e54aa_row9_col3\" class=\"data row9 col3\" >0.000000</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f3332d3a1f0>"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# the reads of each tile per bin\n",
    "display_df(reads_per_bin)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<a id='perfect_matches_note'></a>\n",
    "#### Locate any tiles, not just perfect matches\n",
    "If you want to find sequences even if they don't match your designed sequences, simply do not include the design file. A short (less than 120 bp) tile will probably appear with a significant number of reads. This is **probably** your untransformed background (cells transformed with a plasmid that did not get a tile). Most of the non-perfect matching tiles will be sequencing errors. You might find a way to map these back to their true tile. A few of the non-perfect matching tiles (likely those with a significant number of reads) will be sequencing library PCR amplification errors. An even fewer number of the non-perfect matching tiles could be mutants that arose within the actual cell, or free tiles. These will probably have a significant number of reads. Someone may put in the effort to distinguish these categories in the future."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "my_sort = sort.Sort([\"../exampledata/bin1.fastq\", \"../exampledata/bin2.fastq\", \"../exampledata/bin3.fastq\", \n",
    "                \"../exampledata/bin4.fastq\"], bin_counts = [100000,100000,100000,100000], \n",
    "               bin_values = [61,141,251,1462])\n",
    "activities_no_design, numreads_total, _ = my_sort.process()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_324b3_row0_col0, #T_324b3_row0_col1, #T_324b3_row0_col2, #T_324b3_row0_col3, #T_324b3_row0_col4, #T_324b3_row1_col0, #T_324b3_row1_col1, #T_324b3_row1_col2, #T_324b3_row1_col3, #T_324b3_row1_col4, #T_324b3_row2_col0, #T_324b3_row2_col1, #T_324b3_row2_col2, #T_324b3_row2_col3, #T_324b3_row2_col4, #T_324b3_row3_col0, #T_324b3_row3_col1, #T_324b3_row3_col2, #T_324b3_row3_col3, #T_324b3_row3_col4, #T_324b3_row4_col0, #T_324b3_row4_col1, #T_324b3_row4_col2, #T_324b3_row4_col3, #T_324b3_row4_col4, #T_324b3_row5_col0, #T_324b3_row5_col1, #T_324b3_row5_col2, #T_324b3_row5_col3, #T_324b3_row5_col4, #T_324b3_row6_col0, #T_324b3_row6_col1, #T_324b3_row6_col2, #T_324b3_row6_col3, #T_324b3_row6_col4, #T_324b3_row7_col0, #T_324b3_row7_col1, #T_324b3_row7_col2, #T_324b3_row7_col3, #T_324b3_row7_col4, #T_324b3_row8_col0, #T_324b3_row8_col1, #T_324b3_row8_col2, #T_324b3_row8_col3, #T_324b3_row8_col4, #T_324b3_row9_col0, #T_324b3_row9_col1, #T_324b3_row9_col2, #T_324b3_row9_col3, #T_324b3_row9_col4 {\n",
       "  font-size: 10pt;\n",
       "}\n",
       "#T_324b3_level0_row0, #T_324b3_level0_row1, #T_324b3_level0_row2, #T_324b3_level0_row3, #T_324b3_level0_row4, #T_324b3_level0_row5, #T_324b3_level0_row6, #T_324b3_level0_row7, #T_324b3_level0_row8, #T_324b3_level0_row9 {\n",
       "  font-size: 8pt;\n",
       "  max-width: 250px;\n",
       "  text-overflow: ellipsis;\n",
       "  overflow: hidden;\n",
       "  font-size: 8pt;\n",
       "  max-width: 250px;\n",
       "  text-overflow: ellipsis;\n",
       "  overflow: hidden;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_324b3\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_324b3_level0_col0\" class=\"col_heading level0 col0\" >0</th>\n",
       "      <th id=\"T_324b3_level0_col1\" class=\"col_heading level0 col1\" >1</th>\n",
       "      <th id=\"T_324b3_level0_col2\" class=\"col_heading level0 col2\" >2</th>\n",
       "      <th id=\"T_324b3_level0_col3\" class=\"col_heading level0 col3\" >3</th>\n",
       "      <th id=\"T_324b3_level0_col4\" class=\"col_heading level0 col4\" >Activity</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row0\" class=\"row_heading level0 row0\" >GAAGATCCAACTTGGTTTGATTCTGGTTCTCAATTTATCTTAAATTCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATGCTGCTGGTTCTCAAGATAGAGAAGAGAATACTAAT</th>\n",
       "      <td id=\"T_324b3_row0_col0\" class=\"data row0 col0\" >0.249091</td>\n",
       "      <td id=\"T_324b3_row0_col1\" class=\"data row0 col1\" >0.283698</td>\n",
       "      <td id=\"T_324b3_row0_col2\" class=\"data row0 col2\" >0.467211</td>\n",
       "      <td id=\"T_324b3_row0_col3\" class=\"data row0 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row0_col4\" class=\"data row0 col4\" >172.465991</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row1\" class=\"row_heading level0 row1\" >GAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTGATCAAGATAGAGAAGAGAATGATAATGATGGTGATTTGAAAGATAAACAACCATGTATTGCTGATTATGCTCATTTGGGTCCAGAA</th>\n",
       "      <td id=\"T_324b3_row1_col0\" class=\"data row1 col0\" >0.096596</td>\n",
       "      <td id=\"T_324b3_row1_col1\" class=\"data row1 col1\" >0.512002</td>\n",
       "      <td id=\"T_324b3_row1_col2\" class=\"data row1 col2\" >0.348777</td>\n",
       "      <td id=\"T_324b3_row1_col3\" class=\"data row1 col3\" >0.042625</td>\n",
       "      <td id=\"T_324b3_row1_col4\" class=\"data row1 col4\" >227.945173</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row2\" class=\"row_heading level0 row2\" >GATTTGGCTGAAGATGATGAAGTTATGTGTATGGAAGATGAAGTTCAATCTATTCAACCAAATCATGAAAGACCAGATGATGGTCCAGAATTGGAACATGGTTTGGAGAATGGTGCTAAA</th>\n",
       "      <td id=\"T_324b3_row2_col0\" class=\"data row2 col0\" >0.351864</td>\n",
       "      <td id=\"T_324b3_row2_col1\" class=\"data row2 col1\" >0.498670</td>\n",
       "      <td id=\"T_324b3_row2_col2\" class=\"data row2 col2\" >0.149466</td>\n",
       "      <td id=\"T_324b3_row2_col3\" class=\"data row2 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row2_col4\" class=\"data row2 col4\" >129.292147</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row3\" class=\"row_heading level0 row3\" >GGTTAATTAAGGCGCGCCACTTCTAAATAAGCGA</th>\n",
       "      <td id=\"T_324b3_row3_col0\" class=\"data row3 col0\" >0.210811</td>\n",
       "      <td id=\"T_324b3_row3_col1\" class=\"data row3 col1\" >0.528218</td>\n",
       "      <td id=\"T_324b3_row3_col2\" class=\"data row3 col2\" >0.260971</td>\n",
       "      <td id=\"T_324b3_row3_col3\" class=\"data row3 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row3_col4\" class=\"data row3 col4\" >152.841957</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row4\" class=\"row_heading level0 row4\" >GGTCAAAGGAAGAGAAGGAAGATTACTCCAACTTTGGTTAATGATGAACCAGTTAGATGGCATAAGACTGGTAGAACTAAACCAGTTATGTTGTCTGGTGTTCAAAGAGGTTGTAAGAAA</th>\n",
       "      <td id=\"T_324b3_row4_col0\" class=\"data row4 col0\" >0.377151</td>\n",
       "      <td id=\"T_324b3_row4_col1\" class=\"data row4 col1\" >0.363465</td>\n",
       "      <td id=\"T_324b3_row4_col2\" class=\"data row4 col2\" >0.259384</td>\n",
       "      <td id=\"T_324b3_row4_col3\" class=\"data row4 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row4_col4\" class=\"data row4 col4\" >139.360114</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row5\" class=\"row_heading level0 row5\" >TCTGAATTGACTTCTACTTTGGGTATTTCTCATAGATTGCCACAATCTTTGACTCCATGTGTTAAGACTGGTTCTTTGCAATCTGGTGGTTTGGTTCAATCTGTTCCATTTGAAGAATTG</th>\n",
       "      <td id=\"T_324b3_row5_col0\" class=\"data row5 col0\" >0.327972</td>\n",
       "      <td id=\"T_324b3_row5_col1\" class=\"data row5 col1\" >0.274844</td>\n",
       "      <td id=\"T_324b3_row5_col2\" class=\"data row5 col2\" >0.397184</td>\n",
       "      <td id=\"T_324b3_row5_col3\" class=\"data row5 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row5_col4\" class=\"data row5 col4\" >158.452427</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row6\" class=\"row_heading level0 row6\" >GAAATGGCTGATGATAAAGAAGAACAAGAGAAAGATAGAGATAATGAGAATCAAGGTGAAGAAGATCCAACTTGGGCTGATTCTGGTGATCAATTTATTGCTAATTCTCAACAATTGGTT</th>\n",
       "      <td id=\"T_324b3_row6_col0\" class=\"data row6 col0\" >0.360305</td>\n",
       "      <td id=\"T_324b3_row6_col1\" class=\"data row6 col1\" >0.416677</td>\n",
       "      <td id=\"T_324b3_row6_col2\" class=\"data row6 col2\" >0.223018</td>\n",
       "      <td id=\"T_324b3_row6_col3\" class=\"data row6 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row6_col4\" class=\"data row6 col4\" >136.707585</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row7\" class=\"row_heading level0 row7\" >TCTGAACCACATGTCTTGATTGAAGAATTTATTAGACCAGTTACTGAAGATGTTGGTATTAATTATACTCATCCACAGAATTTGCCAGGTGCTAATAAAGATGGTGTTTCTGTCTTCTTT</th>\n",
       "      <td id=\"T_324b3_row7_col0\" class=\"data row7 col0\" >0.313669</td>\n",
       "      <td id=\"T_324b3_row7_col1\" class=\"data row7 col1\" >0.362744</td>\n",
       "      <td id=\"T_324b3_row7_col2\" class=\"data row7 col2\" >0.323586</td>\n",
       "      <td id=\"T_324b3_row7_col3\" class=\"data row7 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row7_col4\" class=\"data row7 col4\" >151.500974</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row8\" class=\"row_heading level0 row8\" >CAATTTATCTTGAATGCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTTCTCAAGATAGAGAAGAGAATACTAATTCTGGTTCTTTGAAAGATAAACAACCATGT</th>\n",
       "      <td id=\"T_324b3_row8_col0\" class=\"data row8 col0\" >0.390706</td>\n",
       "      <td id=\"T_324b3_row8_col1\" class=\"data row8 col1\" >0.251019</td>\n",
       "      <td id=\"T_324b3_row8_col2\" class=\"data row8 col2\" >0.358275</td>\n",
       "      <td id=\"T_324b3_row8_col3\" class=\"data row8 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row8_col4\" class=\"data row8 col4\" >149.153731</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_324b3_level0_row9\" class=\"row_heading level0 row9\" >ATTATTTGGCATTTGTTGGCTAAATCTGGTTTGTCTGGTTTGTCTTCTCATCCATTTATTGATGAATTTATTCCAACTGTTAATCAAGATGATGGTATTTGTTATACTCATCCTAAGAAT</th>\n",
       "      <td id=\"T_324b3_row9_col0\" class=\"data row9 col0\" >0.564274</td>\n",
       "      <td id=\"T_324b3_row9_col1\" class=\"data row9 col1\" >0.241688</td>\n",
       "      <td id=\"T_324b3_row9_col2\" class=\"data row9 col2\" >0.194038</td>\n",
       "      <td id=\"T_324b3_row9_col3\" class=\"data row9 col3\" >0.000000</td>\n",
       "      <td id=\"T_324b3_row9_col4\" class=\"data row9 col4\" >117.202291</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f3332d26490>"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "display_df(activities_no_design)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "GAAGATCCAACTTGGTTTGATTCTGGTTCTCAATTTATCTTAAATTCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATGCTGCTGGTTCTCAAGATAGAGAAGAGAATACTAAT    44.0\n",
       "GAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTGATCAAGATAGAGAAGAGAATGATAATGATGGTGATTTGAAAGATAAACAACCATGTATTGCTGATTATGCTCATTTGGGTCCAGAA    21.0\n",
       "GATTTGGCTGAAGATGATGAAGTTATGTGTATGGAAGATGAAGTTCAATCTATTCAACCAAATCATGAAAGACCAGATGATGGTCCAGAATTGGAACATGGTTTGGAGAATGGTGCTAAA    49.0\n",
       "GGTTAATTAAGGCGCGCCACTTCTAAATAAGCGA                                                                                          24.0\n",
       "GGTCAAAGGAAGAGAAGGAAGATTACTCCAACTTTGGTTAATGATGAACCAGTTAGATGGCATAAGACTGGTAGAACTAAACCAGTTATGTTGTCTGGTGTTCAAAGAGGTTGTAAGAAA    16.0\n",
       "                                                                                                                            ... \n",
       "TCTACTGATTCTACTCCAATGTTTGATTATGATAATTTGGAAGATAATTCTAAAGATTGGACTTCTTTGTTTGATAATGATATTCCAGTTACTACTGATGATGTTTCTTTGGCTGATAAA    24.0\n",
       "TCTACTGGTCAAGTCTTGTTTGATATTGATGACTTTAGATGGTTGTTGGATCCAGATGATGAACAATTGGGTAAAGAAGCTATCTTGTCTGATCAATTTGGTAAACCAACTCCAGAGAAT    12.0\n",
       "AATACTCCAACTCCACCATCTTTGGTTGATGGTGTTGCTGGTGATGAAGAAGCATTTGATGAGATGTTTGATCCATTCTTTGAAGAATTGGATTCTATTCCAGAAGCTGCTTTGTGATAA    14.0\n",
       "GAAGATCCAACTTCTGATTCTGCTATTCAACAATTGTGGAATCAAGGATTCTTGTTTGTTGAATCTTTGTCTTTGTGTGATGATTTGTTGGGTTCTCAAGATAGAGAAGAGAATACTAAT    11.0\n",
       "GAAATTGATCAAATTTCTGATCCAGATAAATTGCCAGTTAATTTGGAACCATTTAGATTGGATCAATTGGAATTTACTGGTGATGATACTTCTGGTGCTGGTTTGAAATTTCAATGGGAT    13.0\n",
       "Length: 220, dtype: float64"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "numreads_total"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Get data for reads that include barcodes AND tiles\n",
    "Support for barcoded only data may or may not be added in the future."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "activities_barcoded, total_reads, reads_per_bin = my_sort.process(barcoded = True)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Note that you get back less tiles using this method. The reason for this is because the read must have a locatable barcode AND tile, which is less likely than having one or the other. The primary reason for doing this analysis is assessing per-transformant variation. The assumption is that unique tile-barcode pairs come from unique original transformants."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_43c65_row0_col0, #T_43c65_row0_col1, #T_43c65_row0_col2, #T_43c65_row0_col3, #T_43c65_row0_col4, #T_43c65_row1_col0, #T_43c65_row1_col1, #T_43c65_row1_col2, #T_43c65_row1_col3, #T_43c65_row1_col4, #T_43c65_row2_col0, #T_43c65_row2_col1, #T_43c65_row2_col2, #T_43c65_row2_col3, #T_43c65_row2_col4, #T_43c65_row3_col0, #T_43c65_row3_col1, #T_43c65_row3_col2, #T_43c65_row3_col3, #T_43c65_row3_col4, #T_43c65_row4_col0, #T_43c65_row4_col1, #T_43c65_row4_col2, #T_43c65_row4_col3, #T_43c65_row4_col4, #T_43c65_row5_col0, #T_43c65_row5_col1, #T_43c65_row5_col2, #T_43c65_row5_col3, #T_43c65_row5_col4, #T_43c65_row6_col0, #T_43c65_row6_col1, #T_43c65_row6_col2, #T_43c65_row6_col3, #T_43c65_row6_col4, #T_43c65_row7_col0, #T_43c65_row7_col1, #T_43c65_row7_col2, #T_43c65_row7_col3, #T_43c65_row7_col4, #T_43c65_row8_col0, #T_43c65_row8_col1, #T_43c65_row8_col2, #T_43c65_row8_col3, #T_43c65_row8_col4, #T_43c65_row9_col0, #T_43c65_row9_col1, #T_43c65_row9_col2, #T_43c65_row9_col3, #T_43c65_row9_col4 {\n",
       "  font-size: 10pt;\n",
       "}\n",
       "#T_43c65_level0_row0, #T_43c65_level1_row0, #T_43c65_level0_row1, #T_43c65_level1_row1, #T_43c65_level0_row2, #T_43c65_level1_row2, #T_43c65_level0_row3, #T_43c65_level1_row3, #T_43c65_level0_row4, #T_43c65_level1_row4, #T_43c65_level0_row5, #T_43c65_level1_row5, #T_43c65_level0_row6, #T_43c65_level1_row6, #T_43c65_level0_row7, #T_43c65_level1_row7, #T_43c65_level0_row8, #T_43c65_level1_row8, #T_43c65_level0_row9, #T_43c65_level1_row9 {\n",
       "  font-size: 8pt;\n",
       "  max-width: 250px;\n",
       "  text-overflow: ellipsis;\n",
       "  overflow: hidden;\n",
       "  font-size: 8pt;\n",
       "  max-width: 250px;\n",
       "  text-overflow: ellipsis;\n",
       "  overflow: hidden;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_43c65\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank\" >&nbsp;</th>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_43c65_level0_col0\" class=\"col_heading level0 col0\" >0</th>\n",
       "      <th id=\"T_43c65_level0_col1\" class=\"col_heading level0 col1\" >1</th>\n",
       "      <th id=\"T_43c65_level0_col2\" class=\"col_heading level0 col2\" >2</th>\n",
       "      <th id=\"T_43c65_level0_col3\" class=\"col_heading level0 col3\" >3</th>\n",
       "      <th id=\"T_43c65_level0_col4\" class=\"col_heading level0 col4\" >Activity</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row0\" class=\"row_heading level0 row0\" >GAAGATCCAACTTGGTTTGATTCTGGTTCTCAATTTATCTTAAATTCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATGCTGCTGGTTCTCAAGATAGAGAAGAGAATACTAAT</th>\n",
       "      <th id=\"T_43c65_level1_row0\" class=\"row_heading level1 row0\" >ATCGTTACGTC</th>\n",
       "      <td id=\"T_43c65_row0_col0\" class=\"data row0 col0\" >0.266147</td>\n",
       "      <td id=\"T_43c65_row0_col1\" class=\"data row0 col1\" >0.298408</td>\n",
       "      <td id=\"T_43c65_row0_col2\" class=\"data row0 col2\" >0.435445</td>\n",
       "      <td id=\"T_43c65_row0_col3\" class=\"data row0 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row0_col4\" class=\"data row0 col4\" >167.607130</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row1\" class=\"row_heading level0 row1\" >GATTTGGCTGAAGATGATGAAGTTATGTGTATGGAAGATGAAGTTCAATCTATTCAACCAAATCATGAAAGACCAGATGATGGTCCAGAATTGGAACATGGTTTGGAGAATGGTGCTAAA</th>\n",
       "      <th id=\"T_43c65_level1_row1\" class=\"row_heading level1 row1\" >GGAAGGTAGTA</th>\n",
       "      <td id=\"T_43c65_row1_col0\" class=\"data row1 col0\" >0.220979</td>\n",
       "      <td id=\"T_43c65_row1_col1\" class=\"data row1 col1\" >0.545081</td>\n",
       "      <td id=\"T_43c65_row1_col2\" class=\"data row1 col2\" >0.233940</td>\n",
       "      <td id=\"T_43c65_row1_col3\" class=\"data row1 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row1_col4\" class=\"data row1 col4\" >149.055134</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row2\" class=\"row_heading level0 row2\" >TCTGAATTGACTTCTACTTTGGGTATTTCTCATAGATTGCCACAATCTTTGACTCCATGTGTTAAGACTGGTTCTTTGCAATCTGGTGGTTTGGTTCAATCTGTTCCATTTGAAGAATTG</th>\n",
       "      <th id=\"T_43c65_level1_row2\" class=\"row_heading level1 row2\" >GAGACCAAATC</th>\n",
       "      <td id=\"T_43c65_row2_col0\" class=\"data row2 col0\" >0.306310</td>\n",
       "      <td id=\"T_43c65_row2_col1\" class=\"data row2 col1\" >0.276763</td>\n",
       "      <td id=\"T_43c65_row2_col2\" class=\"data row2 col2\" >0.416927</td>\n",
       "      <td id=\"T_43c65_row2_col3\" class=\"data row2 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row2_col4\" class=\"data row2 col4\" >162.357171</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row3\" class=\"row_heading level0 row3\" >GAAATGGCTGATGATAAAGAAGAACAAGAGAAAGATAGAGATAATGAGAATCAAGGTGAAGAAGATCCAACTTGGGCTGATTCTGGTGATCAATTTATTGCTAATTCTCAACAATTGGTT</th>\n",
       "      <th id=\"T_43c65_level1_row3\" class=\"row_heading level1 row3\" >GGCAAAAGGCT</th>\n",
       "      <td id=\"T_43c65_row3_col0\" class=\"data row3 col0\" >0.425497</td>\n",
       "      <td id=\"T_43c65_row3_col1\" class=\"data row3 col1\" >0.484412</td>\n",
       "      <td id=\"T_43c65_row3_col2\" class=\"data row3 col2\" >0.090091</td>\n",
       "      <td id=\"T_43c65_row3_col3\" class=\"data row3 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row3_col4\" class=\"data row3 col4\" >116.870239</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row4\" class=\"row_heading level0 row4\" >AAGAAGAGGAAGAATAAGAATCAAGGTAAGAAGAAACCAACTTGGTTTAAATCTGGTGCTCAATTTATCTTGAATGCTCAACAATTGGTTAAAGCTGCTTCTGCTTGTAAGAAATTGTTG</th>\n",
       "      <th id=\"T_43c65_level1_row4\" class=\"row_heading level1 row4\" >CGCATGGGCAC</th>\n",
       "      <td id=\"T_43c65_row4_col0\" class=\"data row4 col0\" >0.252775</td>\n",
       "      <td id=\"T_43c65_row4_col1\" class=\"data row4 col1\" >0.479624</td>\n",
       "      <td id=\"T_43c65_row4_col2\" class=\"data row4 col2\" >0.267601</td>\n",
       "      <td id=\"T_43c65_row4_col3\" class=\"data row4 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row4_col4\" class=\"data row4 col4\" >150.214165</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row5\" class=\"row_heading level0 row5\" >AATCATGAAAGACCATCTTCTGGTCCAGAAGCTGAACATGGTTTGGAGAATGGTGCTAAAGAAATGGCTGATGATAAAGAAGAACAAGAGAAAGATAGAGATAATGAGAATCAAGGTGAA</th>\n",
       "      <th id=\"T_43c65_level1_row5\" class=\"row_heading level1 row5\" >ACACAAACCAT</th>\n",
       "      <td id=\"T_43c65_row5_col0\" class=\"data row5 col0\" >0.737589</td>\n",
       "      <td id=\"T_43c65_row5_col1\" class=\"data row5 col1\" >0.262411</td>\n",
       "      <td id=\"T_43c65_row5_col2\" class=\"data row5 col2\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row5_col3\" class=\"data row5 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row5_col4\" class=\"data row5 col4\" >81.992908</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row6\" class=\"row_heading level0 row6\" >AAAGATAGAGATAATGAGAATCAAGGTGAAGAAGATCCAACTGCATTTGATTCTGGTTCTCAAGCTATCTTGAATGCTCAACAAGCTGTTGAAGCTTTGTCTGCTTGTGATGATTTGGCT</th>\n",
       "      <th id=\"T_43c65_level1_row6\" class=\"row_heading level1 row6\" >GGTTATTGTCG</th>\n",
       "      <td id=\"T_43c65_row6_col0\" class=\"data row6 col0\" >0.266923</td>\n",
       "      <td id=\"T_43c65_row6_col1\" class=\"data row6 col1\" >0.379852</td>\n",
       "      <td id=\"T_43c65_row6_col2\" class=\"data row6 col2\" >0.353225</td>\n",
       "      <td id=\"T_43c65_row6_col3\" class=\"data row6 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row6_col4\" class=\"data row6 col4\" >158.500845</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row7\" class=\"row_heading level0 row7\" >CCATCTGATTATGTTTCTGCTCATGAAGTTTCTTTGGCTGAAACTTCTGAAGTTATGTGTATGGAAGATGAAGTTCAATCTATTCAACCAAATCATGAAAGACCATCTTCTGGTCCAGAA</th>\n",
       "      <th id=\"T_43c65_level1_row7\" class=\"row_heading level1 row7\" >GCTTCACTTCC</th>\n",
       "      <td id=\"T_43c65_row7_col0\" class=\"data row7 col0\" >0.155332</td>\n",
       "      <td id=\"T_43c65_row7_col1\" class=\"data row7 col1\" >0.515782</td>\n",
       "      <td id=\"T_43c65_row7_col2\" class=\"data row7 col2\" >0.328886</td>\n",
       "      <td id=\"T_43c65_row7_col3\" class=\"data row7 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row7_col4\" class=\"data row7 col4\" >164.750908</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row8\" class=\"row_heading level0 row8\" >ATTGCTGATGCTGCTCATTTGGGTCCAGAAGATGCTAAGAGAGATTTGGAAGAATGTCAGAAGATTGTTGCTGATCCATCTAATATTGAATTGGATGATCCACCAGAAGCTAGATTGGAT</th>\n",
       "      <th id=\"T_43c65_level1_row8\" class=\"row_heading level1 row8\" >AATGCATAAAC</th>\n",
       "      <td id=\"T_43c65_row8_col0\" class=\"data row8 col0\" >0.451797</td>\n",
       "      <td id=\"T_43c65_row8_col1\" class=\"data row8 col1\" >0.428628</td>\n",
       "      <td id=\"T_43c65_row8_col2\" class=\"data row8 col2\" >0.119574</td>\n",
       "      <td id=\"T_43c65_row8_col3\" class=\"data row8 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row8_col4\" class=\"data row8 col4\" >118.009397</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_43c65_level0_row9\" class=\"row_heading level0 row9\" >GACCCAGTTGATCCTAAATTGGCTGATCCAGAACCAAGAAATGCTGTTAGAATTTGTGATGATGATCATATTGCTGATGATGAAGTTGATCCAGATGATGAAGTTGATGCTCATGAAGTT</th>\n",
       "      <th id=\"T_43c65_level1_row9\" class=\"row_heading level1 row9\" >GCTCAGTAACC</th>\n",
       "      <td id=\"T_43c65_row9_col0\" class=\"data row9 col0\" >0.376720</td>\n",
       "      <td id=\"T_43c65_row9_col1\" class=\"data row9 col1\" >0.357401</td>\n",
       "      <td id=\"T_43c65_row9_col2\" class=\"data row9 col2\" >0.265878</td>\n",
       "      <td id=\"T_43c65_row9_col3\" class=\"data row9 col3\" >0.000000</td>\n",
       "      <td id=\"T_43c65_row9_col4\" class=\"data row9 col4\" >140.108949</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f3332ec37f0>"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "display_df(activities_barcoded)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<a id='custom_anchor_example'></a>\n",
    "### Support for custom anchor sequences\n",
    "If your tiles or barcodes have a custom anchor sequence (AKA the non-variable portion of the read that is used to locate the variable portion of the read), you can specify that in the kwargs of your Sort(). This passes the arguments to the pull_AD() function used on each read to locate the sequence of interest (AKA AD or tile). "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Use the sequence directly preceding the AD/tile as an anchor sequence. Additional characters between AD/tile and preceding anchor seqeunce will not work\n",
    "\n",
    "My preceding anchor sequence is in blue while my AD/tile sequence is in green in this example read.\n",
    "\n",
    "The anchor sequence preceding the barcode is purple while the anchor sequence anteceding is red. Barcode length is 11 by default. (Not necessary if you don't have barcodes)\n",
    "\n",
    "##### Example read\n",
    "\n",
    "<span style=\"font-size:10px\">TCCCTGCGGGCTCTACTTCATCG<span style=\"color:blue;font-weight:800\">GCTAGC</span><span style=\"color:green;font-weight:500;font-size:10px\">**GGTTCTT...CTGCTAAA**</span>TGATAAATAGATGA<span style=\"color:purple;font-weight:800\">GGGCCCG</span>TCAACATAGAA<span style=\"color:red;font-weight:800\">GGAGAGAA</span>ACATCTAAAAAAGCGATA</span>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Specify alternate values in a dictionary and pass that dictionary to Sort.process()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
    "# these are the default values which would work for my example read above\n",
    "# no input is required if they work for you\n",
    "kwargs = {\"ad_preceder\":\"GCTAGC\", \"bc_preceder\":\"GGGCCCG\", \"bc_anteceder\":\"GGAGAGAA\", \"bclength\":11, \"ad_length\":120}"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "activities_barcoded, _, _ = my_sort.process(barcoded = True, **kwargs)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [],
   "source": [
    "pd.set_option('display.max_colwidth', 1)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Example output for pull_AD\n",
    "This might be useful for someone who wants to use pull_AD to analyze reads for a purpose outside of calculating activities. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "from labtools.adtools.finder import pull_AD"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "('GGTTCTTCTAAATTGAGATGTGATAATAATGCTGCTGCTCATGTTAAATTGGATTCATTTCCAGCTGGTGTTAGATTTGATACATCTGATGAAGAATTGTTGGAACATTTGGCTGCTAAA',\n",
       " 'TCAACATAGAA')"
      ]
     },
     "execution_count": 18,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "read = \"TCCCTGCGGGCTCTACTTCATCGGCTAGCGGTTCTTCTAAATTGAGATGTGATAATAATGCTGCTGCTCATGTTAAATTGGATTCATTTCCAGCTGGTGTTAGATTTGATACATCTGATGAAGAATTGTTGGAACATTTGGCTGCTAAATGATAAATAGATGAGGGCCCGTCAACATAGAAGGAGAGAAACATCTAAAAAAGCGATA\"\n",
    "pull_AD(read, kwargs)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Counting tiles in a fastq file\n",
    "This essentially applies the pull_AD function shown above to every read in the fastq file. You can also pass the kwargs dict to it to specify custom anchor sequences. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {
    "scrolled": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "GGTTCTTCTAAATTGAGATGTGATAATAATGCTGCTGCTCATGTTAAATTGGATTCATTTCCAGCTGGTGTTAGATTTGATACATCTGATGAAGAATTGTTGGAACATTTGGCTGCTAAA    1\n",
       "GAAGAATTGTTTTTACATTTGTCTGCTAAGATTGGTAGATCTTCTAGGAAACCACATCCATTCTTGGATGAATTTATTCATACTTTGGTTGAAGAAGATGGTATTTGTAGAACTCATCCA    3\n",
       "dtype: int64"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from labtools.adtools.counter import seq_counter\n",
    "seq_counter(\"../exampledata/mini.fastq\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "- Use barcoded = True  to count tile and barcode pairs\n",
    "- Use the design_file flag to look for specific tiles"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "GAAGATCCAACTTGGTTTGATTCTGGTTCTCAATTTATCTTAAATTCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATGCTGCTGGTTCTCAAGATAGAGAAGAGAATACTAAT  ATCGTTACGTC    11.0\n",
       "GAAGCTTTGTCTTTGTGTGATGATTTGTTGGGTGATCAAGATAGAGAAGAGAATGATAATGATGGTGATTTGAAAGATAAACAACCATGTATTGCTGATTATGCTCATTTGGGTCCAGAA  ACCATTTAGCG    1.0 \n",
       "GATTTGGCTGAAGATGATGAAGTTATGTGTATGGAAGATGAAGTTCAATCTATTCAACCAAATCATGAAAGACCAGATGATGGTCCAGAATTGGAACATGGTTTGGAGAATGGTGCTAAA  GGAAGGTAGTA    5.0 \n",
       "GGTCAAAGGAAGAGAAGGAAGATTACTCCAACTTTGGTTAATGATGAACCAGTTAGATGGCATAAGACTGGTAGAACTAAACCAGTTATGTTGTCTGGTGTTCAAAGAGGTTGTAAGAAA  TAGCTCAAACC    4.0 \n",
       "TCTGAATTGACTTCTACTTTGGGTATTTCTCATAGATTGCCACAATCTTTGACTCCATGTGTTAAGACTGGTTCTTTGCAATCTGGTGGTTTGGTTCAATCTGTTCCATTTGAAGAATTG  GAGACCAAATC    21.0\n",
       "                                                                                                                                         ... \n",
       "CAAGCTATTGCTAATGATCAACAAGCTGTTGAAGCTGCTTCTGCTTGTGATGATGCTGCTGGTTCTCAAGATAGAGAAGAGAATACTAATTCTGGTTCTGCTAAAGATAAACAACCATGT  TCGTCTGACAC    1.0 \n",
       "AAAGATAGAGATAATGAGAATCAAGGTGAAGAAGATCCAACTTGGTTTGATTCTGGTTCTCAATTTATCTTGAATGCTCAACAATTGGTTGAAGCTTTGTCTTTGTGTGATGATTTGTTG  TTCTTTCCCTA    1.0 \n",
       "CATTTGGGTATTGAAGAAGATGAGAAAGAAGGTGATGAAGTTGTTTCTAAGATCTTCTATCAACAACCACAACAATTGGTTGTTAAGAGAGGTGATAAAGCTGAACAAGAAGTTGATGAA  ACTCCCCGCAA    1.0 \n",
       "GAAGATCCAACTGCATTTGATTCTGGTGATCAAGCTATCTTGAATGATCAACAAGCTGTTGAAGCTTTGTCTGCTTGTGATGATTTGGCTGGTTCTCAAGATAGAGAAGAGAATACTAAT  GGTTGAAGTGC    1.0 \n",
       "GAAGAAACTGTTGTCTTGCCACCATCTGTTAAGACTACTAAAGATGGTGATAATTTGCAATCTCAAGATCAGAAATTGTGGGAAGGTGATTCTCAATTTGAATTGTTGGATTCTCAACAA  ACCACCGACGA    1.0 \n",
       "Length: 684, dtype: float64"
      ]
     },
     "execution_count": 20,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "counts = seq_counter(\"../exampledata/bin1.fastq\", barcoded = True, design_to_use=\"../exampledata/unique_seqs.csv\")\n",
    "counts"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Sequence Design Tools"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Imports"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {
    "scrolled": true
   },
   "outputs": [],
   "source": [
    "from labtools import shuffle"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Shuffle a sequence\n",
    "\n",
    "Create shuffles of the alphabet:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {
    "scrolled": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['adcbeFGHIJKLMNOPQRSTUVWYXZ',\n",
       " 'AcbedfGHIJKLMNOPQRSTUVWYXZ',\n",
       " 'ABgcefdHIJKLMNOPQRSTUVWYXZ',\n",
       " 'ABCdhfegIJKLMNOPQRSTUVWYXZ',\n",
       " 'ABCDfigheJKLMNOPQRSTUVWYXZ',\n",
       " 'ABCDEfhjigKLMNOPQRSTUVWYXZ',\n",
       " 'ABCDEFgkhjiLMNOPQRSTUVWYXZ',\n",
       " 'ABCDEFGihljkMNOPQRSTUVWYXZ',\n",
       " 'ABCDEFGHjmkilNOPQRSTUVWYXZ',\n",
       " 'ABCDEFGHIknjlmOPQRSTUVWYXZ',\n",
       " 'ABCDEFGHIJlnomkPQRSTUVWYXZ',\n",
       " 'ABCDEFGHIJKlmnpoQRSTUVWYXZ',\n",
       " 'ABCDEFGHIJKLqnmpoRSTUVWYXZ',\n",
       " 'ABCDEFGHIJKLMopnqrSTUVWYXZ',\n",
       " 'ABCDEFGHIJKLMNqorpsTUVWYXZ',\n",
       " 'ABCDEFGHIJKLMNOtqsrpUVWYXZ',\n",
       " 'ABCDEFGHIJKLMNOPtsruqVWYXZ',\n",
       " 'ABCDEFGHIJKLMNOPQuvtsrWYXZ',\n",
       " 'ABCDEFGHIJKLMNOPQRwuvstYXZ',\n",
       " 'ABCDEFGHIJKLMNOPQRSvtwyuXZ',\n",
       " 'ABCDEFGHIJKLMNOPQRSTxvyuwZ',\n",
       " 'ABCDEFGHIJKLMNOPQRSTUzvywx']"
      ]
     },
     "execution_count": 22,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "shuffles_list, names_list = shuffle.windowed_shuffle(\"ABCDEFGHIJKLMNOPQRSTUVWYXZ\")\n",
    "shuffles_list"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Predictors (coming soon?)"
   ]
  }
 ],
 "metadata": {
  "celltoolbar": "Raw Cell Format",
  "kernelspec": {
   "display_name": "bioinformatics",
   "language": "python",
   "name": "bioinformatics"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.10"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}