Lattice-Automation
diff --git a/‎scripts/convert2cds.ipynb‎
Lines changed: 56 additions & 99 deletions b/‎scripts/convert2cds.ipynb‎
Lines changed: 56 additions & 99 deletions
diff --git a/‎scripts/csv_2_seqs.py‎
Lines changed: 4 additions & 0 deletions b/‎scripts/csv_2_seqs.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎scripts/import_onnx.ipynb‎
Lines changed: 128 additions & 59 deletions b/‎scripts/import_onnx.ipynb‎
Lines changed: 128 additions & 59 deletions
diff --git a/‎scripts/naive_optimizer.py‎
Lines changed: 1 addition & 0 deletions b/‎scripts/naive_optimizer.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎scripts/reformat_seqs.py‎
Lines changed: 10 additions & 1 deletion b/‎scripts/reformat_seqs.py‎
Lines changed: 10 additions & 1 deletion
@@ -27,7 +27,20 @@
   {
    "cell_type": "code",
    "execution_count": 57,
-   "metadata": {},
+   "source": [
+    "# import modules\r\n",
+    "from selenium import webdriver\r\n",
+    "from webdriver_manager.chrome import ChromeDriverManager\r\n",
+    "from selenium.webdriver.support.select import Select\r\n",
+    "import os\r\n",
+    "from Bio import SeqIO\r\n",
+    "import time\r\n",
+    "import numpy as np\r\n",
+    "\r\n",
+    "#init webdriver + selenium opts (must have chrome installed on machine)\r\n",
+    "chromeOptions = webdriver.ChromeOptions()\r\n",
+    "browser = webdriver.Chrome(ChromeDriverManager().install(), chrome_options=chromeOptions)"
+   ],
    "outputs": [
     {
      "output_type": "stream",
@@ -44,25 +57,34 @@
      ]
     }
    ],
-   "source": [
-    "# import modules\n",
-    "from selenium import webdriver\n",
-    "from webdriver_manager.chrome import ChromeDriverManager\n",
-    "from selenium.webdriver.support.select import Select\n",
-    "import os\n",
-    "from Bio import SeqIO\n",
-    "import time\n",
-    "import numpy as np\n",
-    "\n",
-    "#init webdriver + selenium opts\n",
-    "chromeOptions = webdriver.ChromeOptions()\n",
-    "browser = webdriver.Chrome(ChromeDriverManager().install(), chrome_options=chromeOptions)"
-   ]
+   "metadata": {}
   },
   {
    "cell_type": "code",
    "execution_count": 71,
-   "metadata": {},
+   "source": [
+    "'''\r\n",
+    "Convert DNA seqs to include CDS only\r\n",
+    "Heads to ncbi nuccore webpage for each sequence.\r\n",
+    "Grabs the \"CDS\" portion and rewrites the sequences for that portion only.\r\n",
+    "'''\r\n",
+    "dir = r\"C:\\Users\\risha\\Desktop\\icor-codon-optimization\\benchmark_sequences\\dna\"\r\n",
+    "x = 1\r\n",
+    "for entry in os.scandir(dir):\r\n",
+    "    record = SeqIO.read(entry,'fasta')\r\n",
+    "    if record.name.startswith(\"NM\"):\r\n",
+    "        browser.get(\"https://www.ncbi.nlm.nih.gov/nuccore/%s\" % record.name)\r\n",
+    "        time.sleep(1)\r\n",
+    "        cds = browser.find_elements_by_class_name('feature')\r\n",
+    "        for i in cds:\r\n",
+    "            list = i.text.split()\r\n",
+    "            if list[0] == 'CDS':\r\n",
+    "                arr=list[1].split('..')\r\n",
+    "                x = x+1\r\n",
+    "                record.seq = record.seq[int(arr[0])-1:int(arr[1])]\r\n",
+    "                SeqIO.write(record,entry,\"fasta\")\r\n",
+    "                print(\"Finished writing #\" + x)"
+   ],
    "outputs": [
     {
      "output_type": "stream",
@@ -105,96 +127,31 @@
      ]
     }
    ],
-   "source": [
-    "'''\n",
-    "Convert DNA seqs to include CDS only\n",
-    "'''\n",
-    "dir = r\"C:\\Users\\risha\\Desktop\\icor-codon-optimization\\benchmark_sequences\\dna\"\n",
-    "x = 1\n",
-    "for entry in os.scandir(dir):\n",
-    "    record = SeqIO.read(entry,'fasta')\n",
-    "    if record.name.startswith(\"NM\"):\n",
-    "        browser.get(\"https://www.ncbi.nlm.nih.gov/nuccore/%s\" % record.name)\n",
-    "        time.sleep(1)\n",
-    "        cds = browser.find_elements_by_class_name('feature')\n",
-    "        for i in cds:\n",
-    "            list = i.text.split()\n",
-    "            if list[0] == 'CDS':\n",
-    "                arr=list[1].split('..')\n",
-    "                print(x, \"====\")\n",
-    "                x = x+1\n",
-    "                record.seq = record.seq[int(arr[0])-1:int(arr[1])]\n",
-    "                SeqIO.write(record,entry,\"fasta\")"
-   ]
+   "metadata": {}
   },
   {
    "cell_type": "code",
    "execution_count": 80,
-   "metadata": {},
-   "outputs": [],
    "source": [
-    "'''\n",
-    "Convert DNA seqs to AA\n",
-    "'''\n",
-    "\n",
-    "from Bio.Seq import Seq\n",
-    "import os\n",
-    "\n",
-    "dna_dir = r\"C:\\Users\\risha\\Desktop\\icor-codon-optimization\\benchmark_sequences\\dna\"\n",
-    "aa_dir = r\"C:\\Users\\risha\\Desktop\\icor-codon-optimization\\benchmark_sequences\\aa\"\n",
-    "\n",
-    "for entry in os.scandir(dna_dir):\n",
-    "    record = SeqIO.read(entry,'fasta')\n",
-    "    record.seq = record.translate().seq\n",
-    "\n",
+    "'''\r\n",
+    "Convert DNA seqs to AA, given newly CDS-only seqs.\r\n",
+    "Write these AA seqs into record files.\r\n",
+    "'''\r\n",
+    "\r\n",
+    "from Bio.Seq import Seq\r\n",
+    "import os\r\n",
+    "\r\n",
+    "dna_dir = r\"C:\\Users\\risha\\Desktop\\icor-codon-optimization\\benchmark_sequences\\dna\"\r\n",
+    "aa_dir = r\"C:\\Users\\risha\\Desktop\\icor-codon-optimization\\benchmark_sequences\\aa\"\r\n",
+    "\r\n",
+    "for entry in os.scandir(dna_dir):\r\n",
+    "    record = SeqIO.read(entry,'fasta')\r\n",
+    "    record.seq = record.translate().seq\r\n",
+    "\r\n",
     "    SeqIO.write(record,os.path.join(aa_dir, entry.name[0:-9] + \"aa.fasta\"),\"fasta\")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 81,
-   "metadata": {},
-   "outputs": [
-    {
-     "output_type": "execute_result",
-     "data": {
-      "text/plain": [
-       "1467"
-      ]
-     },
-     "metadata": {},
-     "execution_count": 81
-    }
    ],
-   "source": [
-    "str = \"\"\"ATGTCCGATGTTGCCATTGTAAAGGAAGGGTGGTTACACAAGAGGGGCGAATACATTAAG\n",
-    "ACTTGGCGCCCGCGATACTTTCTGCTGAAGAACGATGGGACCTTTATCGGTTACAAGGAA\n",
-    "CGCCCGCAGGATGTTGACCAGCGTGAAGCGCCGCTGAACAACTTCTCTGTGGCGCAGTGC\n",
-    "CAGTTGATGAAGACCGAACGCCCGCGTCCAAACACCTTCATAATCCGTTGTCTTCAATGG\n",
-    "ACGACGGTGATTGAGAGAACGTTTCATGTGGAGACCCCGGAAGAGCGCGAGGAGTGGACC\n",
-    "ACGGCCATTCAGACCGTCGCTGACGGCTTAAAGAAGCAGGAAGAAGAAGAAATGGACTTT\n",
-    "CGCTCCGGCAGCCCCTCCGATAATTCTGGTGCGGAAGAGATGGAAGTAAGTCTTGCAAAG\n",
-    "CCGAAGCACAGAGTTACGATGAACGAGTTCGAGTATCTGAAGCTCCTGGGCAAGGGAACG\n",
-    "TTCGGCAAGGTCATCCTGGTCAAGGAGAAGGCCACCGGGCGCTACTACGCCATGAAGATC\n",
-    "CTGAAGAAGGAGGTGATAGTGGCCAAGGACGAGGTTGCCCACACCCTGACTGAGAACCGG\n",
-    "GTTCTGCAGAACTCTAGACACCCATTCCTTACCGCCCTCAAGTACAGCTTCCAAACCCAC\n",
-    "GATCGTCTGTGTTTCGTTATGGAGTATGCGAATGGCGGCGAGCTGTTCTTTCATCTCTCC\n",
-    "CGCGAACGCGTTTTTAGCGAAGACAGAGCAAGGTTTTACGGGGCGGAGATTGTCAGCGCG\n",
-    "CTAGATTATTTACACTCTGAAAAGAACGTTGTGTACCGTGATCTGAAGCTGGAAAACTTA\n",
-    "ATGTTGGATAAGGACGGTCATATTAAGATTACCGATTTTGGCCTGTGTAAGGAAGGTATT\n",
-    "AAGGATGGTGCGACGATGAAGACCTTTTGCGGCACCCCGGAATATTTGGCTCCGGAAGTA\n",
-    "TTGGAGGATAATGATTACGGTCGAGCCGTTGATTGGTGGGGCCTGGGTGTAGTCATGTAT\n",
-    "GAAATGATGTGCGGACGCTTACCTTTCTATAATCAGGACCATGAAAAGCTGTTTGAGCTG\n",
-    "ATTCTGATGGAGGAAATTCGTTTTCCGCGTACCCTGGGACCAGAAGCGAAGAGCCTGCTT\n",
-    "TCAGGGCTGTTGAAGAAGGACCCCAAGCAACGCTTAGGCGGTGGCTCGGAAGATGCCAAG\n",
-    "GAAATTATGCAGCACCGTTTCTTTGCGGGGATCGTCTGGCAGCACGTGTATGAAAAGAAG\n",
-    "TTAAGTCCACCCTTCAAGCCTCAGGTAACGTCGGAAACTGACACCAGATATTTTGATGAA\n",
-    "GAATTCACGGCACAGATGATCACAATTACGCCGCCGGATCAGGATGACTCTATGGAATGT\n",
-    "GTTGATAGCGAACGCAGACCCCATTTTCCACAATTTAGTTACTCAGCGTCTGGCACCGCG\n",
-    "TGA\"\"\"\n",
-    "\n",
-    "len(str)"
-   ]
+   "outputs": [],
+   "metadata": {}
   }
  ]
 }
@@ -6,16 +6,20 @@
 file_name | seq
 ...
 
+The script will covnert the CSV to sequences that will be written into an output directory which can be specified below.
 '''
 
+#import modules
 import csv
 from Bio import SeqIO
 import os
 from Bio.SeqRecord import SeqRecord
 from Bio.Seq import Seq
 
+#output directory to write sequences
 out_dir = r"C:\Users\risha\Desktop\icor-codon-optimization\benchmark_sequences\genscript"
 
+#iterate through the csv file and write sequences to the output directory
 with open('optimum_seqs.csv', newline='') as csvfile:
     data = list(csv.reader(csvfile))
     for i in data:
 
@@ -1,3 +1,4 @@
+#import standard modules; re is used for regex on ln 59
 import os
 from Bio import SeqIO
 from Bio.Seq import Seq
 
@@ -3,25 +3,34 @@
 # This script simply opens each of the files in a directory, and re-writes them using the SeqIO function.
 # This script does not change the sequence itself, but helps reformat them by writing each to lines with equal lengths.
 
+# Import all necessary modules here
 import os
 from Bio import SeqIO
 import random
 
+# Change this to the directory where your files are stored.
 aa_directory = r"C:\Users\risha\Desktop\icor-codon-optimization\benchmark_sequences\aa"
 dna_directory = r"C:\Users\risha\Desktop\icor-codon-optimization\benchmark_sequences\dna"
 
+# Print the number of files in each directory.
 print("There are %d files in the amino acid directory." % len(os.listdir(aa_directory)))
 print("There are %d files in the DNA directory." % len(os.listdir(dna_directory)))
 
+# Iterate over each file in the directory.
 for entry in os.scandir(aa_directory):
     record = SeqIO.read(entry, "fasta")
     SeqIO.write(record, entry, "fasta")
+    #Although this does not change the actual sequence, it will reformat it with a fixed spacing (makes seqs more legible).
 
+# Iterate over each file in the directory.
 for entry in os.scandir(dna_directory):
     record = SeqIO.read(entry, "fasta")
 
     #Just in case, replace ambigious codons with the corresponding IUPAC ones:
     record.seq = record.seq.replace('K',random.choice(['G','T'])).replace('M',random.choice(['A','C'])).replace('N',random.choice(['A','C','G','T'])).replace('R',random.choice(['A','G'])).replace('W',random.choice(['A','T'])).replace('Y',random.choice(['C','T']))
 
+    #if there are sequences that are not divisible by three, then truncate them:
     num = len(record.seq) % 3
-    print(num)
+    print("Warning: truncated" + entry.name + num)
+    #warning: if sequences are being truncated, they are likely not formatted correctly.
+    #all CDS should be divisible by three because they are all in frame.
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,4 @@`
	`1`	`+#import standard modules; re is used for regex on ln 59`
`1`	`2`	`import os`
`2`	`3`	`from Bio import SeqIO`
`3`	`4`	`from Bio.Seq import Seq`