Update documentation

khuyentran1401 · khuyentran1401 · commit 7b53a6216cae · 2025-04-15T08:52:25.000-07:00
diff --git a/Chapter5/polars.html b/Chapter5/polars.html
@@ -1729,16 +1729,16 @@ <h2><span class="section-number">6.14.11. </span>Efficiently Join Large Datasets
 <span class="kn">import</span><span class="w"> </span><span class="nn">pandas</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">pd</span>
 
 <span class="c1"># Create two large DataFrames</span>
-<span class="n">df1</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s1">&#39;id&#39;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1000001</span><span class="p">),</span> <span class="s1">&#39;value&#39;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1000000</span><span class="p">)})</span>
-<span class="n">df2</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s1">&#39;id&#39;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">500000</span><span class="p">,</span> <span class="mi">1500000</span><span class="p">),</span> <span class="s1">&#39;value&#39;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">500000</span><span class="p">,</span> <span class="mi">1500000</span><span class="p">)})</span>
+<span class="n">df1</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s2">&quot;id&quot;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1000001</span><span class="p">),</span> <span class="s2">&quot;value&quot;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1000000</span><span class="p">)})</span>
+<span class="n">df2</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s2">&quot;id&quot;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">500000</span><span class="p">,</span> <span class="mi">1500000</span><span class="p">),</span> <span class="s2">&quot;value&quot;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">500000</span><span class="p">,</span> <span class="mi">1500000</span><span class="p">)})</span>
 </pre></div>
 </div>
 </div>
 </div>
 <div class="cell docutils container">
 <div class="cell_input docutils container">
 <div class="highlight-ipython3 notranslate"><div class="highlight"><pre><span></span><span class="o">%%time</span>
-<span class="n">result_pandas</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">df1</span><span class="p">,</span> <span class="n">df2</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="s1">&#39;id&#39;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s1">&#39;inner&#39;</span><span class="p">)</span>
+<span class="n">result_pandas</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">df1</span><span class="p">,</span> <span class="n">df2</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;id&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;inner&quot;</span><span class="p">)</span>
 <span class="nb">print</span><span class="p">(</span><span class="n">result_pandas</span><span class="o">.</span><span class="n">head</span><span class="p">())</span>
 </pre></div>
 </div>
@@ -1763,16 +1763,16 @@ <h2><span class="section-number">6.14.11. </span>Efficiently Join Large Datasets
 <div class="highlight-ipython3 notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span><span class="w"> </span><span class="nn">polars</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">pl</span>
 
 <span class="c1"># Create two large DataFrames</span>
-<span class="n">df1</span> <span class="o">=</span> <span class="n">pl</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s1">&#39;id&#39;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1000001</span><span class="p">),</span> <span class="s1">&#39;value&#39;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1000000</span><span class="p">)})</span>
-<span class="n">df2</span> <span class="o">=</span> <span class="n">pl</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s1">&#39;id&#39;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">500000</span><span class="p">,</span> <span class="mi">1500000</span><span class="p">),</span> <span class="s1">&#39;value&#39;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">500000</span><span class="p">,</span> <span class="mi">1500000</span><span class="p">)})</span>
+<span class="n">df1</span> <span class="o">=</span> <span class="n">pl</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s2">&quot;id&quot;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1000001</span><span class="p">),</span> <span class="s2">&quot;value&quot;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1000000</span><span class="p">)})</span>
+<span class="n">df2</span> <span class="o">=</span> <span class="n">pl</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s2">&quot;id&quot;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">500000</span><span class="p">,</span> <span class="mi">1500000</span><span class="p">),</span> <span class="s2">&quot;value&quot;</span><span class="p">:</span> <span class="nb">range</span><span class="p">(</span><span class="mi">500000</span><span class="p">,</span> <span class="mi">1500000</span><span class="p">)})</span>
 </pre></div>
 </div>
 </div>
 </div>
 <div class="cell docutils container">
 <div class="cell_input docutils container">
 <div class="highlight-ipython3 notranslate"><div class="highlight"><pre><span></span><span class="o">%%time</span>
-<span class="n">result_polars</span> <span class="o">=</span> <span class="n">df1</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">df2</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="s1">&#39;id&#39;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s1">&#39;inner&#39;</span><span class="p">)</span>
+<span class="n">result_polars</span> <span class="o">=</span> <span class="n">df1</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">df2</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;id&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;inner&quot;</span><span class="p">)</span>
 <span class="nb">print</span><span class="p">(</span><span class="n">result_polars</span><span class="o">.</span><span class="n">head</span><span class="p">())</span>
 </pre></div>
 </div>
@@ -1836,6 +1836,14 @@ <h2><span class="section-number">6.14.12. </span>Simplify Aggregations with Pola
 </pre></div>
 </div>
 </div>
+<div class="cell_output docutils container">
+<div class="output stream highlight-myst-ansi notranslate"><div class="highlight"><pre><span></span>          value1_sum  value2_mean
+category                         
+A                 30         10.0
+B                 70         30.0
+</pre></div>
+</div>
+</div>
 </div>
 <p>Here, you must explicitly define each aggregation using tuples, which can be tedious for larger datasets or more complex operations.</p>
 <p>Polars simplifies this process with its declarative approach using <code class="docutils literal notranslate"><span class="pre">pl.col</span></code>.</p>
@@ -1852,17 +1860,29 @@ <h2><span class="section-number">6.14.12. </span>Simplify Aggregations with Pola
 <span class="n">df</span> <span class="o">=</span> <span class="n">pl</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
 
 <span class="c1"># Aggregations in Polars</span>
-<span class="n">result</span> <span class="o">=</span> <span class="p">(</span>
-    <span class="n">df</span><span class="o">.</span><span class="n">group_by</span><span class="p">(</span><span class="s2">&quot;category&quot;</span><span class="p">)</span>
-    <span class="o">.</span><span class="n">agg</span><span class="p">([</span>
+<span class="n">result</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">group_by</span><span class="p">(</span><span class="s2">&quot;category&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">agg</span><span class="p">(</span>
+    <span class="p">[</span>
         <span class="n">pl</span><span class="o">.</span><span class="n">col</span><span class="p">(</span><span class="s2">&quot;value1&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">alias</span><span class="p">(</span><span class="s2">&quot;value1_sum&quot;</span><span class="p">),</span>
         <span class="n">pl</span><span class="o">.</span><span class="n">col</span><span class="p">(</span><span class="s2">&quot;value2&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">alias</span><span class="p">(</span><span class="s2">&quot;value2_mean&quot;</span><span class="p">),</span>
-    <span class="p">])</span>
+    <span class="p">]</span>
 <span class="p">)</span>
 <span class="nb">print</span><span class="p">(</span><span class="n">result</span><span class="p">)</span>
 </pre></div>
 </div>
 </div>
+<div class="cell_output docutils container">
+<div class="output stream highlight-myst-ansi notranslate"><div class="highlight"><pre><span></span>shape: (2, 3)
+┌──────────┬────────────┬─────────────┐
+│ category ┆ value1_sum ┆ value2_mean │
+│ ---      ┆ ---        ┆ ---         │
+│ str      ┆ i64        ┆ f64         │
+╞══════════╪════════════╪═════════════╡
+│ B        ┆ 70         ┆ 30.0        │
+│ A        ┆ 30         ┆ 10.0        │
+└──────────┴────────────┴─────────────┘
+</pre></div>
+</div>
+</div>
 </div>
 <p>In this example, Polars allows you to define aggregations directly using expressions like <code class="docutils literal notranslate"><span class="pre">pl.col(&quot;value1&quot;).sum()</span></code> and <code class="docutils literal notranslate"><span class="pre">pl.col(&quot;value2&quot;).mean()</span></code>. This approach eliminates the need for tuples and makes the code more intuitive.</p>
 <p><a class="reference external" href="https://github.com/pola-rs/polars">Link to Polars</a>.</p>
diff --git a/_sources/Chapter5/polars.ipynb b/_sources/Chapter5/polars.ipynb
@@ -1821,8 +1821,8 @@
     "import pandas as pd\n",
     "\n",
     "# Create two large DataFrames\n",
-    "df1 = pd.DataFrame({'id': range(1, 1000001), 'value': range(1000000)})\n",
-    "df2 = pd.DataFrame({'id': range(500000, 1500000), 'value': range(500000, 1500000)})"
+    "df1 = pd.DataFrame({\"id\": range(1, 1000001), \"value\": range(1000000)})\n",
+    "df2 = pd.DataFrame({\"id\": range(500000, 1500000), \"value\": range(500000, 1500000)})"
    ]
   },
   {
@@ -1848,7 +1848,7 @@
    ],
    "source": [
     "%%time\n",
-    "result_pandas = pd.merge(df1, df2, on='id', how='inner')\n",
+    "result_pandas = pd.merge(df1, df2, on=\"id\", how=\"inner\")\n",
     "print(result_pandas.head())"
    ]
   },
@@ -1872,8 +1872,8 @@
     "import polars as pl\n",
     "\n",
     "# Create two large DataFrames\n",
-    "df1 = pl.DataFrame({'id': range(1, 1000001), 'value': range(1000000)})\n",
-    "df2 = pl.DataFrame({'id': range(500000, 1500000), 'value': range(500000, 1500000)})"
+    "df1 = pl.DataFrame({\"id\": range(1, 1000001), \"value\": range(1000000)})\n",
+    "df2 = pl.DataFrame({\"id\": range(500000, 1500000), \"value\": range(500000, 1500000)})"
    ]
   },
   {
@@ -1905,7 +1905,7 @@
    ],
    "source": [
     "%%time\n",
-    "result_polars = df1.join(df2, on='id', how='inner')\n",
+    "result_polars = df1.join(df2, on=\"id\", how=\"inner\")\n",
     "print(result_polars.head())"
    ]
   },
@@ -1945,12 +1945,23 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 5,
    "id": "3c50b76d",
    "metadata": {
     "lines_to_next_cell": 2
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "          value1_sum  value2_mean\n",
+      "category                         \n",
+      "A                 30         10.0\n",
+      "B                 70         30.0\n"
+     ]
+    }
+   ],
    "source": [
     "import pandas as pd\n",
     "\n",
@@ -1982,12 +1993,28 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 6,
    "id": "518e5668",
    "metadata": {
     "lines_to_next_cell": 2
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "shape: (2, 3)\n",
+      "┌──────────┬────────────┬─────────────┐\n",
+      "│ category ┆ value1_sum ┆ value2_mean │\n",
+      "│ ---      ┆ ---        ┆ ---         │\n",
+      "│ str      ┆ i64        ┆ f64         │\n",
+      "╞══════════╪════════════╪═════════════╡\n",
+      "│ B        ┆ 70         ┆ 30.0        │\n",
+      "│ A        ┆ 30         ┆ 10.0        │\n",
+      "└──────────┴────────────┴─────────────┘\n"
+     ]
+    }
+   ],
    "source": [
     "import polars as pl\n",
     "\n",
@@ -2000,12 +2027,11 @@
     "df = pl.DataFrame(data)\n",
     "\n",
     "# Aggregations in Polars\n",
-    "result = (\n",
-    "    df.group_by(\"category\")\n",
-    "    .agg([\n",
+    "result = df.group_by(\"category\").agg(\n",
+    "    [\n",
     "        pl.col(\"value1\").sum().alias(\"value1_sum\"),\n",
     "        pl.col(\"value2\").mean().alias(\"value2_mean\"),\n",
-    "    ])\n",
+    "    ]\n",
     ")\n",
     "print(result)"
    ]