Perf: atype priority filters/ordering

welchr · welchr · commit 2c35f996a5fd · 2025-12-04T14:57:40.000Z
diff --git a/colocus/api/filters.py b/colocus/api/filters.py
@@ -62,6 +62,30 @@ class BaseColocResultFilter(FilterSet):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
 
+        self.SIGNAL_ANNOTATIONS = {
+            "primary_signal_trait": ("signal1__analysis__trait__uuid", "signal2__analysis__trait__uuid"),
+            "secondary_signal_trait": ("signal2__analysis__trait__uuid", "signal1__analysis__trait__uuid"),
+            "primary_signal_chrom": ("signal1__lead_variant__chrom", "signal2__lead_variant__chrom"),
+            "secondary_signal_chrom": ("signal2__lead_variant__chrom", "signal1__lead_variant__chrom"),
+            "primary_signal_pos": ("signal1__lead_variant__pos", "signal2__lead_variant__pos"),
+            "secondary_signal_pos": ("signal2__lead_variant__pos", "signal1__lead_variant__pos"),
+            "primary_signal_logp": ("signal1__neg_log_p", "signal2__neg_log_p"),
+            "secondary_signal_logp": ("signal2__neg_log_p", "signal1__neg_log_p"),
+            "primary_signal_tissue": ("signal1__analysis__tissue", "signal2__analysis__tissue"),
+            "secondary_signal_tissue": ("signal2__analysis__tissue", "signal1__analysis__tissue"),
+            "primary_signal_cell_type": ("signal1__analysis__cell_type", "signal2__analysis__cell_type"),
+            "secondary_signal_cell_type": ("signal2__analysis__cell_type", "signal1__analysis__cell_type"),
+            "primary_signal_study": ("signal1__analysis__study__uuid", "signal2__analysis__study__uuid"),
+            "secondary_signal_study": ("signal2__analysis__study__uuid", "signal1__analysis__study__uuid"),
+            "primary_signal_gene_ens_id": ("signal1__analysis__trait__gene__ens_id", "signal2__analysis__trait__gene__ens_id"),
+            "secondary_signal_gene_ens_id": ("signal2__analysis__trait__gene__ens_id", "signal1__analysis__trait__gene__ens_id"),
+            "primary_signal_gene_symbol": ("signal1__analysis__trait__gene__symbol", "signal2__analysis__trait__gene__symbol"),
+            "secondary_signal_gene_symbol": ("signal2__analysis__trait__gene__symbol", "signal1__analysis__trait__gene__symbol"),
+            "primary_signal_exon_ens_id": ("signal1__analysis__trait__exon__ens_id", "signal2__analysis__trait__exon__ens_id"),
+            "secondary_signal_exon_ens_id": ("signal2__analysis__trait__exon__ens_id", "signal1__analysis__trait__exon__ens_id"),
+        }
+
+
         # Dynamically create min_logp_{analysis_type} filters
         for _, analysis_type_name in ANALYSIS_TYPES:
             filter_name = f"min_logp_{analysis_type_name.lower()}"  # filter name convention requires min_logp_*
@@ -78,6 +102,28 @@ def __init__(self, *args, **kwargs):
                     ),
                 )
 
+    def _get_requested_ordering_fields(self):
+        """Extract the annotation fields needed based on the ordering parameter."""
+        ordering_param = self.data.get(self.order_by_field, "")
+        if not ordering_param:
+            return set()
+
+        requested = set()
+        for field in ordering_param.split(","):
+            field = field.lstrip("-").strip()
+            # Map public ordering names to internal annotation names
+            for internal_name, (_, _) in self.SIGNAL_ANNOTATIONS.items():
+                # Check against the ordering filter's field mapping
+                if field in ("signal1_trait", "signal2_trait", "signal1_chrom", "signal2_chrom",
+                            "signal1_pos", "signal2_pos", "signal1_logp", "signal2_logp",
+                            "signal1_tissue", "signal2_tissue", "signal1_cell_type", "signal2_cell_type",
+                            "signal1_study", "signal2_study", "signal1_gene_ens_id", "signal2_gene_ens_id",
+                            "signal1_gene_symbol", "signal2_gene_symbol", "signal1_exon_ens_id", "signal2_exon_ens_id"):
+                    # Convert public name to internal annotation name
+                    internal = field.replace("signal1_", "primary_signal_").replace("signal2_", "secondary_signal_")
+                    requested.add(internal)
+        return requested
+
     def filter_queryset(self, queryset):
         # Add some fields that are useful for filtering/sorting but not stored directly in the DB
         # Dynamically create logp_max_over_{analysis_type} for each analysis type
@@ -115,106 +161,19 @@ def filter_queryset(self, queryset):
         # Add conditional annotations for ordering
         # These are necessary because on a per-row basis, signals may be swapped depending on user preference
         # (e.g. analysis_priority), so we need to create consistent "primary" and "secondary" signal fields
-        queryset = queryset.annotate(
-            primary_signal_trait=Case(
-                When(no_signal_swap=True, then=F("signal1__analysis__trait__uuid")),
-                default=F("signal2__analysis__trait__uuid"),
-            ),
-            secondary_signal_trait=Case(
-                When(no_signal_swap=True, then=F("signal2__analysis__trait__uuid")),
-                default=F("signal1__analysis__trait__uuid"),
-            ),
-            primary_signal_chrom=Case(
-                When(no_signal_swap=True, then=F("signal1__lead_variant__chrom")),
-                default=F("signal2__lead_variant__chrom"),
-            ),
-            secondary_signal_chrom=Case(
-                When(no_signal_swap=True, then=F("signal2__lead_variant__chrom")),
-                default=F("signal1__lead_variant__chrom"),
-            ),
-            primary_signal_pos=Case(
-                When(no_signal_swap=True, then=F("signal1__lead_variant__pos")),
-                default=F("signal2__lead_variant__pos"),
-            ),
-            secondary_signal_pos=Case(
-                When(no_signal_swap=True, then=F("signal2__lead_variant__pos")),
-                default=F("signal1__lead_variant__pos"),
-            ),
-            primary_signal_logp=Case(
-                When(no_signal_swap=True, then=F("signal1__neg_log_p")),
-                default=F("signal2__neg_log_p"),
-            ),
-            secondary_signal_logp=Case(
-                When(no_signal_swap=True, then=F("signal2__neg_log_p")),
-                default=F("signal1__neg_log_p"),
-            ),
-            primary_signal_tissue=Case(
-                When(no_signal_swap=True, then=F("signal1__analysis__tissue")),
-                default=F("signal2__analysis__tissue"),
-            ),
-            secondary_signal_tissue=Case(
-                When(no_signal_swap=True, then=F("signal2__analysis__tissue")),
-                default=F("signal1__analysis__tissue"),
-            ),
-            primary_signal_cell_type=Case(
-                When(no_signal_swap=True, then=F("signal1__analysis__cell_type")),
-                default=F("signal2__analysis__cell_type"),
-            ),
-            secondary_signal_cell_type=Case(
-                When(no_signal_swap=True, then=F("signal2__analysis__cell_type")),
-                default=F("signal1__analysis__cell_type"),
-            ),
-            primary_signal_study=Case(
-                When(no_signal_swap=True, then=F("signal1__analysis__study__uuid")),
-                default=F("signal2__analysis__study__uuid"),
-            ),
-            secondary_signal_study=Case(
-                When(no_signal_swap=True, then=F("signal2__analysis__study__uuid")),
-                default=F("signal1__analysis__study__uuid"),
-            ),
-            primary_signal_gene_ens_id=Case(
-                When(
-                    no_signal_swap=True,
-                    then=F("signal1__analysis__trait__gene__ens_id"),
-                ),
-                default=F("signal2__analysis__trait__gene__ens_id"),
-            ),
-            secondary_signal_gene_ens_id=Case(
-                When(
-                    no_signal_swap=True,
-                    then=F("signal2__analysis__trait__gene__ens_id"),
-                ),
-                default=F("signal1__analysis__trait__gene__ens_id"),
-            ),
-            primary_signal_gene_symbol=Case(
-                When(
-                    no_signal_swap=True,
-                    then=F("signal1__analysis__trait__gene__symbol"),
-                ),
-                default=F("signal2__analysis__trait__gene__symbol"),
-            ),
-            secondary_signal_gene_symbol=Case(
-                When(
-                    no_signal_swap=True,
-                    then=F("signal2__analysis__trait__gene__symbol"),
-                ),
-                default=F("signal1__analysis__trait__gene__symbol"),
-            ),
-            primary_signal_exon_ens_id=Case(
-                When(
-                    no_signal_swap=True,
-                    then=F("signal1__analysis__trait__exon__ens_id"),
-                ),
-                default=F("signal2__analysis__trait__exon__ens_id"),
-            ),
-            secondary_signal_exon_ens_id=Case(
-                When(
-                    no_signal_swap=True,
-                    then=F("signal2__analysis__trait__exon__ens_id"),
-                ),
-                default=F("signal1__analysis__trait__exon__ens_id"),
-            ),
-        )
+        # Only annotate the fields that are actually needed for ordering
+        requested_fields = self._get_requested_ordering_fields()
+
+        annotations = {}
+        for field_name, (swap_false_path, swap_true_path) in self.SIGNAL_ANNOTATIONS.items():
+            if field_name in requested_fields:
+                annotations[field_name] = Case(
+                    When(no_signal_swap=True, then=F(swap_false_path)),
+                    default=F(swap_true_path),
+                )
+
+        if annotations:
+            queryset = queryset.annotate(**annotations)
 
         return super().filter_queryset(queryset)
 
diff --git a/colocus/api/views.py b/colocus/api/views.py
@@ -94,83 +94,41 @@ def annotate_prioritized_signals(queryset, analysis_type_priority=None):
         Annotated queryset with 'no_signal_swap' boolean field
     """
     if analysis_type_priority:
-        # Only first two analysis types are used to designate slots 1/2; the rest are ignored
-        order_list = analysis_type_priority.split(",")[0:2]
-
-        # Create CASE statements for order1 and order2
-        order1_whens = [
-            When(signal1__analysis__analysis_type=atype, then=Value(idx))
-            for idx, atype in enumerate(order_list)
-        ]
-
-        order2_whens = [
-            When(signal2__analysis__analysis_type=atype, then=Value(idx))
-            for idx, atype in enumerate(order_list)
-        ]
-
-        queryset = queryset.annotate(
-            order1=Case(
-                *order1_whens,
-                default=Value(None, output_field=IntegerField()),
-                output_field=IntegerField(),
-            ),
-            order2=Case(
-                *order2_whens,
-                default=Value(None, output_field=IntegerField()),
-                output_field=IntegerField(),
-            ),
-        )
+        order_list = [t.strip() for t in analysis_type_priority.split(",")[0:2]]
 
         if len(order_list) == 0:
-            pass  # nothing to do in this case
-        elif len(order_list) == 1:
-            queryset = queryset.filter(Q(order1=0) | Q(order2=0))
-        elif len(order_list) == 2:
-            queryset = queryset.filter(
-                ((Q(order1=0) & Q(order2=1)) | (Q(order1=1) & Q(order2=0)))
-            )
-        else:
-            # Raise exception
-            raise drf_exceptions.ValidationError(
-                "analysis_type_priority should contain <=2 analysis types"
-            )
+            return queryset.annotate(no_signal_swap=Value(True, output_field=BooleanField()))
+
+        # Simplified: signal1 should be the first priority type
+        # no_signal_swap=True means signal1 is already the preferred type
+        first_priority = order_list[0]
 
         queryset = queryset.annotate(
             no_signal_swap=Case(
-                When(Q(order1__isnull=True) & Q(order2__isnull=True), then=Value(True)),
-                When(
-                    Q(order1__isnull=False) & Q(order2__isnull=True),
-                    then=Case(
-                        When(order1=0, then=Value(True)),
-                        When(order1=1, then=Value(False)),
-                        default=Value(True),
-                        output_field=BooleanField(),
-                    ),
-                ),
-                When(
-                    Q(order1__isnull=True) & Q(order2__isnull=False),
-                    then=Case(
-                        When(order2=0, then=Value(False)),
-                        When(order2=1, then=Value(True)),
-                        default=Value(True),
-                        output_field=BooleanField(),
-                    ),
-                ),
-                When(
-                    Q(order1__isnull=False) & Q(order2__isnull=False),
-                    then=Case(
-                        When(order1=0, then=Value(True)),
-                        When(order1=1, then=Value(False)),
-                        When(order2=0, then=Value(False)),
-                        When(order2=1, then=Value(True)),
-                        default=Value(True),
-                        output_field=BooleanField(),
-                    ),
-                ),
+                # If signal1 is the first priority type, don't swap
+                When(signal1__analysis__analysis_type=first_priority, then=Value(True)),
+                # If signal2 is the first priority type, swap
+                When(signal2__analysis__analysis_type=first_priority, then=Value(False)),
+                # Otherwise, don't swap
                 default=Value(True),
                 output_field=BooleanField(),
             )
         )
+
+        # Apply filtering based on priority
+        if len(order_list) == 1:
+            queryset = queryset.filter(
+                Q(signal1__analysis__analysis_type=first_priority) |
+                Q(signal2__analysis__analysis_type=first_priority)
+            )
+        elif len(order_list) == 2:
+            second_priority = order_list[1]
+            queryset = queryset.filter(
+                (Q(signal1__analysis__analysis_type=first_priority) & 
+                 Q(signal2__analysis__analysis_type=second_priority)) |
+                (Q(signal1__analysis__analysis_type=second_priority) & 
+                 Q(signal2__analysis__analysis_type=first_priority))
+            )
     else:
         queryset = queryset.annotate(
             no_signal_swap=Value(True, output_field=BooleanField())
diff --git a/colocus/core/migrations/0009_alter_marginalanalysis_analysis_type.py b/colocus/core/migrations/0009_alter_marginalanalysis_analysis_type.py
@@ -0,0 +1,27 @@
+# Generated by Django 4.2.9 on 2025-12-03 22:04
+
+from django.db import migrations, models
+
+
+class Migration(migrations.Migration):
+    dependencies = [
+        ("core", "0008_metabolite_methylprobe_alter_dataset_analysis_type_and_more"),
+    ]
+
+    operations = [
+        migrations.AlterField(
+            model_name="marginalanalysis",
+            name="analysis_type",
+            field=models.TextField(
+                choices=[
+                    ("GWAS", "GWAS"),
+                    ("eQTL", "eQTL"),
+                    ("mQTL", "mQTL"),
+                    ("metabQTL", "metabQTL"),
+                    ("pQTL", "pQTL"),
+                ],
+                db_index=True,
+                help_text="Type of association analysis - GWAS, eQTL, pQTL, ATAC-seq, methylation, etc.",
+            ),
+        ),
+    ]
diff --git a/colocus/core/models.py b/colocus/core/models.py
@@ -542,6 +542,7 @@ class MarginalAnalysis(models.Model):
     analysis_type = models.TextField(
         choices=constants.ANALYSIS_TYPES,
         help_text="Type of association analysis - GWAS, eQTL, pQTL, ATAC-seq, methylation, etc.",
+        db_index=True
     )
 
     genome_build = models.TextField(

Original file line number	Diff line number	Diff line change
`@@ -542,6 +542,7 @@ class MarginalAnalysis(models.Model):`
`542`	`542`	`analysis_type = models.TextField(`
`543`	`543`	`choices=constants.ANALYSIS_TYPES,`
`544`	`544`	`help_text="Type of association analysis - GWAS, eQTL, pQTL, ATAC-seq, methylation, etc.",`
	`545`	`+ db_index=True`
`545`	`546`	`)`
`546`	`547`
`547`	`548`	`genome_build = models.TextField(`