Remove debug printf and decode_only flag

Gasoonjia · Gasoonjia · commit ea51d0d26dd2 · 2026-04-06T21:40:57.000-07:00
- cuda_backend.cpp: Replace debug printf with ET_LOG for errors/info only
- main.cpp: Remove --decode_only flag, keep only chunked prefill path
diff --git a/backends/cuda/runtime/cuda_backend.cpp b/backends/cuda/runtime/cuda_backend.cpp
@@ -418,8 +418,6 @@ class ET_EXPERIMENTAL CudaBackend final
         handle->update_user_managed_constant_buffer_pairs) {
       size_t num_constants = 0;
       handle->get_num_constants(handle->container_handle, &num_constants);
-      printf("[CudaBackend] Method '%s': %zu constants found\n",
-             method_name.c_str(), num_constants);
 
       if (num_constants > 0) {
         // Build FQN → internal_name mapping for this container.
@@ -432,8 +430,6 @@ class ET_EXPERIMENTAL CudaBackend final
               handle->container_handle, i, &fqn);
           if (name && fqn && fqn[0] != '\0') {
             fqn_to_name[fqn] = name;
-            printf("[CudaBackend]   constant[%zu]: name='%s' fqn='%s'\n",
-                   i, name, fqn);
           }
         }
 
@@ -448,26 +444,17 @@ class ET_EXPERIMENTAL CudaBackend final
               /*use_inactive=*/false);
 
           if (extract_err == Error::Ok) {
-            printf("[CudaBackend] Extracted %zu constants from container\n",
-                   extracted_map.size());
-            // Debug: print first few extracted map keys
-            size_t dbg_count = 0;
-            for (const auto& [key, val] : extracted_map) {
-              if (dbg_count++ < 5) {
-                printf("[CudaBackend]   extracted key='%s'\n", key.c_str());
-              }
-            }
             for (const auto& [fqn, internal_name] : fqn_to_name) {
               auto it = extracted_map.find(fqn);
               if (it != extracted_map.end()) {
                 shared_constant_tensors_[fqn] = it->second;
               }
             }
             constants_extracted_ = true;
-            printf("[CudaBackend] Stored %zu shared constants from method '%s'\n",
+            ET_LOG(Info, "Extracted %zu shared constants from method '%s'",
                    shared_constant_tensors_.size(), method_name.c_str());
           } else {
-            printf("[CudaBackend] ERROR: Failed to extract constants from '%s'\n",
+            ET_LOG(Error, "Failed to extract constants from '%s'",
                    method_name.c_str());
           }
         } else {
@@ -479,14 +466,10 @@ class ET_EXPERIMENTAL CudaBackend final
               // UpdateUserManagedConstantBufferPairs matches against the
               // codegen constant name (underscored), not the original FQN.
               pairs.push_back({internal_name.c_str(), it->second});
-              printf("[CudaBackend]   sharing fqn='%s' as codegen_name='%s'\n",
-                     fqn.c_str(), internal_name.c_str());
             }
           }
 
           if (!pairs.empty()) {
-            printf("[CudaBackend] Updating %zu constants in method '%s'\n",
-                   pairs.size(), method_name.c_str());
             auto update_err =
                 handle->update_user_managed_constant_buffer_pairs(
                     handle->container_handle,
@@ -496,26 +479,18 @@ class ET_EXPERIMENTAL CudaBackend final
                     /*validate_full_update=*/false);
 
             if (update_err == Error::Ok) {
-              printf("[CudaBackend] Successfully shared %zu constants into '%s'\n",
+              ET_LOG(Info, "Shared %zu constants into method '%s'",
                      pairs.size(), method_name.c_str());
             } else {
-              printf("[CudaBackend] ERROR: Failed to share constants into '%s'\n",
+              ET_LOG(Error, "Failed to share constants into '%s'",
                      method_name.c_str());
             }
           }
         }
       }
     } else {
-      printf("[CudaBackend] Constant sharing APIs not available for method '%s' "
-             "(get_num_constants=%p, get_constant_name=%p, "
-             "get_constant_original_fqn=%p, extract_constants_map=%p, "
-             "update_user_managed=%p)\n",
-             method_name.c_str(),
-             (void*)handle->get_num_constants,
-             (void*)handle->get_constant_name,
-             (void*)handle->get_constant_original_fqn,
-             (void*)handle->extract_constants_map,
-             (void*)handle->update_user_managed_constant_buffer_pairs);
+      ET_LOG(Info, "Constant sharing APIs not available for method '%s'",
+             method_name.c_str());
     }
 
     return (DelegateHandle*)handle; // Return the handle post-processing
diff --git a/examples/models/qwen3_5_moe/main.cpp b/examples/models/qwen3_5_moe/main.cpp
@@ -28,7 +28,7 @@ DEFINE_string(tokenizer_path, "", "HuggingFace tokenizer.json path.");
 DEFINE_string(prompt, "Hello", "Prompt text.");
 DEFINE_double(temperature, 0.8, "Sampling temperature (0 = greedy).");
 DEFINE_int32(max_new_tokens, 128, "Maximum tokens to generate.");
-DEFINE_bool(decode_only, false, "Use decode method for everything (no prefill).");
+
 
 namespace llm = ::executorch::extension::llm;
 using ::executorch::extension::from_blob;
@@ -120,60 +120,36 @@ int main(int argc, char** argv) {
   uint64_t cur_token = 0;
   auto prefill_start = std::chrono::steady_clock::now();
 
-  if (FLAGS_decode_only) {
-    // Token-by-token using decode method
-    for (int64_t i = 0; i < num_prompt_tokens; i++) {
-      std::vector<int64_t> tok_data = {static_cast<int64_t>(prompt_tokens[i])};
-      std::vector<int64_t> pos_data = {i};
-      auto tok_t = from_blob(tok_data.data(), {1, 1}, executorch::aten::ScalarType::Long);
-      auto pos_t = from_blob(pos_data.data(), {1}, executorch::aten::ScalarType::Long);
-      std::vector<EValue> inputs;
-      inputs.push_back(tok_t);
-      inputs.push_back(pos_t);
-      auto result = module->execute("decode", inputs);
-      if (result.error() != Error::Ok) {
-        ET_LOG(Error, "Decode prefill step %ld failed", i);
-        return 1;
-      }
-      if (i == num_prompt_tokens - 1) {
-        auto& outputs = result.get();
-        auto logits = outputs[0].toTensor();
-        auto logits_ptr = std::make_shared<executorch::aten::Tensor>(std::move(logits));
-        cur_token = llm::logits_to_token(*logits_ptr, FLAGS_temperature);
-      }
-    }
-  } else {
-    // Chunked prefill
-    std::vector<int64_t> pos_data(num_prompt_tokens);
-    for (int64_t i = 0; i < num_prompt_tokens; i++) {
-      pos_data[i] = i;
-    }
-    std::vector<int64_t> token_data(prompt_tokens.begin(), prompt_tokens.end());
-    auto tokens_tensor = from_blob(
-        token_data.data(),
-        {1, S(num_prompt_tokens)},
-        executorch::aten::ScalarType::Long);
-    auto pos_tensor = from_blob(
-        pos_data.data(),
-        {S(num_prompt_tokens)},
-        executorch::aten::ScalarType::Long);
-
-    std::vector<EValue> prefill_inputs;
-    prefill_inputs.push_back(tokens_tensor);
-    prefill_inputs.push_back(pos_tensor);
-
-    auto prefill_result = module->execute("prefill", prefill_inputs);
-    if (prefill_result.error() != Error::Ok) {
-      ET_LOG(Error, "Prefill failed");
-      return 1;
-    }
-    auto& prefill_outputs = prefill_result.get();
-
-    auto logits_tensor = prefill_outputs[0].toTensor();
-    auto logits_ptr =
-        std::make_shared<executorch::aten::Tensor>(std::move(logits_tensor));
-    cur_token = llm::logits_to_token(*logits_ptr, FLAGS_temperature);
+  // Chunked prefill
+  std::vector<int64_t> pos_data(num_prompt_tokens);
+  for (int64_t i = 0; i < num_prompt_tokens; i++) {
+    pos_data[i] = i;
+  }
+  std::vector<int64_t> token_data(prompt_tokens.begin(), prompt_tokens.end());
+  auto tokens_tensor = from_blob(
+      token_data.data(),
+      {1, S(num_prompt_tokens)},
+      executorch::aten::ScalarType::Long);
+  auto pos_tensor = from_blob(
+      pos_data.data(),
+      {S(num_prompt_tokens)},
+      executorch::aten::ScalarType::Long);
+
+  std::vector<EValue> prefill_inputs;
+  prefill_inputs.push_back(tokens_tensor);
+  prefill_inputs.push_back(pos_tensor);
+
+  auto prefill_result = module->execute("prefill", prefill_inputs);
+  if (prefill_result.error() != Error::Ok) {
+    ET_LOG(Error, "Prefill failed");
+    return 1;
   }
+  auto& prefill_outputs = prefill_result.get();
+
+  auto logits_tensor = prefill_outputs[0].toTensor();
+  auto logits_ptr =
+      std::make_shared<executorch::aten::Tensor>(std::move(logits_tensor));
+  cur_token = llm::logits_to_token(*logits_ptr, FLAGS_temperature);
 
   auto prefill_end = std::chrono::steady_clock::now();
   double prefill_ms =