normalization is not needed anymore. The TiCC::getline() for UnicodeString handles it

kosloot · kosloot · commit b469059bcc46 · 2023-10-21T18:59:20.000+02:00
diff --git a/src/mblem_mod.cxx b/src/mblem_mod.cxx
@@ -520,15 +520,13 @@ UnicodeString Mblem::call_server( const UnicodeString& instance ){
   return TiCC::UnicodeFromUTF8(result);
 }
 
-void Mblem::Classify( const UnicodeString& word ){
+void Mblem::Classify( const UnicodeString& uWord ){
   /// give the lemma for 1 word
   /*!
     \param word a Unicode string with the word
     the internal mblemResult struct will be filled with 1 or more (alternative)
     solutions of a lemma + a POS-tag
   */
-  static TiCC::UnicodeNormalizer nfc_norm;
-  UnicodeString uWord = nfc_norm.normalize(word);
   mblemResult.clear();
   UnicodeString inst = make_instance(uWord);
   UnicodeString u_class;
diff --git a/src/mbma_mod.cxx b/src/mbma_mod.cxx
@@ -1125,16 +1125,11 @@ void Mbma::call_server( const vector<UnicodeString>& insts,
 
 void Mbma::Classify( const icu::UnicodeString& word,
 		     const icu::UnicodeString& next_tag ){
-  static TiCC::UnicodeNormalizer my_norm;
   clearAnalysis();
   icu::UnicodeString uWord = word;
   if ( filter_diac ){
     uWord = TiCC::filter_diacritics( uWord );
   }
-  else {
-    uWord = my_norm.normalize( uWord );
-  }
-
   vector<UnicodeString> insts = make_instances( uWord );
   vector<UnicodeString> classes;
   classes.reserve( insts.size() );
diff --git a/src/ner_tagger_mod.cxx b/src/ner_tagger_mod.cxx
@@ -121,7 +121,6 @@ bool NERTagger::fill_ners( const string& cat,
       return false;
     }
   }
-  static TiCC::UnicodeNormalizer nfc_normalizer;
   ifstream is( file_name );
   int long_err_cnt = 0;
   size_t ner_cnt = 0;
@@ -131,7 +130,6 @@ bool NERTagger::fill_ners( const string& cat,
       continue;
     }
     else {
-      line = nfc_normalizer.normalize( line );
       vector<UnicodeString> parts = TiCC::split( line );
       if ( parts.size() > (unsigned)max_ner_size ){
 	if ( ++long_err_cnt > 50 ){

Original file line number	Diff line number	Diff line change
`@@ -121,7 +121,6 @@ bool NERTagger::fill_ners( const string& cat,`
`121`	`121`	`return false;`
`122`	`122`	`}`
`123`	`123`	`}`
`124`		`- static TiCC::UnicodeNormalizer nfc_normalizer;`
`125`	`124`	`ifstream is( file_name );`
`126`	`125`	`int long_err_cnt = 0;`
`127`	`126`	`size_t ner_cnt = 0;`
`@@ -131,7 +130,6 @@ bool NERTagger::fill_ners( const string& cat,`
`131`	`130`	`continue;`
`132`	`131`	`}`
`133`	`132`	`else {`
`134`		`- line = nfc_normalizer.normalize( line );`
`135`	`133`	`vector<UnicodeString> parts = TiCC::split( line );`
`136`	`134`	`if ( parts.size() > (unsigned)max_ner_size ){`
`137`	`135`	`if ( ++long_err_cnt > 50 ){`