Move ffi to different location, use different submodule (#20)

nyurik · web-flow · commit 9b4c57a236d6 · 2025-02-26T21:18:07.000Z
* Get rid of the factory - it causes binary size bloat, and makes things
more error prone (not typed)
* Introduce one Rust type per codec, that implement `Codec32` and
optionally `Codec64` if supported -- compiler time verification if
supported
diff --git a/build.rs b/build.rs
@@ -13,7 +13,7 @@ fn main() {
     println!("cargo:rerun-if-changed=cpp");
 
     // Compile the bridge
-    cxx_build::bridge("src/ffi_wrapper.rs")
+    cxx_build::bridge("src/bridge/mod.rs")
         .include("cpp/headers")
         .include("src/bridge")
         .std("c++14")
diff --git a/cpp b/cpp
@@ -1 +1 @@
-Subproject commit aebeb29bea3b6f211d9083be71fba09ff2a59ecc
+Subproject commit 0f17c168fb8af5d4290f4e3acbe956084ef8aa09
diff --git a/src/bridge/fastpfor_bridge.h b/src/bridge/fastpfor_bridge.h
@@ -8,29 +8,9 @@
 // Adding things to the same namespace as lib to keep things simpler
 namespace FastPForLib {
 
-// Instantiate Coder Factory
-inline std::unique_ptr<CODECFactory> new_codec_factory() {
-    return std::make_unique<CODECFactory>();
-}
-
-// Get a list of codec names
-inline std::unique_ptr<std::vector<std::string>> codec_factory_all_names(
-        const CODECFactory& factory
-) {
-    return std::make_unique<std::vector<std::string>>(factory.allNames());
-}
-
-// Get codec by name from a factory
-inline std::shared_ptr<IntegerCODEC> codec_factory_get_from_name(
-        const CODECFactory& factory,
-        rust::Str name
-) {
-    return factory.getFromName(std::string(name));
-}
-
 // Encode helpers
 inline size_t codec_encode32(
-        const std::shared_ptr<IntegerCODEC>& codec,
+        const std::unique_ptr<IntegerCODEC>& codec,
         const rust::Slice<const uint32_t> in,
         rust::Slice<uint32_t> out
 ) {
@@ -40,7 +20,7 @@ inline size_t codec_encode32(
 }
 
 inline size_t codec_encode64(
-        const std::shared_ptr<IntegerCODEC>& codec,
+        const std::unique_ptr<IntegerCODEC>& codec,
         const rust::Slice<const uint64_t> in,
         rust::Slice<uint32_t> out
 ) {
@@ -51,7 +31,7 @@ inline size_t codec_encode64(
 
 // Decode helper: returns consumed input elements
 inline size_t codec_decode32(
-        const std::shared_ptr<IntegerCODEC>& codec,
+        const std::unique_ptr<IntegerCODEC>& codec,
         const rust::Slice<const uint32_t> in,
         rust::Slice<uint32_t> out
 ) {
@@ -61,7 +41,7 @@ inline size_t codec_decode32(
 }
 
 inline size_t codec_decode64(
-        const std::shared_ptr<IntegerCODEC>& codec,
+        const std::unique_ptr<IntegerCODEC>& codec,
         const rust::Slice<const uint32_t> in,
         rust::Slice<uint64_t> out
 ) {
diff --git a/src/bridge/mod.rs b/src/bridge/mod.rs
@@ -0,0 +1,273 @@
+use cxx::UniquePtr;
+
+#[cxx::bridge(namespace = "FastPForLib")]
+mod ffi {
+    unsafe extern "C++" {
+        include!("fastpfor_bridge.h");
+
+        type IntegerCODEC;
+
+        fn fastbinarypacking8_codec() -> UniquePtr<IntegerCODEC>;
+        fn fastbinarypacking16_codec() -> UniquePtr<IntegerCODEC>;
+        fn fastbinarypacking32_codec() -> UniquePtr<IntegerCODEC>;
+        fn BP32_codec() -> UniquePtr<IntegerCODEC>;
+        fn vsencoding_codec() -> UniquePtr<IntegerCODEC>;
+        fn fastpfor128_codec() -> UniquePtr<IntegerCODEC>;
+        fn fastpfor256_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdfastpfor128_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdfastpfor256_codec() -> UniquePtr<IntegerCODEC>;
+        fn simplepfor_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdsimplepfor_codec() -> UniquePtr<IntegerCODEC>;
+        fn pfor_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdpfor_codec() -> UniquePtr<IntegerCODEC>;
+        fn pfor2008_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdnewpfor_codec() -> UniquePtr<IntegerCODEC>;
+        fn newpfor_codec() -> UniquePtr<IntegerCODEC>;
+        fn optpfor_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdoptpfor_codec() -> UniquePtr<IntegerCODEC>;
+        fn varint_codec() -> UniquePtr<IntegerCODEC>;
+        fn vbyte_codec() -> UniquePtr<IntegerCODEC>;
+        fn maskedvbyte_codec() -> UniquePtr<IntegerCODEC>;
+        fn streamvbyte_codec() -> UniquePtr<IntegerCODEC>;
+        fn varintgb_codec() -> UniquePtr<IntegerCODEC>;
+        fn simple16_codec() -> UniquePtr<IntegerCODEC>;
+        fn simple9_codec() -> UniquePtr<IntegerCODEC>;
+        fn simple9_rle_codec() -> UniquePtr<IntegerCODEC>;
+        fn simple8b_codec() -> UniquePtr<IntegerCODEC>;
+        fn simple8b_rle_codec() -> UniquePtr<IntegerCODEC>;
+        // TODO: conditional with #ifdef, might support later
+        // fn varintg8iu_codec() -> UniquePtr<IntegerCODEC>;
+        // fn snappy_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdbinarypacking_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdgroupsimple_codec() -> UniquePtr<IntegerCODEC>;
+        fn simdgroupsimple_ringbuf_codec() -> UniquePtr<IntegerCODEC>;
+        fn copy_codec() -> UniquePtr<IntegerCODEC>;
+
+        // Encode methods: returns number of output values
+
+        fn codec_encode32(
+            codec: &UniquePtr<IntegerCODEC>,
+            input: &[u32],
+            output: &mut [u32],
+        ) -> Result<usize>;
+
+        fn codec_encode64(
+            codec: &UniquePtr<IntegerCODEC>,
+            input: &[u64],
+            output: &mut [u32],
+        ) -> Result<usize>;
+
+        // Decode methods: returns consumed input values
+
+        fn codec_decode32(
+            codec: &UniquePtr<IntegerCODEC>,
+            input: &[u32],
+            output: &mut [u32],
+        ) -> Result<usize>;
+
+        fn codec_decode64(
+            codec: &UniquePtr<IntegerCODEC>,
+            input: &[u32],
+            output: &mut [u64],
+        ) -> Result<usize>;
+    }
+}
+
+trait CodecWrapper {
+    fn codec(&self) -> &UniquePtr<ffi::IntegerCODEC>;
+}
+
+#[expect(private_bounds)]
+pub trait Codec32: CodecWrapper {
+    /// Encode a slice of 32-bit integers.
+    fn encode32<'out>(
+        &self,
+        input: &[u32],
+        output: &'out mut [u32],
+    ) -> Result<&'out mut [u32], cxx::Exception> {
+        let n = ffi::codec_encode32(self.codec(), input, output)?;
+        Ok(&mut output[..n])
+    }
+
+    /// Decode a slice of 32-bit integers.
+    fn decode32<'out>(
+        &self,
+        input: &[u32],
+        output: &'out mut [u32],
+    ) -> Result<&'out mut [u32], cxx::Exception> {
+        let n = ffi::codec_decode32(self.codec(), input, output)?;
+        Ok(&mut output[..n])
+    }
+}
+
+#[expect(private_bounds)]
+pub trait Codec64: CodecWrapper {
+    /// Encode a slice of 64-bit integers.
+    fn encode64<'out>(
+        &self,
+        input: &[u64],
+        output: &'out mut [u32],
+    ) -> Result<&'out mut [u32], cxx::Exception> {
+        let n = ffi::codec_encode64(self.codec(), input, output)?;
+        Ok(&mut output[..n])
+    }
+
+    /// Decode a slice of 64-bit integers.
+    fn decode64<'out>(
+        &self,
+        input: &[u32],
+        output: &'out mut [u64],
+    ) -> Result<&'out mut [u64], cxx::Exception> {
+        let n = ffi::codec_decode64(self.codec(), input, output)?;
+        Ok(&mut output[..n])
+    }
+}
+
+macro_rules! implement_codecs {
+    ($($name:ident $(+ $extra:ident)? => $ffi:ident , )*) => {
+        $(
+        pub struct $name(UniquePtr<ffi::IntegerCODEC>);
+
+        impl $name {
+            pub fn new() -> Self {
+                Self(ffi::$ffi())
+            }
+        }
+
+        impl Default for $name {
+            fn default() -> Self {
+                Self::new()
+            }
+        }
+
+        impl CodecWrapper for $name {
+            fn codec(&self) -> &UniquePtr<ffi::IntegerCODEC> {
+                &self.0
+            }
+        }
+
+        impl Codec32 for $name {}
+        $(impl $extra for $name {})*
+    )*
+
+    #[cfg(test)]
+    mod codec_tests {
+        use super::*;
+
+        $(
+        #[test]
+        #[allow(non_snake_case)]
+        fn $name() {
+            roundtrip_32($name::new());
+            $(
+                // if $extra is Codec64, call roundtrip_64, but ignore the name
+                let _ = stringify!($extra);
+                roundtrip_64($name::new());
+            )*
+        }
+        )*
+
+        fn roundtrip_32(codec: impl Codec32) {
+            let input = vec![1, 2, 3, 4, 5];
+            let mut output = vec![0; 10];
+            let encoded = codec.encode32(&input, &mut output).unwrap();
+            let mut decoded = vec![0; 10];
+            let decoded = codec.decode32(encoded, &mut decoded).unwrap();
+            assert_eq!(decoded, input);
+        }
+
+        fn roundtrip_64(codec: impl Codec64) {
+            let input = vec![1, 2, 3, 4, 5];
+            let mut output = vec![0; 10];
+            let encoded = codec.encode64(&input, &mut output).unwrap();
+
+            let mut decoded = vec![0; 10];
+            let decoded = codec.decode64(encoded, &mut decoded).unwrap();
+            assert_eq!(decoded, input);
+        }
+    }
+    };
+}
+
+implement_codecs! {
+    BP32Codec => BP32_codec,
+    CopyCodec => copy_codec,
+    FastBinaryPacking8Codec => fastbinarypacking8_codec,
+    FastPFor128Codec + Codec64 => fastpfor128_codec,
+    FastPFor256Codec + Codec64 => fastpfor256_codec,
+    FastBinaryPacking16Codec => fastbinarypacking16_codec,
+    FastBinaryPacking32Codec => fastbinarypacking32_codec,
+    MaskedVByteCodec => maskedvbyte_codec,
+    NewPForCodec => newpfor_codec,
+    OptPForCodec => optpfor_codec,
+    PFor2008Codec => pfor2008_codec,
+    PForCodec => pfor_codec,
+    SimdBinaryPackingCodec => simdbinarypacking_codec,
+    SimdFastPFor128Codec => simdfastpfor128_codec,
+    SimdFastPFor256Codec => simdfastpfor256_codec,
+    SimdGroupSimpleCodec => simdgroupsimple_codec,
+    SimdGroupSimpleRingBufCodec => simdgroupsimple_ringbuf_codec,
+    SimdNewPForCodec => simdnewpfor_codec,
+    SimdOptPForCodec => simdoptpfor_codec,
+    SimdPForCodec => simdpfor_codec,
+    SimdSimplePForCodec => simdsimplepfor_codec,
+    Simple16Codec => simple16_codec,
+    Simple8bCodec => simple8b_codec,
+    Simple8bRleCodec => simple8b_rle_codec,
+    Simple9Codec => simple9_codec,
+    Simple9RleCodec => simple9_rle_codec,
+    SimplePForCodec => simplepfor_codec,
+    // SnappyCodec => snappy_codec,  // Conditional with #ifdef
+    StreamVByteCodec => streamvbyte_codec,
+    VByteCodec => vbyte_codec,
+    VarIntCodec + Codec64 => varint_codec,
+    // VarIntG8iuCodec => varintg8iu_codec,  // Conditional with #ifdef
+    VarIntGbCodec => varintgb_codec,
+    // VsEncodingCodec => vsencoding_codec,  // This is leaking memory
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+
+    // These duplicate the macro-generated tests, but we want to test that
+    // the macro expansion itself works correctly
+
+    #[test]
+    fn test_32() {
+        let codec = FastPFor128Codec::new();
+        let input = vec![1, 2, 3, 4, 5];
+        let mut output = vec![0; 10];
+        let mut output2 = vec![0; 10];
+        let encoded = codec.encode32(&input, &mut output).unwrap();
+        let encoded2 = codec.encode32(&input, &mut output2).unwrap();
+        assert_eq!(encoded, encoded2);
+
+        let mut decoded = vec![0; 10];
+        let mut decoded2 = vec![0; 10];
+        let decoded = codec.decode32(encoded, &mut decoded).unwrap();
+        let decoded2 = codec.decode32(encoded, &mut decoded2).unwrap();
+        assert_eq!(decoded, decoded2);
+
+        assert_eq!(decoded, input);
+    }
+
+    #[test]
+    fn test_64() {
+        let codec = FastPFor128Codec::new();
+        let input = vec![1, 2, 3, 4, 5];
+        let mut output = vec![0; 10];
+        let mut output2 = vec![0; 10];
+        let encoded = codec.encode64(&input, &mut output).unwrap();
+        let encoded2 = codec.encode64(&input, &mut output2).unwrap();
+        assert_eq!(encoded, encoded2);
+
+        let mut decoded = vec![0; 10];
+        let mut decoded2 = vec![0; 10];
+        let decoded = codec.decode64(encoded, &mut decoded).unwrap();
+        let decoded2 = codec.decode64(encoded, &mut decoded2).unwrap();
+        assert_eq!(decoded, decoded2);
+
+        assert_eq!(decoded, input);
+    }
+}
diff --git a/src/ffi_wrapper.rs b/src/ffi_wrapper.rs
diff --git a/src/lib.rs b/src/lib.rs