WIP on pgvector improvements

fcostaoliveira · fcostaoliveira · commit 8e8735428304 · 2025-07-29T00:39:47.000+01:00
diff --git a/engine/clients/pgvector/configure.py b/engine/clients/pgvector/configure.py
@@ -39,15 +39,80 @@ def recreate(self, dataset: Dataset, collection_params):
         self.conn.execute("ALTER TABLE items ALTER COLUMN embedding SET STORAGE PLAIN")
 
         try:
-            hnsw_distance_type = self.DISTANCE_MAPPING[dataset.config.distance]
+            distance_type = self.DISTANCE_MAPPING[dataset.config.distance]
         except KeyError:
             raise IncompatibilityError(
                 f"Unsupported distance metric: {dataset.config.distance}"
             )
 
-        self.conn.execute(
-            f"CREATE INDEX on items USING hnsw(embedding {hnsw_distance_type}) WITH (m = {collection_params['hnsw_config']['m']}, ef_construction = {collection_params['hnsw_config']['ef_construct']})"
-        )
+        # Check if we should create HNSW index or use FLAT (no index for full scan)
+        if "hnsw_config" in collection_params:
+            # Auto-detect core count and set parallel workers for faster index builds (pgvector 0.7.0+)
+            max_parallel_workers = collection_params['hnsw_config'].get('max_parallel_workers', 'auto')
+
+            if max_parallel_workers == 'auto':
+                # Try to get actual CPU core count from PostgreSQL
+                try:
+                    # Get max_worker_processes setting as baseline
+                    worker_result = self.conn.execute("SELECT setting FROM pg_settings WHERE name = 'max_worker_processes'").fetchone()
+                    available_workers = int(worker_result[0]) if worker_result else 8
+
+                    # Try to get actual CPU cores if available (PostgreSQL 13+)
+                    try:
+                        cpu_cores_result = self.conn.execute("SELECT setting FROM pg_settings WHERE name = 'max_parallel_workers'").fetchone()
+                        if cpu_cores_result:
+                            available_workers = min(available_workers, int(cpu_cores_result[0]))
+                    except:
+                        pass  # Fallback to max_worker_processes
+
+                    # Use AWS recommendation: total cores - 2 (but at least 1)
+                    max_parallel_workers = max(1, available_workers - 2)
+                    print(f"Auto-detected {available_workers} worker processes, using {max_parallel_workers} parallel workers")
+
+                except Exception as e:
+                    print(f"Failed to auto-detect workers, using default of 4: {e}")
+                    max_parallel_workers = 8
+
+            if max_parallel_workers > 0:
+                self.conn.execute(f"SET max_parallel_workers = {max_parallel_workers}")
+                self.conn.execute(f"SET max_parallel_workers_per_gather = {max_parallel_workers}")
+                self.conn.execute(f"SET max_parallel_maintenance_workers = {max_parallel_workers}")
+
+            # Create HNSW index with optimized parameters
+            self.conn.execute(
+                f"CREATE INDEX on items USING hnsw(embedding {distance_type}) WITH (m = {collection_params['hnsw_config']['m']}, ef_construction = {collection_params['hnsw_config']['ef_construct']})"
+            )
+        elif "flat_config" in collection_params:
+            # For FLAT, configure parallel workers for faster query execution during full scans
+            max_parallel_workers = collection_params['flat_config'].get('max_parallel_workers', 'auto')
+
+            if max_parallel_workers == 'auto':
+                # Try to get actual CPU core count from PostgreSQL
+                try:
+                    # Get max_worker_processes setting as baseline
+                    worker_result = self.conn.execute("SELECT setting FROM pg_settings WHERE name = 'max_worker_processes'").fetchone()
+                    available_workers = int(worker_result[0]) if worker_result else 8
+
+                    # Try to get actual CPU cores if available (PostgreSQL 13+)
+                    try:
+                        cpu_cores_result = self.conn.execute("SELECT setting FROM pg_settings WHERE name = 'max_parallel_workers'").fetchone()
+                        if cpu_cores_result:
+                            available_workers = min(available_workers, int(cpu_cores_result[0]))
+                    except:
+                        pass  # Fallback to max_worker_processes
+
+                    # Use AWS recommendation: total cores - 2 (but at least 1)
+                    max_parallel_workers = max(1, available_workers - 2)
+                    print(f"Auto-detected {available_workers} worker processes, using {max_parallel_workers} parallel workers for FLAT queries")
+
+                except Exception as e:
+                    print(f"Failed to auto-detect workers for FLAT, using default of 8: {e}")
+                    max_parallel_workers = 8
+
+            if max_parallel_workers > 0:
+                self.conn.execute(f"SET max_parallel_workers = {max_parallel_workers}")
+                self.conn.execute(f"SET max_parallel_workers_per_gather = {max_parallel_workers}")
+                # For FLAT, we don't create any index - PostgreSQL will do a full table scan with parallel workers
 
         self.conn.close()
 
diff --git a/engine/clients/pgvector/search.py b/engine/clients/pgvector/search.py
@@ -26,9 +26,16 @@ def init_client(cls, host, distance, connection_params: dict, search_params: dic
         cls.distance = distance
         cls.search_params = search_params["search_params"]
 
+        # For FLAT searches, disable index usage to force full scan
+        if "force_flat" in cls.search_params and cls.search_params["force_flat"]:
+            cls.cur.execute("SET enable_indexscan = off")
+            cls.cur.execute("SET enable_bitmapscan = off")
+
     @classmethod
     def search_one(cls, vector, meta_conditions, top) -> List[Tuple[int, float]]:
-        cls.cur.execute(f"SET hnsw.ef_search = {cls.search_params['hnsw_ef']}")
+        # Set HNSW ef_search parameter only if using HNSW index
+        if "hnsw_ef" in cls.search_params:
+            cls.cur.execute(f"SET hnsw.ef_search = {cls.search_params['hnsw_ef']}")
 
         if cls.distance == Distance.COSINE:
             query = f"SELECT id, embedding <=> %s AS _score FROM items ORDER BY _score LIMIT {top};"
@@ -46,5 +53,12 @@ def search_one(cls, vector, meta_conditions, top) -> List[Tuple[int, float]]:
     @classmethod
     def delete_client(cls):
         if cls.cur:
+            # Reset index settings if they were disabled for FLAT searches
+            if "force_flat" in cls.search_params and cls.search_params["force_flat"]:
+                try:
+                    cls.cur.execute("SET enable_indexscan = on")
+                    cls.cur.execute("SET enable_bitmapscan = on")
+                except:
+                    pass  # Connection might be closed already
             cls.cur.close()
             cls.conn.close()
diff --git a/engine/clients/pgvector/upload.py b/engine/clients/pgvector/upload.py
@@ -8,7 +8,7 @@
 from engine.clients.pgvector.config import get_db_config
 
 
-class PgvectorUploader(BaseUploader):
+class PgVectorUploader(BaseUploader):
     conn = None
     cur = None
     upload_params = {}
@@ -20,6 +20,32 @@ def init_client(cls, host, distance, connection_params, upload_params):
         cls.cur = cls.conn.cursor()
         cls.upload_params = upload_params
 
+        # Auto-detect core count for parallel maintenance workers
+        try:
+            # Get max_worker_processes setting as baseline
+            worker_result = cls.conn.execute("SELECT setting FROM pg_settings WHERE name = 'max_worker_processes'").fetchone()
+            available_workers = int(worker_result[0]) if worker_result else 8
+
+            # Try to get actual CPU cores if available (PostgreSQL 13+)
+            try:
+                cpu_cores_result = cls.conn.execute("SELECT setting FROM pg_settings WHERE name = 'max_parallel_workers'").fetchone()
+                if cpu_cores_result:
+                    available_workers = min(available_workers, int(cpu_cores_result[0]))
+            except:
+                pass  # Fallback to max_worker_processes
+
+            # Use AWS recommendation: total cores - 2 (but at least 1, max 16 for maintenance)
+            max_maintenance_workers = min(16, max(1, available_workers - 2))
+            print(f"Auto-detected {available_workers} worker processes, using {max_maintenance_workers} parallel maintenance workers for uploads")
+
+        except Exception as e:
+            print(f"Failed to auto-detect workers for uploads, using default of 8: {e}")
+            max_maintenance_workers = 8
+
+        # Optimize memory settings for large uploads based on AWS recommendations
+        cls.conn.execute("SET maintenance_work_mem = '2GB'")
+        cls.conn.execute(f"SET max_parallel_maintenance_workers = {max_maintenance_workers}")
+
     @classmethod
     def upload_batch(
         cls, ids: List[int], vectors: List[list], metadata: Optional[List[dict]]
diff --git a/experiments/configurations/pgvector-single-node.json b/experiments/configurations/pgvector-single-node.json
@@ -102,5 +102,23 @@
           { "parallel": 100, "search_params": { "hnsw_ef": 64 } }, { "parallel": 100, "search_params": { "hnsw_ef": 128 } }, { "parallel": 100, "search_params": { "hnsw_ef": 256 } }, { "parallel": 100, "search_params": { "hnsw_ef": 512 } }
         ],
         "upload_params": { "parallel": 16 }
+    },
+    {
+        "name": "pgvector-flat",
+        "engine": "pgvector",
+        "connection_params": {},
+        "collection_params": {
+          "flat_config": {
+            "create_index": false,
+            "max_parallel_workers": "auto"
+          }
+        },
+        "search_params": [
+          { "parallel": 1, "search_params": { "force_flat": true } },
+          { "parallel": 8, "search_params": { "force_flat": true } },
+          { "parallel": 16, "search_params": { "force_flat": true } },
+          { "parallel": 32, "search_params": { "force_flat": true } }
+        ],
+        "upload_params": { "parallel": 16 }
     }
 ]