Added ability to extract structured data for PAN and Passport.

raaj-akshar · raaj-akshar · commit 4395eba5ba69 · 2025-06-03T23:13:07.000+05:30
diff --git a/html/index.html b/html/index.html
@@ -66,6 +66,11 @@ <h2 class="accordion-header" id="headingOptions">
       <h4>Detected Text:</h4>
       <pre id="resultText" class="bg-light p-3 rounded" style="min-height: 100px;"></pre>
     </div>
+  
+    <div class="mt-4">
+      <h4>Extracted Fields (Applicable for PAN, Passport and Aadhaar):</h4>
+      <pre id="extractedFields" class="bg-light p-3 rounded" style="min-height: 100px;"></pre>
+    </div>
   </div>
 
   <script src="https://cdn.jsdelivr.net/npm/bootstrap@5.3.3/dist/js/bootstrap.bundle.min.js"></script>
@@ -77,6 +82,7 @@ <h4>Detected Text:</h4>
     const form = document.getElementById('ocrForm');
     const fileInput = document.getElementById('fileInput');
     const resultText = document.getElementById('resultText');
+    const extractedFields = document.getElementById('extractedFields');
     const errorAlert = document.getElementById('errorAlert');
 
     let ocrMode = 'basic'; // default
@@ -106,6 +112,7 @@ <h4>Detected Text:</h4>
       errorAlert.classList.add('d-none');
       errorAlert.textContent = '';
       resultText.textContent = 'OCR and Recognition is computationally expensive, and takes time. Please wait...';
+      extractedFields.textContent = '';
 
       const formData = new FormData();
       formData.append('attachment', file);
@@ -157,6 +164,12 @@ <h4>Detected Text:</h4>
             if (result.content !== null) {
               clearInterval(poll);
               resultText.textContent = result.content;
+              if (result.category && result.category == 'pan') {
+                extractedFields.textContent = JSON.stringify(result.pan_data, null, 2);
+              }
+              if (result.category && result.category == 'passport') {
+                extractedFields.textContent = JSON.stringify(result.passport_data, null, 2);
+              }
             }
             // If status is "pending", keep polling
 
diff --git a/main.py b/main.py
@@ -1,6 +1,7 @@
 import os
 import logging
 import hashlib
+import json
 from typing import List
 
 from fastapi import FastAPI
@@ -166,11 +167,25 @@ def ocr_result(key: str):
     content = get_object(key, "content")
     if content is None:
         return {"content": content}
+    response_data = {}
+    category = get_object(key, "category")
+    if category is not None:
+        # Only if category is not None, then include it in the response
+        response_data["category"] = category
+        if category == 'passport':
+            passport_data = get_object(key, "passport_data")
+            passport_data = json.loads(passport_data)
+            response_data["passport_data"] = passport_data
+        elif category == 'pan':
+            pan_data = get_object(key, "pan_data")
+            pan_data = json.loads(pan_data)
+            response_data["pan_data"] = pan_data
     # Remove empty lines
     lines = content.splitlines()
     non_blank_lines = [line for line in lines if line.strip() != '']
     content = '\n'.join(non_blank_lines)
-    return {"content": content}
+    response_data["content"] = content
+    return response_data
 
 
 @app.post("/textract-ocr")
diff --git a/service_wrappers.py b/service_wrappers.py
@@ -1,7 +1,14 @@
+import json
+import logging
+
 from services import extract_image_text, extract_pdf_text_all
 from image_preprocessing import preprocess_image_opencv
 
 from db import set_object
+from text_analysis import classify, analyze_passport, analyze_pan
+
+
+logger = logging.getLogger(__name__)
 
 
 def extract_image_text_and_set_db(file_path: str, key: str, field: str = 'content', options=None):
@@ -13,8 +20,24 @@ def extract_image_text_and_set_db(file_path: str, key: str, field: str = 'conten
         }
     processed_image_path = preprocess_image_opencv(file_path, options)
     is_success, content = extract_image_text(processed_image_path)
+    # TODO: Perform text analysis on another queue to not stall this queue
     if is_success is True:
         set_object(key, field, content)
+        # Perform classification
+        category = classify(content)
+        logger.info(f"Category: {category}")
+        if category is not None:
+            set_object(key, "category", category)
+            if category == 'passport':
+                passport_data = analyze_passport(content)
+                passport_data = json.dumps(passport_data)
+                set_object(key, "passport_data", passport_data)
+            elif category == 'pan':
+                pan_data = analyze_pan(content)
+                pan_data = json.dumps(pan_data)
+                set_object(key, "pan_data", pan_data)
+        # Extract structured data
+        # Store structured data in DB
         return True, content
     else:
         return False, content