Add PyMuPDF image extraction

MartinThoma · MartinThoma · commit 6506883034bf · 2022-09-27T18:19:56.000+02:00
diff --git a/README.md b/README.md
@@ -53,8 +53,9 @@ This benchmark is about reading pure PDF files - notscanned documents and not do
 
 | #  |                          Library                          | Average | [   1   ](https://arxiv.org/pdf/2201.00214.pdf) | [   2   ](https://github.com/py-pdf/sample-files/raw/main/009-pdflatex-geotopo/GeoTopo.pdf) | [   3   ](https://arxiv.org/pdf/2201.00151.pdf) | [   4   ](https://arxiv.org/pdf/1707.09725.pdf) | [   5   ](https://arxiv.org/pdf/2201.00021.pdf) | [   6   ](https://arxiv.org/pdf/2201.00037.pdf) | [   7   ](https://arxiv.org/pdf/2201.00069.pdf) | [   8   ](https://arxiv.org/pdf/2201.00178.pdf) | [   9   ](https://arxiv.org/pdf/2201.00201.pdf) | [  10   ](https://arxiv.org/pdf/1602.06541.pdf) | [  11   ](https://arxiv.org/pdf/2201.00200.pdf) | [  12   ](https://arxiv.org/pdf/2201.00022.pdf) | [  13   ](https://arxiv.org/pdf/2201.00029.pdf) | [  14   ](https://arxiv.org/pdf/1601.03642.pdf) |
 | :- | :-------------------------------------------------------- | :------ | :---------------------------------------------- | :------------------------------------------------------------------------------------------ | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- | :---------------------------------------------- |
-| 1  | [PyPDF2         ](https://pypi.org/project/PyPDF2/)       |    1.0s | 0.4s                                            | 1.5s                                                                                        | 0.0s                                            | 3.5s                                            | 0.9s                                            | 0.0s                                            | 5.7s                                            | 0.7s                                            | 0.7s                                            | 0.2s                                            | 0.0s                                            | 0.5s                                            | 0.0s                                            | 0.0s                                            |
-| 2  | [pdfminer.six   ](https://pypi.org/project/pdfminer.six/) |    9.3s | 47.4s                                           | 21.7s                                                                                       | 13.0s                                           | 30.3s                                           | 1.9s                                            | 3.2s                                            | 1.8s                                            | 1.7s                                            | 1.5s                                            | 2.5s                                            | 1.7s                                            | 1.7s                                            | 1.2s                                            | 0.9s                                            |
+| 1  | [PyMuPDF        ](https://pypi.org/project/PyMuPDF/)      |    0.6s | 0.4s                                            | 0.9s                                                                                        | 0.0s                                            | 2.0s                                            | 0.6s                                            | 0.0s                                            | 3.2s                                            | 0.4s                                            | 0.4s                                            | 0.3s                                            | 0.0s                                            | 0.3s                                            | 0.2s                                            | 0.0s                                            |
+| 2  | [PyPDF2         ](https://pypi.org/project/PyPDF2/)       |    1.0s | 0.4s                                            | 1.5s                                                                                        | 0.0s                                            | 3.6s                                            | 0.9s                                            | 0.0s                                            | 5.7s                                            | 0.7s                                            | 0.7s                                            | 0.2s                                            | 0.0s                                            | 0.5s                                            | 0.0s                                            | 0.0s                                            |
+| 3  | [pdfminer.six   ](https://pypi.org/project/pdfminer.six/) |    9.1s | 48.6s                                           | 18.3s                                                                                       | 12.7s                                           | 30.8s                                           | 1.9s                                            | 3.5s                                            | 1.9s                                            | 2.1s                                            | 1.4s                                            | 2.0s                                            | 1.6s                                            | 1.6s                                            | 0.8s                                            | 0.7s                                            |
 
 
 ## Watermarking Speed
diff --git a/benchmark.py b/benchmark.py
@@ -182,6 +182,22 @@ def pypdf2_image_extraction(data: bytes) -> List[Tuple[str, bytes]]:
     return images
 
 
+def pymupdf_image_extraction(data: bytes) -> List[Tuple[str, bytes]]:
+    images = []
+    with PyMuPDF.open(stream=data, filetype="pdf") as pdf_file:
+        for page_index in range(len(pdf_file)):
+            page = pdf_file[page_index]
+            for image_index, img in enumerate(page.get_images(), start=1):
+                xref = img[0]
+                base_image = pdf_file.extract_image(xref)
+                image_bytes = base_image["image"]
+                image_ext = base_image["ext"]
+                images.append(
+                    (f"image{page_index+1}_{image_index}.{image_ext}", image_bytes)
+                )
+    return images
+
+
 def pdfminer_image_extraction(data: bytes) -> List[Tuple[str, bytes]]:
     from PIL import Image
 
@@ -577,6 +593,7 @@ def get_text_extraction_score(doc: Document, library_name: str):
             lambda n: pymupdf_get_text(n),
             version=PyMuPDF.version[0],
             watermarking_function=None,
+            image_extraction_function=pymupdf_image_extraction,
             dependencies="MuPDF",
             license="GNU AFFERO GPL 3.0 / Commerical",
             last_release_date="2022-08-31",
diff --git a/cache.json b/cache.json