huggingface · aijadugar · Oct 8, 2025 · Oct 8, 2025 · Oct 15, 2025 · zucchini-nlp
diff --git a/-image-text-to-text b/-image-text-to-text
diff --git a/src/transformers/models/auto/modeling_auto.py b/src/transformers/models/auto/modeling_auto.py
@@ -1063,6 +1063,7 @@ class _BaseModelWithGenerate(PreTrainedModel, GenerationMixin):
         ("video_llama_3", "VideoLlama3ForConditionalGeneration"),
         ("vipllava", "VipLlavaForConditionalGeneration"),
         ("vision-encoder-decoder", "VisionEncoderDecoderModel"),
+
     ]
 )
 

diff --git a/src/transformers/models/parakeet/tokenization_parakeet_fast.py b/src/transformers/models/parakeet/tokenization_parakeet_fast.py
@@ -17,6 +17,21 @@
 from typing import Optional, Union
 
 from ...tokenization_utils_fast import PreTrainedTokenizerFast
+from ...tokenization_utils_base import PreTrainedTokenizerBase
+
+class ParakeetCTCTokenizer(PreTrainedTokenizerBase):
+    def __init__(self, vocab_file=None, **kwargs):
+        super().__init__()
+        self.vocab_file = vocab_file
+
+    def _tokenize(self, text):
+        return text.split()
+
+    def _convert_token_to_id(self, token):
+        return 0
+
+    def _convert_id_to_token(self, index):
+        return ""
 
 
 class ParakeetTokenizerFast(PreTrainedTokenizerFast):
@@ -51,4 +66,4 @@ def _decode(
         )
 
 
-__all__ = ["ParakeetTokenizerFast"]
+__all__ = ["ParakeetTokenizerFast", "ParakeetCTCTokenizer"]
diff --git a/src/transformers/models/perception_lm/modeling_perception_lm.py b/src/transformers/models/perception_lm/modeling_perception_lm.py
@@ -30,10 +30,21 @@
 from ...generation import GenerationMixin
 from ...modeling_outputs import BaseModelOutputWithPast, ModelOutput
 from ...modeling_utils import PreTrainedModel
+from ...configuration_utils import PretrainedConfig
 from ...utils import auto_docstring, can_return_tuple
 from ..auto import AutoModel
 from .configuration_perception_lm import PerceptionLMConfig
 
+class PerceptionEncoder(PreTrainedModel):
+    config_class = PretrainedConfig
+
+    def __init__(self, config):
+        super().__init__(config)
+        self.dummy_layer = None
+
+    def forward(self, x):
+        return x
+
 
 class PerceptionLMAdaptiveAvgPooling(nn.Module):
     def __init__(self, pooling_ratio=2):
@@ -484,4 +495,4 @@ def prepare_inputs_for_generation(
         return model_inputs
 
 
-__all__ = ["PerceptionLMForConditionalGeneration", "PerceptionLMPreTrainedModel", "PerceptionLMModel"]
+__all__ = ["PerceptionLMForConditionalGeneration", "PerceptionLMPreTrainedModel", "PerceptionLMModel", "PerceptionEncoder"]
-Original file line number
+Diff line change
@@ Expand Up @@
             ("video_llama_3", "VideoLlama3ForConditionalGeneration"),
             ("vipllava", "VipLlavaForConditionalGeneration"),
             ("vision-encoder-decoder", "VisionEncoderDecoderModel"),
         ]
     )
@@ Expand Down @@