Web Title Extractor Service

Описание проекта

Сервис для извлечения заголовков (title) веб-страниц по списку URL. Принимает HTTP запрос со списком URL и возвращает для каждого URL найденный заголовок страницы.

Технические требования

Язык реализации: Scala 3
HTTP сервер: http4s
ФП стек: Cats Effect
Конфигурация: PureConfig
Кэширование: Redis
Тестирование: ScalaTest

Функциональность

Основные возможности:

Принимает POST запрос с JSON списком URL
Извлекает заголовки страниц (содержимое тега <title>)
Возвращает JSON с результатами для каждого URL
Поддерживает кэширование результатов
Ограничивает максимальное количество URL в одном запросе
Фильтрует разрешенные домены

Ограничения:

Настраивается максимальное количество URL в одном запросе
Настраивается таймаут запроса
Поддерживаются только HTTP/HTTPS URL

API Endpoints

POST /api/extractor/titles

Запрос:

{
  "urls": [
    "https://example.com",
    "https://scala-lang.org"
  ]
}

Успешный ответ (200 OK):

[
  {
    "url": "https://example.com",
    "title": "Example Domain"
  },
  {
    "url": "https://scala-lang.org",
    "title": "The Scala Programming Language"
  }
]

Запуск проекта

Требования:

Java 11+
Docker (опционально)
sbt

Запуск бэкенда:

Собрать и запустить приложение:

sbt run

Тестирование:

sbt test

Архитектура

Основные компоненты:

HTTP API (http4s) - обработка запросов
ExtractorService - основная бизнес-логика
UrlProcessor - извлечение заголовков страниц
RedisCache - кэширование результатов
Config - конфигурация приложения

Поток данных:

HTTP запрос → JSON парсинг → валидация URL
Проверка кэша Redis → запрос страницы (если нет в кэше)
Парсинг HTML → извлечение title
Сохранение в кэш → формирование ответа

Принятые решения

Кэширование:
- Используется Redis для хранения результатов
- TTL кэша: 1 час (настраивается)
Обработка ошибок:
- Невалидные URL пропускаются с сообщением об ошибке
- Ошибки загрузки страниц не прерывают обработку других URL
Безопасность:
- Ограничение на количество URL в запросе
- Настраивается "белый" список разрешенных доменов
- Таймауты и редиректы на HTTP запросы
Производительность:
- Параллельная обработка URL
- Кэширование для повторяющихся запросов

Пример использования получения данных с URL-ов

запрос

curl -X POST \
  http://localhost:8080/api/extractor/titles \
  -H 'Content-Type: application/json' \
  -d '{
       "urls": [
          "https://example.com",
          "https://google.com",
          "https://scala-lang.org",
          "https://rockthejvm.com"
          ]
       }'

Ответ:

[
    {
        "url": "https://example.com",
        "title": "Example Domain"
    },
    {
        "url": "https://google.com",
        "title": "Google"
    },
    {
        "url": "https://scala-lang.org",
        "title": "The Scala Programming Language"
    },
    {
        "url": "https://rockthejvm.com",
        "title": "No title"
    }
]

Использование Redis

Подключение к Redis через командную строку:

user@itretyakov:~$ redis-cli

Проверить все ключи:

127.0.0.1:6379> KEYS *

Получить значение по конкретному ключу:

127.0.0.1:6379> GET "https://example.com"

Проверить TTL ключа:

127.0.0.1:6379> TTL "https://example.com"

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
src		src
.scalafmt.conf		.scalafmt.conf
Dockerfile		Dockerfile
README.md		README.md
build.sbt		build.sbt
docker-compose.yml		docker-compose.yml
img.png		img.png
img_1.png		img_1.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Web Title Extractor Service

Описание проекта

Технические требования

Функциональность

Основные возможности:

Ограничения:

API Endpoints

POST /api/extractor/titles

Запуск проекта

Требования:

Запуск бэкенда:

Тестирование:

Архитектура

Основные компоненты:

Поток данных:

Принятые решения

Пример использования получения данных с URL-ов

Использование Redis

Дерево

About

Uh oh!

Releases

Packages

Uh oh!

Languages

CordedWare/Web-Title-Extractor

Folders and files

Latest commit

History

Repository files navigation

Web Title Extractor Service

Описание проекта

Технические требования

Функциональность

Основные возможности:

Ограничения:

API Endpoints

POST /api/extractor/titles

Запуск проекта

Требования:

Запуск бэкенда:

Тестирование:

Архитектура

Основные компоненты:

Поток данных:

Принятые решения

Пример использования получения данных с URL-ов

Использование Redis

Дерево

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages