hudiCluster Табличная Функция
Это расширение для табличной функции hudi.
Позволяет обрабатывать файлы из таблиц Apache Hudi в Amazon S3 параллельно с множеством узлов в указанном кластере. На инициаторе создается соединение со всеми узлами кластера и динамически распределяет каждый файл. На рабочем узле он запрашивает у инициатора следующую задачу для обработки и выполняет её. Это повторяется до тех пор, пока все задачи не будут завершены.
Синтаксис
Аргументы
| Аргумент | Описание |
|---|---|
cluster_name | Имя кластера, которое используется для построения набора адресов и параметров соединения с удаленными и локальными серверами. |
url | URL корзины с путем к существующей таблице Hudi в S3. |
aws_access_key_id, aws_secret_access_key | Долгосрочные учетные данные для пользователя учетной записи AWS. Вы можете использовать их для аутентификации ваших запросов. Эти параметры являются необязательными. Если учетные данные не указаны, используются те, что заданы в конфигурации ClickHouse. Для получения дополнительной информации см. Использование S3 для хранения данных. |
format | Формат файла. |
structure | Структура таблицы. Формат: 'column1_name column1_type, column2_name column2_type, ...'. |
compression | Параметр является необязательным. Поддерживаемые значения: none, gzip/gz, brotli/br, xz/LZMA, zstd/zst. По умолчанию сжатие будет автоматически определяться по расширению файла. |
Возвращаемое значение
Таблица с указанной структурой для чтения данных из кластера в указанной таблице Hudi в S3.
Виртуальные колонки
_path— Путь к файлу. Тип:LowCardinality(String)._file— Имя файла. Тип:LowCardinality(String)._size— Размер файла в байтах. Тип:Nullable(UInt64). Если размер файла неизвестен, значение равноNULL._time— Время последнего изменения файла. Тип:Nullable(DateTime). Если время неизвестно, значение равноNULL._etag— Etag файла. Тип:LowCardinality(String). Если etag неизвестен, значение равноNULL.