Обработка 20К файлов по 500М каждый

У меня есть 20К файлов. Размер варьируется от 150 до 500 м каждый. Мои файлы имеют тенденцию расти со временем до 500M.

Мой сценарий использования ETL (все происходит в течение 8 минут):

  1. Читать файл
  2. Изменить его в памяти
  3. Написать файл обратно

Мой уровень использования: 10 ETL в минуту.

ETL - извлечение, преобразование, загрузка - в моем случае это (чтение, изменение, запись).

Я хочу обработать все эти данные с двумя жесткими дисками по 10 ТБ в режиме RAID1.

Я использую Ubuntu 18.04. Для сервера я буду использовать потребительское оборудование, а не серверные вещи.

Итак, есть ли какая-нибудь хорошая файловая система linux, которая может разделить весь мой жесткий диск на разделы 500M, где я могу хранить свои файлы? Я хочу избежать ада фрагментации, поэтому моя идея состоит в том, чтобы выделить 500 миллионов разделов или около того. Я в порядке, чтобы пожертвовать пространством для скорости и производительности.

Какие-либо предложения?

0 ответов

Другие вопросы по тегам