The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Паралельное выполнение обработки файлов"
Вариант для распечатки  
Пред. тема | След. тема 
Форум WEB технологии (PHP)
Изначальное сообщение [ Отслеживать ]

"Паралельное выполнение обработки файлов"  +/
Сообщение от Nightman_Shaemail (ok), 09-Янв-24, 08:15 
Добрый день!
Имеем
PHP Version 7.4.10
Есть скрипт, который выполняет scandir нужного каталога в отдельной функции и возвращает массив

Затем бежит по этому массиву и выполняет процессинг "по одному":

foreach ($lrFiles as $lsKey => $lsFile) {
      $this->CopyToArchivDir($lsOrigDir. $lsFile , PRESENTATION_DIR.'../'.$irService['InFileDir']);
      $lbResult = $this->ProcessFile($lsOrigDir . $lsFile);
      if ($lbResult) {
        unlink($lsOrigDir . $lsFile);
      }
    }

ProcessFile достаточно тяжелая , выполняются всякие iconv, ввод/вывод в БД и другие преобразования. Не суть.

Вопрос: можно ли распараллелить выполнение ProcessFile минуя последовательную обработку"по одному".
Чтобы процессинг шел _безопасно_ в паралели на несколько трэдов.

googlение дает противоречивое, куча фремворков и встроенных возможностей PHP. А какие надежные и безопасные? Учитывая, что с PHP я знаком не хорошо ..
Направьте пожалуйста в нужное русло
Спасибо


Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от ACCA (ok), 10-Янв-24, 20:32   +/
Не делай scandir, а читай имена файлов для обработки из STDIN. После этого заворачиваешь свой PHP во что-нибудь вроде

#!/bin/bash

ORIGDIR=/opt

CPUS=$(expr $(nproc) - 2)
TMPFILE=$(mktemp)
trap "rm $TMPFILE $TMPFILE.*" EXIT

find $ORIGDIR -type f > $TMPFILE
split -n l/$CPUS $TMPFILE $TMPFILE.

for LST in $TMPFILE.*
do
    wc -l < $LST &
done
wait
wait

Для примера обработки здесь использован wc. Количество параллельных процессов = число ядер-2 (пару ядер оставим для другой работы).

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #2

2. Сообщение от Nightman_Shaemail (ok), 11-Янв-24, 12:55   +/
>[оверквотинг удален]
> split -n l/$CPUS $TMPFILE $TMPFILE.
> for LST in $TMPFILE.*
> do
>     wc -l < $LST &
> done
> wait
> wait
>
> Для примера обработки здесь использован wc. Количество параллельных процессов = число ядер-2
> (пару ядер оставим для другой работы).

Меня мало беспокоит производительность ScanDir на большом кол-ве файлов.
Львиная доля времени уходит не на ScanDir, а на последовательную обработку файлов по одному.
И перенести логику обработки из PHP нельзя, там серьезная обработка.
Вот распаралелить возможно , осталось выяснить как :)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #3, #4

3. Сообщение от Аноним (3), 12-Янв-24, 23:13   +/
Это оно

https://stackoverflow.com/questions/70855/how-can-one-use-mu...

https://www.php.net/manual/en/class.thread.php

??

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

4. Сообщение от ACCA (ok), 14-Янв-24, 03:33   +/
> Вот распаралелить возможно , осталось выяснить как :)

Я тебе это и показал.

Складываешь имена файлов в файл. Рвёшь его на N кусков. Запускаешь N процессов, каждому кусок списка файлов. Обрабатываешь параллельно. Ждёшь, когда все закончатся.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру