Одиссея ИИ или с легким паром..

Автор feron, 28.10.24, 23:49:29

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

feron

Доброго вечера!

Построил различные алгоритмы обучения которые способны с сайтов высасывать всю информацию.. предварительно подсчитав сколько страниц в сети ему нужно обработать и поделил на максимальную скорость обращения к этим страницам и выявилось что мне нужно 9 жизней что бы он изучил намеченное!

Вопрос как можно обработать 9 000 страниц меньше чем за 1 минуту ? заметил что многие сервисы перешли на cloudflare а мне он спасибо не скажет. На каждом шагу его проверки!

Построил мегаграббер публичных прокси он вытягивает с сети 2 000 000 проксей из которых только 6000 рабочих (пик что обнаружил за 10 дней пользования)
Из которых 50% медленных/прозрачных/данжероуз но тут мне не важно.

из оставшихся 3000 в пуле потоков возвращают ответы около 1000 запросов. и по времени долговато потому что пул построен на пропускной способности сети. эти 1000 запросов могут тянуться около 1 часа.

Такими темпами и 9 жизней мало. Как можно больше и быстрее обрабатывать страницы?

Starik

Дяденька, а Вы с кем разговариваете???? :o
( Я к программированию не имею никакого отношения. Для меня даже термины из этой террады - тёмный лес :um: )

feron

#2
Есть тут ребята  :w:

Правда не хотят помогать а потом спрашивают помощи а где ж ее взять то когда логика ии на уровне яслей ?

Судьба - злая тетка, не любит когда к ней спиной поворачивается.

Toptotal

Цитата: feron от 28.10.24, 23:49:29Вопрос как можно обработать 9 000 страниц меньше чем за 1 минуту ? заметил что многие сервисы перешли на cloudflare а мне он спасибо не скажет. На каждом шагу его проверки!
Суть обработки в чем?

Toptotal

Мне нужно было обработать файлы и вытаскивать абзацци с нужной информацией не кто не сделал.
С помощью ИИ искать в книгах нужный материал. В Инете нету его. Инет это помойка по большей части , но разве что по айти бибилиотека. а по старым обычным вопросоам там 0 по сравнению с библиотекой научно технической времен так 1985-1995года.

feron

#5
Цитата: Toptotal от 29.10.24, 11:53:28Суть обработки в чем?

Извлечь из страниц текст но сделать это максимально быстро и выделить на это по минимуму ресурсов пк так сказать без "шуму и пыли".

Цитата: Toptotal от 29.10.24, 11:57:38Мне нужно было обработать файлы и вытаскивать абзацци с нужной информацией не кто не сделал.
С помощью ИИ искать в книгах нужный материал. В Инете нету его. Инет это помойка по большей части , но разве что по айти бибилиотека. а по старым обычным вопросоам там 0 по сравнению с библиотекой научно технической времен так 1985-1995года.

Так в том то и дело я все компоненты для взаимодействия с сайтами перебрал но так много ресурсов пк я трачу.. раньше эти компоненты были простыми и легкими а у сайтов не было защиты от ботов.

Есть сайты с динамической загрузкой - те пока не пролистнешь вниз - данные не прогрузятся..

я тоже чего много нахожу в книгах 2000х - тот же pywin32 кроме книги этих лет - нету.

Toptotal

Цитата: feron от 29.10.24, 13:47:34Извлечь из страниц текст но сделать это максимально быстро и выделить на это по минимуму ресурсов пк так сказать без "шуму и пыли".
Регулярными выражениями из файлов разом почти вытаскиваю нужные мне тексты. не всегда удается, например из пдф наименование чертежа, а так любые запросы. мне смысл нужен , смысловой по теме заданной. а так я выборку делаю очлегко.
раньше сайты высасывались телепортом и тд и сайт на диске был.

feron

#7
Цитата: Toptotal от 30.10.24, 01:40:07Регулярными выражениями из файлов разом почти вытаскиваю нужные мне тексты. не всегда удается, например из пдф наименование чертежа, а так любые запросы. мне смысл нужен , смысловой по теме заданной. а так я выборку делаю очлегко.

Как извлечь данные с полученного с сайта текста - вопрос не стоит. К тому же кроме регулярки еще пару тройку хороших инструментов которые мало едят ресурсов.

Цитата: Toptotal от 30.10.24, 01:40:07раньше сайты высасывались телепортом и тд и сайт на диске был.
да было время - тоже пользовался им но он все равно медленен..