Форум пользователей ПО АСКОН

Смежные вопросы => За рюмкой чая => Тема начата: feron от 28.10.24, 23:49:29

Название: Одиссея ИИ или с легким паром..
Отправлено: feron от 28.10.24, 23:49:29
Доброго вечера!

Построил различные алгоритмы обучения которые способны с сайтов высасывать всю информацию.. предварительно подсчитав сколько страниц в сети ему нужно обработать и поделил на максимальную скорость обращения к этим страницам и выявилось что мне нужно 9 жизней что бы он изучил намеченное!

Вопрос как можно обработать 9 000 страниц меньше чем за 1 минуту ? заметил что многие сервисы перешли на cloudflare а мне он спасибо не скажет. На каждом шагу его проверки!

Построил мегаграббер публичных прокси он вытягивает с сети 2 000 000 проксей из которых только 6000 рабочих (пик что обнаружил за 10 дней пользования)
Из которых 50% медленных/прозрачных/данжероуз но тут мне не важно.

из оставшихся 3000 в пуле потоков возвращают ответы около 1000 запросов. и по времени долговато потому что пул построен на пропускной способности сети. эти 1000 запросов могут тянуться около 1 часа.

Такими темпами и 9 жизней мало. Как можно больше и быстрее обрабатывать страницы?
Название: Re: Одиссея ИИ или с легким паром..
Отправлено: Starik от 29.10.24, 05:20:17
Дяденька, а Вы с кем разговариваете???? :o
( Я к программированию не имею никакого отношения. Для меня даже термины из этой террады - тёмный лес :um: )
Название: Re: Одиссея ИИ или с легким паром..
Отправлено: feron от 29.10.24, 07:01:33
Есть тут ребята  :w:

Правда не хотят помогать а потом спрашивают помощи а где ж ее взять то когда логика ии на уровне яслей ?

Судьба - злая тетка, не любит когда к ней спиной поворачивается.
Название: Re: Одиссея ИИ или с легким паром..
Отправлено: Toptotal от 29.10.24, 11:53:28
Цитата: feron от 28.10.24, 23:49:29Вопрос как можно обработать 9 000 страниц меньше чем за 1 минуту ? заметил что многие сервисы перешли на cloudflare а мне он спасибо не скажет. На каждом шагу его проверки!
Суть обработки в чем?
Название: Re: Одиссея ИИ или с легким паром..
Отправлено: Toptotal от 29.10.24, 11:57:38
Мне нужно было обработать файлы и вытаскивать абзацци с нужной информацией не кто не сделал.
С помощью ИИ искать в книгах нужный материал. В Инете нету его. Инет это помойка по большей части , но разве что по айти бибилиотека. а по старым обычным вопросоам там 0 по сравнению с библиотекой научно технической времен так 1985-1995года.
Название: Re: Одиссея ИИ или с легким паром..
Отправлено: feron от 29.10.24, 13:47:34
Цитата: Toptotal от 29.10.24, 11:53:28Суть обработки в чем?

Извлечь из страниц текст но сделать это максимально быстро и выделить на это по минимуму ресурсов пк так сказать без "шуму и пыли".

Цитата: Toptotal от 29.10.24, 11:57:38Мне нужно было обработать файлы и вытаскивать абзацци с нужной информацией не кто не сделал.
С помощью ИИ искать в книгах нужный материал. В Инете нету его. Инет это помойка по большей части , но разве что по айти бибилиотека. а по старым обычным вопросоам там 0 по сравнению с библиотекой научно технической времен так 1985-1995года.

Так в том то и дело я все компоненты для взаимодействия с сайтами перебрал но так много ресурсов пк я трачу.. раньше эти компоненты были простыми и легкими а у сайтов не было защиты от ботов.

Есть сайты с динамической загрузкой - те пока не пролистнешь вниз - данные не прогрузятся..

я тоже чего много нахожу в книгах 2000х - тот же pywin32 кроме книги этих лет - нету.
Название: Re: Одиссея ИИ или с легким паром..
Отправлено: Toptotal от 30.10.24, 01:40:07
Цитата: feron от 29.10.24, 13:47:34Извлечь из страниц текст но сделать это максимально быстро и выделить на это по минимуму ресурсов пк так сказать без "шуму и пыли".
Регулярными выражениями из файлов разом почти вытаскиваю нужные мне тексты. не всегда удается, например из пдф наименование чертежа, а так любые запросы. мне смысл нужен , смысловой по теме заданной. а так я выборку делаю очлегко.
раньше сайты высасывались телепортом и тд и сайт на диске был.
Название: Re: Одиссея ИИ или с легким паром..
Отправлено: feron от 30.10.24, 09:09:24
Цитата: Toptotal от 30.10.24, 01:40:07Регулярными выражениями из файлов разом почти вытаскиваю нужные мне тексты. не всегда удается, например из пдф наименование чертежа, а так любые запросы. мне смысл нужен , смысловой по теме заданной. а так я выборку делаю очлегко.

Как извлечь данные с полученного с сайта текста - вопрос не стоит. К тому же кроме регулярки еще пару тройку хороших инструментов которые мало едят ресурсов.

Цитата: Toptotal от 30.10.24, 01:40:07раньше сайты высасывались телепортом и тд и сайт на диске был.
да было время - тоже пользовался им но он все равно медленен..