Проблемы при парсинге

Автор Alex_S, 13 марта 2025, 17:34

« назад - далее »

Alex_S

Как спарсить контент, который подгружается динамически, если requests и BeautifulSoup не справляются? Проблема в том что при запросе через requests получаем пустую страницу, т.е. контент подгружается динамически. Пробовал паузы на загрузку, но не помогло.

Вечный джун

Если контент загружается динамически, значит, его подгружает JavaScript. В этом случае requests и BeautifulSoup не помогут, так как они работают только с HTML, который пришёл от сервера. Вот что можно сделать. Юзай selenium. Он симулирет действия пользователя в браузере. Очень мощная вещь.

Alex_S

При работе с селениумом столкнулся с проблемой. В гайдах прописано, что надо драйвер размещать в корень. Но я куда бы не размещал, запуск не удается. Подскажите, как правильно это обработать?

IT_Джедай

Если работаешь с Google Chrome, проверь версию браузера. При использовании версии 115 или новее отдельно определять webdriver не требуется.

Alex_S

Некоторые сайты добавляют капчу при работе через селениум. Они распознают бота? Как обойти такие моменты?

IT_Джедай

Да, сайты палят бота по поведению, заголовкам и IP. Обход — смена User-Agent, скрытие webdriver, задержки, эмуляция движений, прокси и undetected_chromedriver. Если жестко душат — капчи через 2Captcha.