Приветствую
Для небольшого проекта (нас всего 2 человека) выбираем наиболее актуальные технологии парсинга, в частности Авито. Несколько дней читаем тематические статьи, комментарии к ним, смотрим тематические видео. Нам уже известно, что Авито - наиболее трудный "клиент" для парсинга, поэтому думается, что освоив технологию парсинга этой площадки, мы сможем парсить и другие площадки с некоторой легкостью. На слуху в данный момент Selenium, AutoIt, PhantomJS,
также есть вот такие оценки:
"В brАwserless выигрыш по производительнсти не окупает затраты на поддержание разных технологий в одной небольшой команде (brАwserless + selenium + Puppeteer + Cypress + Playwright + ..).
2. В brАwserless подделка фингерпринта технически сложнее на два порядка, а с прицелом на рынок топ100 маркетплейсов примерно все они ловят ботов за фингерпринт с разной степенью успешности."
Еще были найдены расширения для хрома, например, UI.Vision RPA
https://chrome.google.com/webstore/d...lleoemohcganoc
Также известно, что некоторые используют нейронные сети для имитации пользовательской активности на Авито. Думаю, что стоит указать масштабы парсинга, чтобы правильнее оценить необходимые ресурсы: не более 20000 объявлений в сутки. Кроме этого, требуется "закрытая" информация, таковой считается доступ к товарам одного продавца, доступ к его отзывам, телефон продавца не нужен. Помимо этого, мы рассматриваем и аутсорс варианты парсинга (рекомендации приветствуются), но прежде хотелось бы попробовать самим.
В общем, будем благодарны за просветительные советы в направлении актуальных технологий парсинга.
Для небольшого проекта (нас всего 2 человека) выбираем наиболее актуальные технологии парсинга, в частности Авито. Несколько дней читаем тематические статьи, комментарии к ним, смотрим тематические видео. Нам уже известно, что Авито - наиболее трудный "клиент" для парсинга, поэтому думается, что освоив технологию парсинга этой площадки, мы сможем парсить и другие площадки с некоторой легкостью. На слуху в данный момент Selenium, AutoIt, PhantomJS,
также есть вот такие оценки:
"В brАwserless выигрыш по производительнсти не окупает затраты на поддержание разных технологий в одной небольшой команде (brАwserless + selenium + Puppeteer + Cypress + Playwright + ..).
2. В brАwserless подделка фингерпринта технически сложнее на два порядка, а с прицелом на рынок топ100 маркетплейсов примерно все они ловят ботов за фингерпринт с разной степенью успешности."
Еще были найдены расширения для хрома, например, UI.Vision RPA
https://chrome.google.com/webstore/d...lleoemohcganoc
Также известно, что некоторые используют нейронные сети для имитации пользовательской активности на Авито. Думаю, что стоит указать масштабы парсинга, чтобы правильнее оценить необходимые ресурсы: не более 20000 объявлений в сутки. Кроме этого, требуется "закрытая" информация, таковой считается доступ к товарам одного продавца, доступ к его отзывам, телефон продавца не нужен. Помимо этого, мы рассматриваем и аутсорс варианты парсинга (рекомендации приветствуются), но прежде хотелось бы попробовать самим.
В общем, будем благодарны за просветительные советы в направлении актуальных технологий парсинга.
Комментарий