граббер на php

Темы, не касающиеся фреймворка, но относящиеся к программированию в целом.
Ответить
Аватара пользователя
Ghost_nsk
Сообщения: 825
Зарегистрирован: 2012.01.01, 00:45
Откуда: Новосибирск
Контактная информация:

граббер на php

Сообщение Ghost_nsk »

народ посоветуйте универсальное решение :)
andipas
Сообщения: 25
Зарегистрирован: 2012.01.24, 07:39

Re: граббер на php

Сообщение andipas »

Самое лучшее решение на мой взгляд phpQuery. Синтаксис запросов как у jQuery
Аватара пользователя
Ghost_nsk
Сообщения: 825
Зарегистрирован: 2012.01.01, 00:45
Откуда: Новосибирск
Контактная информация:

Re: граббер на php

Сообщение Ghost_nsk »

andipas писал(а):Самое лучшее решение на мой взгляд phpQuery. Синтаксис запросов как у jQuery
ништячок, то что надо, особенно за jquery спасибо :)
Аватара пользователя
anton44eg
Сообщения: 2716
Зарегистрирован: 2012.01.25, 13:37
Откуда: Киев

Re: граббер на php

Сообщение anton44eg »

писал граббер на php. Использовал curl и phpQuery. Проблемы с утечечкой памяти и некоторые проблемы с curl достали, переписал на python с requests и pyquery (порт JQuery на питон, фактически аналог phpQuery)
Аватара пользователя
Ghost_nsk
Сообщения: 825
Зарегистрирован: 2012.01.01, 00:45
Откуда: Новосибирск
Контактная информация:

Re: граббер на php

Сообщение Ghost_nsk »

anton44eg писал(а):Проблемы с утечечкой памяти
поподробнее если можно :)
Аватара пользователя
anton44eg
Сообщения: 2716
Зарегистрирован: 2012.01.25, 13:37
Откуда: Киев

Re: граббер на php

Сообщение anton44eg »

нужно было проходить довольно много страниц. Curl тёк довольно сильно, phpQuery севсем немного. Это как мне удалось выяснить )
Аватара пользователя
r3verser
Сообщения: 195
Зарегистрирован: 2012.04.01, 17:29
Откуда: Киев

Re: граббер на php

Сообщение r3verser »

Парсил 50к+ страниц, брал страницу через Zend_Http_Client, а парсил через phpQuery. Все отлично.
p.s. Zend_Http_Client по умолчанию через сокеты работает.
Аватара пользователя
anton44eg
Сообщения: 2716
Зарегистрирован: 2012.01.25, 13:37
Откуда: Киев

Re: граббер на php

Сообщение anton44eg »

А какая версия php? У меня после 5к страниц уже процесс php перерастал все мыслимые обьемы. Сначала винил AR, сделал без AR, ситауация не менялась
Zend_Http_Client - обёртка над curl?
Аватара пользователя
r3verser
Сообщения: 195
Зарегистрирован: 2012.04.01, 17:29
Откуда: Киев

Re: граббер на php

Сообщение r3verser »

У Zend_Http_Client можно менять тип подключения, с помощью адаптеров. По умолчанию он использует Zend_Http_Client_Adapter_Socket, тобиж fsockopen. А можно и курл Zend_Http_Client_Adapter_Curl. Я использовал сокеты. PHP 5.3.5.
Аватара пользователя
anton44eg
Сообщения: 2716
Зарегистрирован: 2012.01.25, 13:37
Откуда: Киев

Re: граббер на php

Сообщение anton44eg »

ага, спасибо. как-нибудь попробую. у него есть средства для распараллеливания запросов?
Аватара пользователя
r3verser
Сообщения: 195
Зарегистрирован: 2012.04.01, 17:29
Откуда: Киев

Re: граббер на php

Сообщение r3verser »

anton44eg писал(а):у него есть средства для распараллеливания запросов?
Нет, насколько мне известно.
andipas
Сообщения: 25
Зарегистрирован: 2012.01.24, 07:39

Re: граббер на php

Сообщение andipas »

Решение для многопоточных запросов, Zend_Http_Client и multi_curl - http://it-giki.com/post/205.html
Ответить