ContentBox 3.5

Тема в разделе "Апдейты Софта / Software Updates", создана пользователем TopperHarley, 13 сен 2017.

Метки:
  1. TopperHarley

    TopperHarley Administrator Команда форума

    Ап ContentBox 3.5

    Добавлена опция перепаршивания картинок/видео при пустой выдаче в парсерах
    Добавлена опция лимита картинок в парсерах, то есть минимально необходимого кол-ва, чтобы ключ не уходил в BAD список
    Багофиксы, оптимизация

    Теперь подробнее:

    upload_2017-9-13_21-51-31.png

    Бывает так что выдача картинок/видео по ключу пустая, либо содержит мало картинок, меньше чем требуется. В этом случае есть два варианта как поступить:
    1) Не перепаршивать больше ключ при последующих запусках генерации, так как предполагаем что выдача не изменится. Если картинок было 3 а надо 10, то их и завтра будет три и после завтра будет три. Для такого поведения флаг "Перепаршивать пустую выдачу" не ставим.
    2) Пытаться спарсить выдачу при последующих запусках генерации. Полагаем, что выдача может поменяться в лучшую сторону, а значит надо попробовать спарсить картинки снова. Для такого поведения флаг "Перепаршивать пустую выдачу" ставим.

    Вторая опция про лимит:

    Бывает нужна логика когда нам хотелось бы на странице иметь 5 картинок, но и 2 нас устроит. Например валидация картинок может срезать число картинок или просто в выдаче их допустим 4. Так вот новая опция "Мин.лимит картинок" пропустит ключ как хороший(не включит в BAD список), если картинок хотя бы 2(сколько указанно). Ну а вообще парсер будет пытаться спарсить столько, сколько затребовано в другом поле - "Кол-во картинок"
     
    Последнее редактирование: 13 сен 2017
    user473703, btr и StiXy нравится это.
  2. user848013

    user848013 New Member

    nice update topper !,

    when will the related searches key scraper be available within contentbox? it would be amazing addition to generate random h2/h3
     
  3. alex778811

    alex778811 New Member

    Только я вчера перед сном об этом подумал, а ты меня уже опередил и даже сделал)
    Короче всё равно отпишу:
    Начну из далека, надумал я спарсить 5 млн ключей, с эвристикой!!!
    Потом вспомнил что в базу парсится не всегда по 10 статей на 1 ключ, потому что бывает статей нет, или источники под запретом в файле чистки, тоже самое касается Н1, Н2, титлы, снипеты. А с эвристикой будет еще меньше статей. Короче, нужно добавить функцию - сколько парсить минимально.
    К примеру:
    [​IMG]


    Так будет парсится обязательно 10 статей, и парсить он их будет проходя максимум 5 страниц, если пройдя 5 страниц он не нашёл 10 статей, значит всё. Хватит)
    Тоже самое касается Н1, Н2, титлов, снипетов.
    К примеру я паршу 5 млн ключей, и мне надо только 5 штук Н1, а парсится будет в любом случае 10. А это лишнее потраченное время и занятое место на диске.
     
  4. TopperHarley

    TopperHarley Administrator Команда форума

    Ну изменения под статьи уже видимо назрели. Предел парсинга по ключу достигается щас за счет параметра "мин.объем текста, символов", наверно время пришло переделать так чтобы был какой-то минимум статей, а для статьи какой-то минимум текста, иначе статья выбрасывается как не статья. А по h1/h2/тайтлам, да, можно задать потолок, но мин.лимит - это лишнее. Пока мин.кол-во статей соберется уже и тайтлы и прочее тоже соберется. А если нет, то значит не судьба
     
  5. StiXy

    StiXy New Member

    Нигде не могу найти инфы по фиче "Эвристика поиска статьи".
    Что она дает?
     
  6. TopperHarley

    TopperHarley Administrator Команда форума

    На странице определяется эврестически главный блок статьи, то есть текст извлекается из центрального блока с контентом. Соответственно всякие сайдбары, хедеры и прочее - выкидывается. Таким образом мы получаем только релевантный контент
     
    StiXy нравится это.