Оценка дора нейронными сетями.

Тема в разделе "Курилка / Flood", создана пользователем TopperHarley, 19 июн 2018.

?

Нужен ли такой плагин за такую цену?

  1. Да, однозначно.

    32 голосов
    74,4%
  2. Нет, я и без искуственного интеллекта понимаю где дор, а где СДЛ.

    11 голосов
    25,6%
  1. realefs

    realefs Active Member

    окай. на пальцах.
    у домена с тдс, которая занимается только тем, что перенаправляет пользователей на другие сайты и не имеет страниц для посетителей, имеет индекс оценки качества выше, чем у многих статейников с трафиком. что не иллюзорно намекает о несоответствии этой пузомерки и реального качества сайта.
    з.ы. я постараюсь не забывать сопровождать сарказм табличкой с надписью "сарказм"
     
  2. makros

    makros New Member

    Сарказма нет. Обидеть не хотел. Извини, если что.
    Смысл в том, что этот икс так же как и тиц определяет робот.
    А то, что доры и г-сайты, правильно оформленные, получат свой кусок пирога на этом празднике роботов я понял на блоге Яндекса по этому вопросу
    https://webmaster.yandex.ru/blog/vstrechayte-iks
    там обсуждается вопрос с сотрудниками Яндекса, что, почему это копипастные сайты прут лучше чем источники, с которых тырили контент.
    Сотрудник отвечает, что наверное сайт (копипастный) лучше оформлен и более удобен для конечного потребителя (пользователя интернета), а они ориентируются на конечного потребителя (в первую очередь)
    Анализирует робот по показателям....... Сайтов то много, вручную не проверить.
    Соответственно у роботов есть алгоритмы, по которым они определяют качество сайта.
    Если эти алгоритмы вычислить можно (например оценкой дора нейронными сетями), то почему бы не воспользоваться такой возможностью?
    Поэтому подбросил информация в поддержку плагина. Человек, какой бы опытный не был, не угонится за программами.
    Самолёты же без приборов не летают. Хотя в старину летали. Достаточно было опыта лётчика.
    По поводу ТДС, видимо бот считает, что раз на него много заходов и ссылок, то и польза о него большая для конечного потребителя.
    Возможно впоследствии научится разбираться лучше.
    Дорген должен развиваться и бежать впереди поисковиков.
    Смотрю, что то народ не заинтересован. Может быть не понимают пользы...
    Таково моё мнение.
    По поводу сарказма - если и есть, то он - добрый ;). Не обижайся.
     
  3. TopperHarley

    TopperHarley Administrator Команда форума

    Мне кажется теперь и EFSа убедили, да, @realefs ?
     
  4. realefs

    realefs Active Member

    осталось всего ничего, заполучить в свои лапы инженера поиска гугла/яндекса и выяснить эти самые алгоритмы.
    в противном случае это гадание на кофейной гуще.

    ага. как раз среднестатистический дор. много ссылок и переходов. качество аж зашкаливает. что и выражается выдачей ему "медалей" в виде треугольника.

    на самом деле я уже давно себе нейронку натренировал. а вас отговариваю, чтобы вы мне виагру продавать не мешали
     
  5. Max

    Max Member

    совсем все плохо стало в дорах? цена норм.
     
  6. TopperHarley

    TopperHarley Administrator Команда форума

    суть плагина пока вырисовывается такая:
    1. применить нейронную сеть на сайтах выдачи и сказать какие доры а какие - нет
    2. показать свой/чужой сайт - плагин скажет дор или нет

    смысл от этого такой:
    1) запуливаем НЧ, получаем автоматически задетекченные доры с выдачи, анализируем(полуавтоматически) их и палим оттуда темы
    2) если показываем свой и плагин думает что это дор, то чета надо поменять чтобы не был похож на дор
     
  7. Max

    Max Member

    Токо знаешь что по хорошему, надо брать забанненые доры... А ваще тут можно даже нс не использовать... так тупо по проценту от общего числа прохождения тестов. чтобы построить как ты хошь, это надо знать веса - а этого никто не знает из дорвейщиков, знают токо парни из отдела поиска лол.
    TopperHarlley, ты в яндекс устроился работать или "коллега" решил разбавить выдачу, а то работы нету :-D?
    Ну и да наскок знаю у яндекса нс периодически переобучается...

    1. применить нейронную сеть на сайтах выдачи и сказать какие доры а какие - нет
    2. показать свой/чужой сайт - плагин скажет дор или нет

    для этих двух вещей хватит и 10 признаков :-D

    PS это так мысли вслух... мь и хорошая штука выйдет..
     
    Последнее редактирование: 27 сен 2018
  8. Soul

    Soul New Member

    Мне кажется хорошие доры будут заточены слишком хорошо под настойщие сайты, сейчас большинство в выдаче так и есть. Парситься какой то информационный сайт с виду вобще не скажешь что дор, монетизация адсенсом. Как определяется? Кусок текста загнать в гугл и находишь оригинальный сайт, получается копипаст с добавлением своих 1-2 фишек, например счетчик LI + adsence. А бывают вобще такие доры что так клоака сливает на партнерку, есть также нормальные сайты которые тоже сливают на такие партнерки. Как программно можно будет определить что это дор? Разве что сказать вот этот сайт сделан на копипасте, отсутствует клоака можно ли считать этот сайт дорвеем? Вопрос сомнительный. Сейчас тонкая грань по определению что такое дорвей. Возьмем за основу старое - "Это сайт который сгенерирован на контенте чужого сайта либо текста". Т.е. если статьи уникальные (текст рипнут но уникализирован теми же самыми перестановками предложений и синонимизирован) можно ли такой сайт назвать дорвеем? Ответить затрудняюсь, но даже визуально за сомниваешься при ручной проверке, но каждый сайт имеет множество факторов как скрытых так и явных. Возьмем хрумер для примера, будут ли белые проекты гоняться хрумером? Отчасти да, теми же самыми новичками которые думают вот я купил кнопку бабло есть у меня пару сайтов и сейчас я начну качать трафа на них. Я это все тому что слишком много факторов для отделения семен от плевел - требуется, если учитывать что у гугла где то 500 параметров для проверки сайта и какие там сидят умные дядьки да с их вычислительными мощностями и все равно не могут сразу взять и вот так определить это дорвеи или нет. А есть вобще такие моменты когда слив не ставиться пока траф не пойдет. Приходим снова к выводу для определения дорвей это или нет нужно время. Да, сейчас можно найти массу дорвеев если забить в программу признаков 20 от силы, здесь даже нейронные сети не нужны.

    Где то читал что нейронная сеть умеет по картинке верстать сайты. Может лучше уделить время генерации дорвеев используя возможности нейросетей? Нашли донора в сети, нейронка уже знает в какие места какие макросы подставлять чтобы было близко к оригиналу, разве такая затея не стоит времени?
     
    Последнее редактирование: 30 сен 2018
    user966939, user548642 и makros нравится это.
  9. TopperHarley

    TopperHarley Administrator Команда форума

    Вот что-то нашлось. Ссылки ниже.
    Ну да, тут не достоверные алгоритмы Гугла, но уже интереснее чем те, метрики что я собирал. Хотя мои тоже ничего.

    Topper Harley, [02.03.20 23:27]
    есть тут кто-нить понимающий в математике?

    есть вот такой простой алгоритм машинного обучения для ранжирования поисковика: https://github.com/dotnet/machinele...er/samples/csharp/getting-started/Ranking_Web
    и там если покопаться в датасетах и коде, то можно найти вот такой файл https://aka.ms/mlnet-resources/benchmarks/MSLRWeb10KTrain720kRows.tsv
    в этом файле видно что для ранжирования используется 138 параметров, извлекаемых для страницы
    вот они https://pastebin.com/DcdGxm43
    чтобы понять что это за параметры я их нагуглил в документе https://arxiv.org/pdf/1806.09317.pdf
    И там мы видим что к примеру первый параметр - это "bodytfsum" считается как Pt∈Q∩D TF(t, D) in body
    Так вот вопрос, что за куйня вот это: t∈Q∩D TF(t, D) in body ?

    Topper Harley, [02.03.20 23:48]
    вот вроде подробнее: https://www.microsoft.com/en-us/research/project/mslr/?from=http://research.microsoft.com/en-us/projects/mslr/feature.aspx

    ali3n, [02.03.20 23:52]
    https://ru.m.wikipedia.org/wiki/TF-IDF

    Topper Harley, [02.03.20 23:55]
    если можно было бы разобраться в этих параметрах, то потом можно было бы оценивать страницу и правками на доре добиться хорошей оценки. оценку получать обучив сетку на топовых результатах выдачи. то есть сначала парсим топ, потом топом обучаем сетку. потом этой сеткой оцениваем свои доры (по какой-то конкретной нише конечно)
     
    Последнее редактирование: 3 мар 2020
    user913194 и Astraport нравится это.
  10. TopperHarley

    TopperHarley Administrator Команда форума

    Вот оно: https://github.com/ashnkumar/sketch-code
     
  11. BasilVG

    BasilVG Member

    для меня ценней на выходе бота будет инфа:

    на вход подаем

    1) ключ
    2) язык
    3) гео
    4) глубина анализа "хороших - топчики" до (например топ-3/10/20)
    5) глубина анализа "плохих - аутсайдеры" после хороших до (например топ-4-50/11-50/21-50)

    далее алгоритм получает преобладающие характеристики "хороших" (отбирать по статистической значимости - например есть у 60 % сайтов)
    далее алгоритм получает преобладающие характеристики "плохих" (отбирать по статистической значимости - например есть у 60 % сайтов)

    и находить,

    чего нет у "хороших" и нет у "плохих"
    чего есть у "хороших" и нет у "плохих"
    чего нет у "хороших" и есть у "плохих"
    чего много у "хороших" и много у "плохих"
    чего много у "хороших" и мало у "плохих"
    чего мало у "хороших" и много у "плохих"
    чего мало у "хороших" и мало у "плохих"

    и на выходе

    из каких фавиконок / пробелов / запятых в текущей нише, текущий совокупный алгоритме ранжирования формирует топчик
    какие фавиконки / пробелы / запятые в текущей нише меняется в динамике

    ps - если критериев много, я глазами их не увижу точно, нейронка в теории сможет вычленить это лучше меня