Парсер Заголовков и Описаний

Нашел в своем rss-ридере пост «Notepad++ как инструмент для SEО«. Не понял, что автор хотел сказать… Наверное, рассказ про «Замену» (Ctrl+H), которая есть во всех текстовых редакторах. Но не это главное. Главное (почему я осилил написание этого поста) — вспомнил, что завалялся на моем винте скрипт, который умеет выдирать содержимое тегов title и meta-description из списка данных ему сайтов. Собственно, вот он:

<?php
ob_implicit_flush();
$urls = file("urls.txt");
$file_titles = fopen("titles.txt", "a");
$file_descs = fopen("descriptions.txt", "a");
$pattern1 = "/<title>(.*?)<\/title>/is";
$pattern2 = "/<meta name=(\"|')description(\"|') content=(\"|')(.*?)(\"|')(.*?)>/is";
foreach ($urls as $one_url)
{
    $html = file_get_contents(trim($one_url));
    preg_match($pattern1, $html, $matches);
    fwrite($file_titles, $matches[1]."\n");
    preg_match($pattern2, $html, $matches);
    fwrite($file_descs, $matches[4]."\n");
    echo $one_url . " done.<br />";
}
fclose($file_titles);
fclose($file_descs);
?>

Вроде как, всё понятно:
— в файле urls.txt находится список сайтов, из которых требуется выдирать титлы и дески;
— в файл titles.txt складываются заголовки сайтов;
— в файл descriptions.txt складывается содержимое meta-description.

«Зачем всё это надо» — спросите вы! Лично я использовал этот скрипт следующим образом. В одной из отраслей онлайн-бизнеса, где безредиректные дорвеи очень хорошо себя чувствуют, есть очень много похожих друг на друга сайтов. Этим скриптом я выдирал титлы/дески из этих сайтов, бегло чистил от мусора, и конечный файл подключал к своему генератору дорвеев. Дорген в теги title и meta-desc подставлял сначала нужный ключевик, а после титл и деск, рандомно вырванный из файлов titles.txt и descriptions.txt.
Если еще кто-нибудь не понял, зачем я так заморачивался, рассказываю. Контент дорвея предназначен для гуглобота. А Титл и Деск — для посетителя, который находит мой дорвей в серпе. 😉

Вряд ли этот скрипт заинтересует бывалых дорвейщиков, но для молодых может быть полезен. В частности, рекомендую автору поста про Notepad+++ использовать этот скрипт, вместо возни с Ctrl+H :))

п.с. Скрипт любезно предоставлен Sunday — злой гамбургер с форума Gofuckbiz 8)

Комментарии

10 комментариев на ««Парсер Заголовков и Описаний»»

  1. Аватар пользователя MarafoN

    Нифига ты не осилил..
    Напиши статью как обычным блокнотом с помощью можно проделать туже работу, что я показал в примере и я дам тебе 100$.

  2. Аватар пользователя MarafoN

    Ну спасибо. 🙂

  3. Аватар пользователя hib

    Автор поста про Notepad++ видимо хотел сказать, что не во всех бесплатных текстовых редакторах в «Замене» есть поддержка регэкспов. Очень удобная и мощная вещь при массовой обработке файлов, ну и соответственно при должном умении регулярно выражаться 🙂 Всегда пользуюсь этим редактором … когда не под линухом.

  4. Аватар пользователя Sosnovskij

    Тоже пользуюсь Notepad++, но в плане СЕО его вроде никак не получится применить 🙂 — мощный и удобный текстовый редактор.

  5. Аватар пользователя Анатолий

    Спасибо! Интересно будет попользоваться данным скриптом. Нигде раньше подобного не встречал.

  6. Аватар пользователя Markintalk

    Да, идея четкая, вот только для очень узкого круга специалистов)

  7. Аватар пользователя Дмитрий
    Дмитрий

    Здравствуйте, а проблему с кодировкой разных сайтов как решить не подскажите?

  8. Аватар пользователя Sanchez

    Notepad++ вообще супер прога, она очень сильно помогает в работе с сайтом. Спасибо за скрипт

  9. Аватар пользователя aleksey
    aleksey

    не работает!

  10. Аватар пользователя Мария (itis-easy.ru)

    У меня тоже что то не работает, попробовала.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *