Парсер Заголовков и Описаний

Нашел в своем rss-ридере пост “Notepad++ как инструмент для SEО“. Не понял, что автор хотел сказать… Наверное, рассказ про “Замену” (Ctrl+H), которая есть во всех текстовых редакторах. Но не это главное. Главное (почему я осилил написание этого поста) – вспомнил, что завалялся на моем винте скрипт, который умеет выдирать содержимое тегов title и meta-description из списка данных ему сайтов. Собственно, вот он:

<?php
ob_implicit_flush();
$urls = file("urls.txt");
$file_titles = fopen("titles.txt", "a");
$file_descs = fopen("descriptions.txt", "a");
$pattern1 = "/<title>(.*?)<\/title>/is";
$pattern2 = "/<meta name=(\"|')description(\"|') content=(\"|')(.*?)(\"|')(.*?)>/is";
foreach ($urls as $one_url)
{
    $html = file_get_contents(trim($one_url));
    preg_match($pattern1, $html, $matches);
    fwrite($file_titles, $matches[1]."\n");
    preg_match($pattern2, $html, $matches);
    fwrite($file_descs, $matches[4]."\n");
    echo $one_url . " done.<br />";
}
fclose($file_titles);
fclose($file_descs);
?>

Вроде как все понятно:
- в файле urls.txt находится список сайтов, из которых требуется выдирать титлы и дески;
- в файл titles.txt складываются заголовки сайтов;
- в файл descriptions.txt складывается содержимое meta-description.

“Зачем все это надо” – спросите вы! Лично я использовал этот скрипт следующим образом. В одной из отраслей онлайн-бизнеса, где безредиректные дорвеи очень хорошо себя чувствуют, есть очень много похожих друг на друга сайтов. Этим скриптом я выдирал титлы/дески из этих сайтов, бегло чистил от мусора, и конечный файл подключал к своему генератору дорвеев. Дорген в теги title и meta-desc подставлял сначала нужный ключевик, а после титл и деск, рандомно вырванный из файлов titles.txt и descriptions.txt.
Если еще кто-нибудь не понял, зачем я так заморачивался, рассказываю. Контент дорвея предназначен для гуглобота. А Титл и Деск – для посетителя, который находит мой дорвей в серпе. ;)

Вряд ли этот скрипт заинтересует бывалых дорвейщиков, но для молодых может быть полезен. В частности, рекомендую автору поста про Notepad+++ использовать этот скрипт, вместо возни с Ctrl+H :) )

п.с. Скрипт любезно предоставлен Sunday – злой гамбургер с форума Gofuckbiz 8)

Feb 2nd, 2010 | Posted in Скрипты
  1. Feb 2nd, 2010 at 19:25 | #1

    Нифига ты не осилил..
    Напиши статью как обычным блокнотом с помощью можно проделать туже работу, что я показал в примере и я дам тебе 100$.

  2. admin
    Feb 2nd, 2010 at 19:46 | #2

    Злобный ты. Я тебе скрипт подарил, а ты тут огрызаешься.

  3. Feb 2nd, 2010 at 20:40 | #3

    Ну спасибо. :)

  4. Feb 2nd, 2010 at 23:53 | #4

    Автор поста про Notepad++ видимо хотел сказать, что не во всех бесплатных текстовых редакторах в «Замене» есть поддержка регэкспов. Очень удобная и мощная вещь при массовой обработке файлов, ну и соответственно при должном умении регулярно выражаться :) Всегда пользуюсь этим редактором … когда не под линухом.

  5. Feb 24th, 2010 at 19:49 | #5

    Тоже пользуюсь Notepad++, но в плане СЕО его вроде никак не получится применить :) – мощный и удобный текстовый редактор.

  6. May 1st, 2010 at 00:26 | #6

    Спасибо! Интересно будет попользоваться данным скриптом. Нигде раньше подобного не встречал.

  7. Jul 14th, 2011 at 09:49 | #7

    Да, идея четкая, вот только для очень узкого круга специалистов)

  8. Дмитрий
    Oct 17th, 2011 at 06:12 | #8

    Здравствуйте, а проблему с кодировкой разных сайтов как решить не подскажите?

  9. Nov 5th, 2011 at 04:48 | #9

    Notepad++ вообще супер прога, она очень сильно помогает в работе с сайтом. Спасибо за скрипт

Leave a comment

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Я не робот.

Subscribe without commenting

eXTReMe Tracker