Парсер Заголовков и Описаний

Написано

Нашел в своем rss-ридере пост «Notepad++ как инструмент для SEО«. Не понял, что автор хотел сказать… Наверное, рассказ про «Замену» (Ctrl+H), которая есть во всех текстовых редакторах. Но не это главное. Главное (почему я осилил написание этого поста) — вспомнил, что завалялся на моем винте скрипт, который умеет выдирать содержимое тегов title и meta-description из списка данных ему сайтов. Собственно, вот он:

<?php
ob_implicit_flush();
$urls = file("urls.txt");
$file_titles = fopen("titles.txt", "a");
$file_descs = fopen("descriptions.txt", "a");
$pattern1 = "/<title>(.*?)<\/title>/is";
$pattern2 = "/<meta name=(\"|')description(\"|') content=(\"|')(.*?)(\"|')(.*?)>/is";
foreach ($urls as $one_url)
{
    $html = file_get_contents(trim($one_url));
    preg_match($pattern1, $html, $matches);
    fwrite($file_titles, $matches[1]."\n");
    preg_match($pattern2, $html, $matches);
    fwrite($file_descs, $matches[4]."\n");
    echo $one_url . " done.<br />";
}
fclose($file_titles);
fclose($file_descs);
?>

Вроде как, всё понятно:
— в файле urls.txt находится список сайтов, из которых требуется выдирать титлы и дески;
— в файл titles.txt складываются заголовки сайтов;
— в файл descriptions.txt складывается содержимое meta-description.

«Зачем всё это надо» — спросите вы! Лично я использовал этот скрипт следующим образом. В одной из отраслей онлайн-бизнеса, где безредиректные дорвеи очень хорошо себя чувствуют, есть очень много похожих друг на друга сайтов. Этим скриптом я выдирал титлы/дески из этих сайтов, бегло чистил от мусора, и конечный файл подключал к своему генератору дорвеев. Дорген в теги title и meta-desc подставлял сначала нужный ключевик, а после титл и деск, рандомно вырванный из файлов titles.txt и descriptions.txt.
Если еще кто-нибудь не понял, зачем я так заморачивался, рассказываю. Контент дорвея предназначен для гуглобота. А Титл и Деск — для посетителя, который находит мой дорвей в серпе. 😉

Вряд ли этот скрипт заинтересует бывалых дорвейщиков, но для молодых может быть полезен. В частности, рекомендую автору поста про Notepad+++ использовать этот скрипт, вместо возни с Ctrl+H :))

п.с. Скрипт любезно предоставлен Sunday — злой гамбургер с форума Gofuckbiz 8)

02.02.2010

MarafoN

Нифига ты не осилил..
Напиши статью как обычным блокнотом с помощью можно проделать туже работу, что я показал в примере и я дам тебе 100$.

Ответить
02.02.2010

MarafoN

Ну спасибо. 🙂

Ответить
02.02.2010

hib

Автор поста про Notepad++ видимо хотел сказать, что не во всех бесплатных текстовых редакторах в «Замене» есть поддержка регэкспов. Очень удобная и мощная вещь при массовой обработке файлов, ну и соответственно при должном умении регулярно выражаться 🙂 Всегда пользуюсь этим редактором … когда не под линухом.

Ответить
24.02.2010

Sosnovskij

Тоже пользуюсь Notepad++, но в плане СЕО его вроде никак не получится применить 🙂 — мощный и удобный текстовый редактор.

Ответить
01.05.2010

Анатолий

Спасибо! Интересно будет попользоваться данным скриптом. Нигде раньше подобного не встречал.

Ответить
14.07.2011

Markintalk

Да, идея четкая, вот только для очень узкого круга специалистов)

Ответить
17.10.2011

Дмитрий

Здравствуйте, а проблему с кодировкой разных сайтов как решить не подскажите?

Ответить
05.11.2011

Sanchez

Notepad++ вообще супер прога, она очень сильно помогает в работе с сайтом. Спасибо за скрипт

Ответить
01.11.2016

aleksey

не работает!

Ответить
16.04.2018

Мария (itis-easy.ru)

У меня тоже что то не работает, попробовала.

Ответить