Архив рубрики: ‘Регулярные выражения’

Как я прикручивал php мануал (часть 2)

Прошу прощения за продолжительный перерыв, но к сожалению затянула рутина и работа, просто физически не было времени продолжать писать здесь.
Итак сегодня я хочу продолжить свой рассказ о том как я прикручивал мануал на данный ресурс.
В прошлой статье я описал, как возможно преобразовать html мануал под свои нужды. Надеюсь, что вы разобрались, что к чему. Ну что ж продолжим.
Мне требовалось интегрировать страницу в тело вордпресса. Они уже были подготовлены для этого, но полностью страница html мне была не нужна. Надо было выдернуть лишь часть ее внутри тэгов body. Вот тут-то мне и понадобились регулярки. Нет можно было конечно не осваиваться с регулярками, а взять мою любимую функцию explode и с ее помощью все сделать, но это было бы нудно, и, некрасиво. Согласитесь гораздо приятнее, когда весь код выглядит «элегантно». Вот примерно такая функция работает у меня при запросах к мануалу php:


<?php

function HTML2WPDo()

{

    
preg_match('@([0-9A-Za-z_\.\s]+)@i',$_POST['search'],$search);

    
$search $search[1];

    
preg_match('@([\d\w_\.\s\-]+)@i',urldecode($_SERVER['QUERY_STRING']),$page);

    
$page $page[1];

    
//print $page;

    
$dir get_option('dir4html');

    
$abs_dir $_SERVER['DOCUMENT_ROOT'].'/'.$dir;

    if(
$search)

    {

        
$search str_replace('_','-',$search);

        
$content_file 'function.'.$search.'.html';

        if(
file_exists($abs_dir.$content_file))

        {

            
$man_func file_get_contents($abs_dir.$content_file);

        }

        else 
$content 'Произошла ошибка. Функция с подобным именем не найдена!';

    }

    else 

    {

        if(!
$page$page 'index';

        if(
file_exists($abs_dir.$page.'.html'))$man_func file_get_contents($abs_dir.$page.'.html');

    }

    
$count preg_match("|<body([^>]*)>(.*?)<\/body\s*>|si",$man_func,$func_body);

    if(
$count

    {

        
$content $func_body[2];

        
$func_body '';

    }

    return 
$content;    

}

?>

Что же она может? Данный алгоритм может как искать по имени функции, так и просто отдавать требуемые страницы. Хочу заметить что сделано все достаточно примитивно, ибо мне не нужны были какие-то изыски, единственное на данный момент что я хочу доработать это чтобы для каждой страницы в мануале генерился свой title и meta-description, но пока к сожаленеию не дошли руки. Ну это все на будущее, а теперь рассмотрим то что есть.
Первая строка:


<?php

preg_match
('@([0-9A-Za-z_\.\s]+)@i',$_POST['search'],$search);

?>

Здесь в строке поиска (элемент массива POST с ключом search) мы смотрим чтобы значение соответствовало шаблону(только цифры, латинские символы, точка, пробел, нижнее подчеркивание). Результат в виде массива помещается в переменную $search. Если выражение будет соответствовать то первый элемент массива как раз и будет содержать его.
Дальше подобную же проверку проходит элемент глобального массива $_SERVER['QUERY_STRING'] (для запросов к различным страницам мануала используется именно этот элемент).
После чего нам требуется получить дирректорию в которой лежит мануал. Так как все написано под вордпресс то я воспользовался функцией WP которая получает сохраненные в админке данные(дирректорию в данном случае).


<?php

$dir 
get_option('dir4html');

$abs_dir $_SERVER['DOCUMENT_ROOT'].'/'.$dir;

?>

Далее если переменная $search не пустая-проверяем существует ли файл с такой функцией (все файлы мануала имеют удобное для нас имя. function.имя функции.html), если такой файл существует-читаем его в строку.
В ином случае:
если не задана $page выдаем индекс;
иначе ищем файл с таким названием и если существует читаем в строку.
Ну, а дальше самое «сладкое»:


<?php

$count 
preg_match("|<body([^>]*)>(.*?)<\/body\s*>|si",$man_func,$func_body);

?>

регулярное выражение. Так как у боди могут быть параметры используем ([^>]*)
т.е любой символ, но не «>» и данные символы могут повторяться 0 или более раз (благодаря «*»).
(.*?) – это означает любой символ любое количество раз. Ну и ищем все это в переменной $man_func и пишем в $func_body. Таким образом $func_body[2] будет содержать именно то, что нам надо. (почему читайте в предыдущей статье цикла) Ну и собственно возвращаем результат обработки:


<?php

return $content;

?>

Все готово. Функция простая как топор. :) Пишите свои комментарии, пожелания, указывайте на замеченные недостатки. Всегда буду рад обсудить.

Регулярные выражения в PHP или как я прикручивал мануал (часть 1)

Долго думал стоит ли начинать писать статью на данную тему…и в конце концов решил почему нет? Я не очень хорошо знаю регулярные выражения, но то что у меня уже получилось-этим я могу поделиться с читателями. Заранее просьба к гуру, давно и хорошо знающим регулярки не ругать сильно данную статью и просто если есть возможность указать на недочеты. Ну это была преамбула. Приступим.
Я давно хотел прикрутить на мой блог PHP мануал в формате html дабы проще было ссылаться на различные функции. Но все как-то руки не доходили. И вот наконец-то вырвался из рутины и решил, что надо просто сесть и написать.
Просто вставить php мануал на сайт было не интересно да и просто стремно. Ведь ман был без дизайна, обычные белые страницы. Мне нужно было интегрировать его в CMS. Тут же я столкнулся с первой проблемой: я никогда не ковырялся в коде WordPress, ну вот не довелось как-то. Ну, что нам стоит дом построить, нарисуем будем жить. :) Дабы сэкономить свое время, я ведь не собираюсь досконально изучать данную систему чтобы постоянно писать под нее плагины, я просто взял несколько плагинов, которые уже были подключены у меня и отлично работали и стал разбираться как же там все устроено. Оказалось все достаточно просто. Ну описывать что и как там я не буду. Ибо статья посвящена не этому(но в дальнейшем обязательно все опишу ;) ). Итак есть мануал, в html форме, есть желание прикрутить его на сайт, и мы разобрались как устроен WP(ну это конечно громко сказано, но все же).
Во первых я решил что в $_SERVER['QUERY_STRING'] будет содержаться имя файла к которому в данный момент обращается пользователь. Т.е например вы ищете информацию о функции substr на сервере файл с информацией о данной функции имеет путь /manual/function.sunstr.html чтобы обратиться к нему используем адрес /php-manual/?function.substr. Ну вот так вот все достаточно просто. Но вот все линки в html файлах старые (/manual/function.sunstr.html) а мне надо было чтобы они соответствовали моей системе. Что ж…вариантов два. Преобразовывать на лету регуляркой (apache или php не важно) или преобразовать один раз. Я решил что ресурсы сервера не бесконечны (преобразование на лету всегда неслабо грузило проц). Значит надо преобразовать единожды… Тут мне помогут регулярные выражения. Надо сказать, что знаю я их весьма поверхностно. Ну что ж…как говорится: «Иду на вы!».
И я начал свои изыскания. Могу сразу сказать, что промучался я пол дня, прежде чем получил нормальный результат, ну ничего тяжело в ученье-легко в бою. Потом будет проще. Вот что у меня получилось:


<?php

$arr_files 
glob('./manual/*.html');

$i 0;

foreach (
$arr_files as $filename)

{

    
$file_data file_get_contents($filename);

    
$file_data preg_replace('!<a(.*?)href="([^"]*)\.html((\#([^"]*))*?)"!is',

    
'<a\1href="?\2\3"',$file_data);

    if(
file_put_contents($filename,$file_data))

    
$i++;

}

print 
'Изменено '.$i.' сстраниц';

?>

Итак что же здесь написано? Первый пункт чтение дирректории с файлами. В этом нам помогает функция glob. Она получает все имена файлов по маске. В данном случе все файлы с расширением .html. Результат работы данной функции-массив данных с именами файлов. Теперь в цикле перебираем данный массив. В этом нам помогает foreach. Читаем файл в переменную-строку(file_get_contents). А вот теперь начинается самое интересное. Обработка ссылки и замена. Функция preg_replace-специальная функция регулярок, она производит поиск по тексту и замену соответствующего шаблону (регулярке) выражения на то что мы хотим.
Во первых надо помнить что любое регулярное выражение обрамляется либо парными символами (скобками например такими[]), либо одинаковыми символами, например как у меня !…!.
Вне данных символов(а точнее после) ставятся модификаторы. В моем случае модификаторы is. Модификатор i означает, что поиск ведется без учета регистра символов..а s здесь для того чтобы точка(которая обычно означает любой символ кроме перевода строки) означала и перевод строки. Таким образом мы пишем часть выражения (<a(.*?)) означающую что после тэга a может стоять любое количество любых символов. Звездочка означает повторение предыдущего символа 0 или более раз, а знак вопроса умеряет ее жадность). После чего пишем href="([^"]*)\.html((\#([^"]*))*?)"
([^"]*) означает что возможны любые символы, но не кавычки. Т.е знак ^ в квадратных скобках можно перевести как «не». Далее идет расширение файла в линке (\.html). Так как точка это спец символ ее надо экранировать обратным слэшем (так же как и далее экранируется решетка). Далее пользуемся тем же приемом что и ранее (([^"]*)) и указываем что выражение с решеткой может повторяться 0 или более раз. Это все конечно весьма сложно для понимания с нуля поэтому советую заглянуть на сайт pcre.ru дабы было понятнее. Внутри регулярки все что в круглых скобках мы получаем при поиске записывается в некий массив. Данные из которого мы можем вытянуть посредством \1\2\3 как это описано в строке замены (<a\1href="?\2\3").
Ну надеюсь в общем и целом вы разобрались что к чему и уловили основную суть. Собственно после этого просто запускаем скрипт и проверяем, что мы получили. Все линки должны переконвертироваться так, как нам надо. На этом я пожалуй закончу данную статью, дабы не перегружать читателя информацией и не валить все в одну кучу. Но прикручивание мануала на этом далеко не закончено и в скором времени (я надеюсь) выйдет продолжение. Надеюсь что данная информация была вам интересна и полезна.