Verification HTML Code

Цель исследования:

определить последовательности HTML разметки, которые затрудняют или делают не возможным правильную индексацию текста документа.

Проблематика:

Поисковые системы ранжируют сайты в первую очередь на основании текстового соответствия поисковому запросу и множеству других параметров.
Если сайт не ищется или находится на низких позициях по конкретному поисковому запросу, то либо на сайте нет текста = поисковому запросу, либо этот текст не распознан поисковой системой.
Ошибочно написанные без пробелов фразы могут встретиться в тексте сайта, но ошибки в разметке текста страницы также приводят к появлению склеенных слов и количество таких склеенных слов значительно.

Проблематика: примеры

Проблематика: поисковые системы

Поисковые системы учитывают при ранжировании правописание, учитывают грамматические, орфографические, стилистические ошибки, занижая позиции у некачественных безграмотных сайтов.
Обфускация кода – метод, используемый спамерами для скрытия стоп слов от автоматической фильтрации. Анализ кода осуществляется алгоритмами поисковых систем, отслеживающими зараженные сайты, обфускация кода один из сигналов, по которому принимается решение, что сайт заражен.

Проблематика: поисковые системы

Видео от Мэта Катса

Проблематика: итог

Получается что ошибки в тексте, ошибки в тексте связанные с разметкой затрудняют корректную индексацию и негативно влияют на ранжирование сайта. Необходимо выявить какие HTML теги приводят к склеиванию слов. Дополнением к исследованию будет проверка последовательностей ( . , ? ! : ; \n \t & nbsp;) с разметкой которые также приводят к склейке слов.

Исследование:

Фразы:

Из Национального корпуса русского языка, было взято 1000 биграмм (пар слов) наиболее часто встречающихся в корпусе.

Исследование: Теги

HTML	HTML	HTML	HTML	HTML
<a>	<abbr>	<acronym>	<b>	<basefont>
<big>	<br>	<cite>	<code>	<dfn>
<em>	<font>	<i>	<kbd>	<q>
<s>	<samp>	<small>	<span>	<strike>
<strong>	<sub>	<sup>	<tt>	<u>
<var>	<address>	<blockquote>	<center>	<div>
<h1>	<h2>	<h3>	<h4>	<h5>
<h6>	<ol>	<p>	<pre>	<table>
<ul>	<article>	<aside>	<footer>	<header>
<mark>	<menu>	<nav>	<section>	<time>

Исследование:

Знаки разделители

!
?
,
.
:
;
\n
\t
& n b s p ;

Исследование:

Последовательности тегов

<tag>слово1</tag>?<tag>слово2</tag>
<tag>слово1?<tag>слово2</tag></tag>

Исследование:

Проверочные запросы

Yandex
- слово1слово2 url:страница
- слово1 слово2 url:страница
Google
- слово1слово2 inurl:страница
- слово1 слово2 inurl:страница

На начальном этапе использовали проверочные запросы без уточнения. Результаты наблюдений по ним считаем не корректными, т.к. поисковые системы делают предобработку запросов, и показывают результат в случаях частичного совпадения с искомым запросом.

Исследование:

Проверочные запросы

Yandex
- "слово1слово2" url:страница
- "слово1 слово2" url:страница
Google
- "слово1слово2" inurl:страница
- "слово1 слово2" inurl:страница

Было принято решение использовать уточняющую формулировку в проверочных запросах к поисковым системам.

Результат проведенного эксперимента:

Выбранные для исследования теги относятся к следующим типам:

Строчные
Блочные
HTML5

Разделители можно группировать следующим образом:

Пропущен пробел
Знаки препинания
Специальные разделители

Результат проведенного эксперимента:

Индексация текста поисковыми системами в выделенных группах сходна, за некоторыми исключениями.
Индексация цепочек текста и тегов (вложенные, последовательные) одинакова.

Результат проведенного эксперимента:

Блочные элементы:

<address>, <blockquote>, <center>, <div>, <h1>, <h2>, <h3>, <h4>, <h5>, <h6>,
 <ol>, <p>, <pre>, <table>, <ul>.

Ошибка в разметке текста блочными элементами прячет всю фразу, взятую в «» от поисковой системы. Нет результатов ни с пропуском пробела, ни со знаками препинания, ни с символами переноса строки, табуляция, неразрывный пробел.

При этом поисковые системы находят каждое отдельное слово фразы. Таким образом мы полагаем что блочные элементы делят слова разделяя сам текст на блоки, каждое отдельное слово попадает в соседние блоки, поэтому не находятся по строгим запросам, и видны поисковой машине по обычному запросу без «»

Результат проведенного эксперимента:

HTML5:

Пропущен пробел: Yandex находит слово1слово2, и не находит слово1 слово2

<mark>слово1</mark><mark>слово2</mark>
<mark>слово1<mark>слово2<mark></mark>
<time>слово1</time><time>слово2</time>
<time>слово1<time>слово2</time></time>

Знаки препинания: Yandex находит слово1слово2, И при этом находит последовательность слово1[знак препинания]слово2

<mark>слово1</mark>[знак препинания]<mark>слово2</mark>
<mark>слово1[знак препинания]<mark>слово2<mark></mark>
<time>слово1</time>[знак препинания]<time>слово2</time>
<time>слово1[знак препинания]<time>слово2</time></time>

Специальные разделители: Yandex НЕ находит слово1слово2, и находит слово1 слово2 (написано через пробел)

<mark>слово1</mark>[разделитель]<mark>слово2</mark>
<mark>слово1[разделитель]<mark>слово2<mark></mark>
<time>слово1</time>[разделитель]<time>слово2</time>
<time>слово1[разделитель]<time>слово2</time></time>

<article>, <aside>, <footer>, <header>, <mark>, <menu>, <nav>, <section>, <time>.

Все ошибки в тегах HTML5 для Google делают фразу "" не видимой. Поисковая система не показала результата ни с одним вариантом размещения.

Yandex в основном относится к тегам HTML5 аналогично блочным, за исключением mark и time

PRESS P

Результат проведенного эксперимента:

Строчные элементы:

И на последок самое интересное ПРОПУЩЕН ПРОБЕЛ

Yandex – склеивает слова, находит «слово1слово2» и не находит «слово1 слово2», за исключением тега <BR>. Тег <BR> однозначно делит слова, Yandex находит «слово1 слово2» и не находит «слово1слово2».

Google:

Ошибки в разметке тегами - a, abbr, acronym, cite, code, dfn, kbd, q, samp, span, sub, sup, var – однозначно разделяют слова, google находит «слово1 слово2» и не находит «слово1слово2»
Ошибки в разметке тегами - b, big, em, font, i, s, small, strike, strong, tt, u – приводят к склейке слов, google находит «слово1слово2» и не находит «слово1 слово2».

<a>, <abbr>, <acronym>, <b>, <basefont>, <big>, <br>, <cite>, 
<code>, <dfn>, <em>, <font>, <i>, <kbd>, <q>, <s>, <samp>, 
<small>, <span>, <strike>, <strong>, <sub>, <sup>, <tt>, <u>, <var>.

Наибольшее количество различных вариантов индексации встретилось именно на строчных элементах. Именно строчные элементы зачастую используются для стилевого оформления текста, и именно они требуют повышенного внимания.

Стоит сразу отметить, что к тегам basefont, br Google относится аналогично блочным. В силу особенностей назначения этих тегов, такое отношение можно считать оправданным.

Специальные разделители – однозначно разделяют слова. Поисковые системы находят «слово1 слово2» и не находят «слово1слово2».
Знаки препинания – позволяют найти «слово1 слово2» и последовательность «слово1[знак препинания]слово2».

PRESS P

Интересное параллельные наблюдения:

Yandex

После точки в предложении обязательно ставить пробел, иначе предложение не будет разделено поисковой системой на пассажи, будет синтаксическая ошибка.

Подведение итога:

В ходе проведенного исследования выявлены новые направления, для более детального изучения особенностей индексации и ранжирования текста поисковыми системами,
В связи с переходом Mail.ru полностью на свой поисковый движок, есть смысл провести анализ индексации тестовых страниц и по этой поисковой системе,
Интересно выяснить размер штрафа странице, или сайту за ошибки в разметке,
Мы понимаем, что точные ответы на определенные вопросы получить будет либо сложно, либо не возможно.

Вывод:

Блочные элементы:

Мы считаем, что проблемы склейки слов на блочных элементах не существует, т.к. страницы находятся по не строгим запросам.

HTML 5:

Необходимо использовать разделители для тегов <mark> и <time>, для предотвращения склейки слов. После знаков препинания должен быть пробел.

Строчные элементы:

Необходимо использовать разделители, для предотвращения склейки слов. Неразрывный пробел для Yandex не однозначный разделитель. После знаков препинания должен быть пробел.

Разделители:

Пробел, перенос строки, табуляция, <BR>

После знаков препинания обязательно должен быть пробел.

Для нахождения ошибок надо провести рефакторинг HTML кода сайтов,
Эти действия однозначно повысят текстовое соответствие поисковым запросам. Грамотно написанный текст позволит получить больше посетителей по различным вариантам низкочастотных запросов, тем запросам, по которым сейчас сайт не дает ни какого ответа. Повысит качество сайта,
Но сделать это не просто!

PRESS P

Вывод:

Ошибка в HTML коде может быть ложкой дегтя в бочке меда

Инструмент:

Нами создана программа для нахождения описанных выше ошибок в строчных элементах HTML разметки страниц.

<Спасибо за внимание!>

Правописание

<DMO>