Невидимая буква: Текст, которого нет / Habr – Невидимый символ

Как выявить невидимые символы в тексте на сайтах?

Невидимые символы (символы нулевой ширины, непечатаемые, zero-width  и пр.) нынче поддерживают все популярные браузеры. Такие символы нередко содержаться в текстовой части контента множества веб-страниц.

Они действительно незаметны, и пользователь, как правило, вообще не знает, что они где-то есть, если не озадачен их поиском специально.

И при грамотном подходе такая «невидимость» может быть очень выгодной.

К примеру, невидимые символы в сочетании со несложным скриптом (о нём как-то в другой раз), прописывающим ник зарегистрированного юзера, могут работать в качестве маркеров, благодаря которым автор оригинального текста может легко отследить, кто и когда скопировал информацию, и куда она потом ушла.

Просто для наглядности. Вот …

.​.​.два тек​с​товых фрагмента, кот​орые н​а самом деле​ раз​ные, х​отя и выгл​я​д​ят ​одинако​выми​.

...два текстовых фрагмента, которые на самом деле разные, хотя и выглядят одинаковыми.

Скопировать можно любой, скрытых символов вы не увидите ни в одном. И даже если первый фрагмент вдруг окажется в окне текстового редактора с функцией автоматической проверки орфографии, то вы, быть может, обнаружите только характерные подчеркивания. Притом непонятные, поскольку они как бы указывают на возможные ошибки в некоторых словах, но сами слова написаны нормально.

Но даже тестовый редактор ничего подозрительного не заметит, если невидимые символы содержаться не внутри слов, а расставлены в начале и/или в конце слов.

Отсюда — вопрос:

как выявить невидимые символы в тексте?

А вот для этого нужен специальный редактор для проверки таких текстов с опцией поиска «символов нулевой ширины». Можем порекомендовать, во-первых, DiffChecker.

Это онлайн-сервис. Простой и бесплатный, но полезный. Копируем наши текстики, переходим по ссылке на сайт DiffChecker, вставляем их в левое окошко редактора и получаем следующую «картину маслом»:

Как выявить невидимые символы в тексте на сайтах? - #интернетКак выявить невидимые символы в тексте на сайтах? - #интернет

Нижний фрагмент выглядит «чистым», зато в верхнем, как видим, есть целая куча маленьких точек (14 штук). Вот они и обозначают те самые «символы нулевой ширины».

Во-вторых, для браузера Chrome давно придумано специальное расширение, которое называется Replace zero-width characters with emojis (линк), и которое, как не трудно догадаться, заменяет невидимые символы в текстах на веб-страницах на смайлики. Работает прога в онлайн-режиме, потому для проверки текста его никуда копировать не нужно, что в ряде ситуаций очень удобно.

Обход антиплагиата с "невидимым символом" и его обнаружение

Я, помнится, уже писал, что работаю техническим редактором в научном журнале. Причем одно из требований к материалам, которые мы принимаем — это оригинальность. На самом деле статьи проходят довольно сложную проверку, однако один из начальных ее рубежей — это известная многим система Антиплагиат. Мы уже сталкивались с попытками эту систему обмануть, я писал об этом в статье О попытке обхода системы Антиплагиат. Ну а это, выходит, вторая часть.

На этот раз был использован более хитрый (но такой же очевидный) способ. Однако шансы на успех у него, возможно, даже и были. Ибо статья прошла предварительную проверку, верстку (а прошлую попытку, как мы помним, удалось заметить именно на верстке), и была изобличена уже в последний момент, попав ко мне.

Что же натолкнуло меня на мысль о том, что требуется дополнительная проверка? На самом деле, существует масса косвенных признаков того, что текст не оригинальный.

Поначалу все было вообще хорошо и красиво, однако после того, как я придал заголовку нужное форматирование (в частности — размер шрифта 18), он стал выглядеть примерно так:

Пример заголовка

Если вы еще не поняли, что меня насторожило, внесу конкретику:

Пример заголовка с пояснениями

 

Да. Вот эти вот интервалы. Мелочь, казалось бы, но когда в день через твои руки проходит по нескольку статей, всякие необычности становятся особенно заметны. Поигравшись с продвинутыми настройками шрифта, от интервалов я не избавился, и стал копать дальше. Начал я с того, что скопировал заголовок в блокнот. Вышло вот что:

Тот же текст в блокноте

Ну вот, казалось бы и все ясно. Пробелы. Так-то оно так, да не так.  Путем нехитрых манипуляций довольно быстро удалось установить, что это не пробелы. Для начала я выделил этот символ в Word. И он выделился:

Выделен паразитный символПри этом Word в статусбаре выдал такой вот интересный вердикт:

Статусбар

Мда. Не знаю, производственная ли это необходимость, или юмор тех, кто придумал этот способ (речь об албанском языке). Но между тем… Разумеется, следующее что я сделал, это попробовал «покрасить» символ в черный цвет, в надежде на то, что сейчас он белый, а после применения цвета станет видим. Однако это мне благополучно не удалось. Он  так и остался невидимым. Поэтому пришлось взяться за скальпель

инструмент поиска и замены. Скопировав паразитный символ в буфер обмена, я вставил его в строку «найти» этого инструмента. В строку «заменить на» я забил сочетание символов, которое вряд ли встретится в статье. Не мудрствуя лукаво — qweqwe.

Получилось вот так:

Пробуем заменить невидимый символ на что-нибудь

Пусть Вас не смущает, что верхняя строка пуста. Символ там есть. Если установить в нее курсор, и подвигать стрелочками, это станет очевидно. Ну а добавит уверенности нажатие кнопки «Заменить все»:

Количество найденных символов

Ого! Да эти символы, похоже, были чуть ли не в каждом втором слове! После проведения экзекуции, заголовок стал выглядеть так:

ant2-8

Ну что же, выведем его на чистую воду! Выделяю весь текст, устанавливаю цвет шрифта черный и размер — 18. Получается вот что:

Результат

Вот так. Наши qweqwe появились во многих словах по всему тексту. Не удивительно, что Антиплагиат оценил текст как на 100% оригинальный. Почему? Да потому, что для системы невидимый паразитный символ все равно существует, разделяя слова. И при сравнении с базами данных, Антиплагиат бодро рапортует, что текст оригинальный. Конечно оригинальный — ведь в базе данных сохранен нормальный текст, без невидимых символов.

Прибегнем снова к инструменту поиска и замены, только по-другому. В верхнюю строку мы скопируем нашего албанского героя, а нижнюю просто оставим пустой. Совсем пустой. После нажатия кнопки «Заменить все» — лишние символы будут удалены. И мы сможем-таки узнать оригинальный результат предложенного текста при проверке через Антиплагиат. В нашем случае он составил 58%. Большой впрос — стоила ли игра свеч? Ведь для публикации в журнале надо хотя бы 70 — не такая уж и великая разница. Изменив немного текст, можно было добиться нужного результата.

На этом, казалось бы, можно и закончить, однако я хочу обратить внимание на некоторые интересные особенности этого метода. Начнем с простого. Обратите внимание, заголовок (а скриншоты сделаны в Word), не подчеркнут красным. Мы с Вами отлично знаем, что если в слово вставить лишнюю букву или пробел, это непременно произойдет, если только проверка орфографии включена.

 Я пока еще не разобрался, как добиться такого эффекта. Все оказалось совсем просто. Помните, я упоминал албанский язык? Если поменять язык документа на такой, средства проверки орфографии для которого не установлены, то и характерных подчеркиваний не будет.

Далее. Если вы читали первую статью, то помните, что ту попытку обхода системы можно было раскусить, просто открыв текст прямо на «Антиплагиате». Припрятанный уникальный, но бессмысленный кусок текста там был виден. Здесь же все более серьезно. Не видно не только сам символ, но и даже пробел вместо него, как мы с Вами наблюдали это в блокноте.

Ну а теперь возьмемся за скальпель и полезем в XML. Если кто не в курсе — для того, чтобы добраться до внутренностей вордовского файла, надо изменить его расширение на zip, и получившийся архив разархивировать. Внутри будет несколько папок, содержащих различные объекты, имеющиеся в файле, и собственно текст в формате XML, где и можно увидеть что-нибудь занятное в такой ситуации. Поехали:

Искомый символ в XML

Вот он, наш герой. Если честно, я надеялся найти нечто более конкретное, поэтому полез еще глубже, то есть в шестнадцатеричный код:

Шестнадцатеричный код

Где и удалось узнать, что загадочному символу соответствует код 0A20 в таблице Unicode. Символ какого-то мудреного алфавита, которого, видимо, просто-напросто нет в тех шрифтах, которые мы используем. Кстати, по ссылке этот символ в Unicode от 1993 года. В современной таблице кода 0A20 нет вообще. Вот все и встало на свои места. То есть с точки зрения большинства программ… Символ как бы есть, но в то же время, его как бы и нет.

Хитро, кончено, что сказать… Я отлично понимаю, что все мы одарены разными талантами. И вот так взять и написать полтора десятка страниц уникального текста — некоторым сложно. Если вы относитесь к таковым — попробуйте вот это. Не бесплатно конечно. Зато честно. Ну, почти.

Закончить статью, как и предыдущую, я хочу мыслями собственно об «Антиплагиате». Да, система не совершенна, однако же, приятно видеть, что она не стоит на месте. Статья, о которой идет речь выше, попала к нам около месяца назад, и тогда «Антиплагиат» ее проглотил запросто. Теперь же, после загрузки, рядом с ней загорается восклицательный знак — «подозрительный документ». Уже ради интереса я попробовал загрузить туда текст из первой статьи и получил такой же результат. Уже неплохо.

Только вот… Многие ли докопаются до таких тонкостей, даже получив предупреждение? Боюсь, что нет.

PS. Комментарии к этой записи отключены ввиду большого количество желающих порекламировать свои услуги по обходу антиплагиата. Статья-то вроде как о том, как это дело обнаружить.

Если Вам ну очень хочется донести что-то до автора — пишите на мыло. 

PS. PS. Не пишите мне, чтобы я выслал «волшебный символ». Я с другой стороны баррикад 😉

Поделиться ссылкой:

Как написать текст перевернутыми и невидимыми буквами?

Для этого надо всать на голову и взятьневидимую ручку с невидимыми чернилами.

Если надо перевернуть текс на 90 градусов. Засовываешь текст в таблицу, щелкаешь правой клавишей, выбераешь "направление текста" , выбераешь куда повернуть. Чтобы сделать "невидимые дуквы" щелкаешь заливку цвета - "шрифт цвета" выбераешь цвет фона.

Насчет перевернутых - не знаю,а невидимый просто - в Word - Формат - Шрифт - Скрытый

И кто это придумал такую теорию? :-0<br>Невидимым в html:<br>&lt;font&gt; невидимый текст &lt;/font&gt;<br>В ворде - просто установить цвет текста в белый.<br>перевернутым сложнее...

кек (если серьёзно то вот: невидимый текст )

.    ‌‌‍‍‎‏. Источник: Скопируй поле ответа, между точками.

&#13 ; без пробела

¿кат тов удив в ьшееми ыт Тут написано - ты иммешь в виду так?

ㅤㅤㅤㅤㅤ Вот ) верх

Невидимые символы в ворде

В этой статье Вы узнаете:

Добрый день дорогие друзья. В этом уроке мы с Вами разберемся что же это функция – отображение знаков форматирования, и чем она полезна. Меня честно говоря это функция долгое время отталкивала. Я всячески пытался работать без неё. Но прошло время, и при наборе текста я стал использовать её на полную катушку.


При наборе текста в программе MS Word, мы используем большое количество символов, часть которых нам не различимы. Скрытый символ — это символ, который при обычном режиме работы программы не визуализирован. Примером может являться альтернатива пробелу – табуляция.


Все очень просто. Вам просто надо перейти во вкладку «Главная» → в группе «Абзац» нажать на иконку «Отобразить все знаки»

Или есть другой способ при сочетании клавиш CTRL+ * (* — находится строке цифр, число 8). После чего весь текст будет исполосован маленькими черными значками, а Вы сможете определить в каком месте допущены ошибки при форматировании. Например, два пробела подряд, которые в обычном режиме и не заметишь, или вместо настроенной красной строки пробелами настучали отступ.


При выключенной функции «Отобразить все знаки» текст выглядит как в обычном режиме. А при включенной функции печатать неудобно, т.к. эти символы загромождают лист, и автора, не привыкшего к этой функции, дезориентирует. Но можно в стандартных настройках Microsoft Word по умолчанию установить символы, которые будут отображаться всегда. Переходим во вкладку «Файл» → «Параметры» раздел «Экран»


Если Вы пробовали настраивать отображение скрытых символов форматирования, то возможно Вы заметили, что у этих символов разные графические изображения. Это сделано для того, чтобы Мы при форматировании текста могли различать какой знак форматирования уместен в том или ином месте, а кокой нет. Их различия Вы можете посмотреть там же где и настраивали отображение скрытых символов «Файл» → «Параметры» раздел «Экран» в группе «Всегда показывать эти знаки форматирования на экране» (см. выше).

Ну вот и всё, эта короткая статья подошла к концу. Задавайте вопросы, если они у Вас есть. Или переходите к следующим урокам MS Word:

Разрывы страниц в ворде

Как создать макрос в ворд

Ударение над буквой в ворде

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *