Как вывести html как текст: Как отобразить теги на веб-странице?

>]+>», «», data, flags=re.S) print(res)

вывод:

    
       
       Абзацы
    
    
        Абзац - отрезок письменной речи, состоящий из нескольких предложений.
        Выделение фразы в особый абзац  усиливает падающий на него смысловой акцент.
        Для выделения абзаца его,  помимо новой строки, печатают со строки красной,  то есть отделяют вертикальным отступом  от соседних абзацев и/или делают абзацный отступ.

PS я исходил из того, что это задачка по регулярным выражениям. Если же это реальная задача по парсингу/обработке HTML, тогда стоит воспользоваться специально разработанным для этого инструментом — BeautifulSoup:

import requests
from bs4 import BeautifulSoup
r = requests.get(url)
soup = BeautifulSoup(r.text)
text = soup.get_text()

Попробуйте модуль bleach:

# pip install bleach
import bleach
html = '<p><span>is not <b><span>allowed</span></b></span></p>'
print(bleach.
clean(html, tags=[], strip=True)) # is not allowed

Зарегистрируйтесь или войдите

Регистрация через Google

Регистрация через Facebook

Регистрация через почту

Отправить без регистрации

Почта

Необходима, но никому не показывается

Отправить без регистрации

Почта

Необходима, но никому не показывается

Нажимая на кнопку «Отправить ответ», вы соглашаетесь с нашими пользовательским соглашением, политикой конфиденциальности и политикой о куки

Вывод текста без HTML — Вопрос от rgetValue

  • Вопросы
  • Горячие
  • Пользователи
  • Вход/Регистрация

>

Категории вопросов

Задать вопрос +

Основное

  • Вопросы новичков (16474)
  • Платные услуги (2116)
  • Вопросы по uKit (81)

Контент-модули

  • Интернет-магазин (1431)
  • Редактор страниц (236)
  • Новости сайта (498)
  • Каталоги (805)
  • Блог (дневник) (111)
  • Объявления (295)
  • Фотоальбомы (433)
  • Видео (255)
  • Тесты (60)
  • Форум (576)

Продвижение сайта

  • Монетизация сайта (219)
  • Раскрутка сайта (2451)

Управление сайтом

  • Работа с аккаунтом (5311)
  • Поиск по сайту (426)
  • Меню сайта (1765)
  • Домен для сайта (1531)
  • Дизайн сайта (13463)
  • Безопасность сайта (1474)
  • Доп.
    функции (1306)

Доп. модули

  • SEO-модуль (225)
  • Опросы (63)
  • Гостевая книга (99)
  • Пользователи (431)
  • Почтовые формы (318)
  • Статистика сайта (197)
  • Соц.
    постинг (212)
  • Мини-чат (91)

Вебмастеру

  • JavaScript и пр. (644)
  • PHP и API на uCoz (234)
  • SMS сервисы (10)
  • Вопросы по Narod. ru (427)
  • Софт для вебмастера (39)
  • Вопросы
  • Вопросы новичков
  • Вывод текста без HTML
  • html
  • блог
  • вывод
  • информер
  • api
| Автор: rgetValue | Категория: Вопросы новичков

голоса: 0

 

Лучший ответ

Можно, но тогда вы лишитесь возможности стилизовать текст и оформление.

| Автор: Sentimo
Выбор ответа лучшим | | Автор: rgetValue

. ..

: Элемент Output — HTML: Язык гипертекстовой разметки

HTML-элемент — это элемент-контейнер, в который сайт или приложение может вводить результаты вычислений или результат действия пользователя.

Этот элемент включает глобальные атрибуты.

для

Разделенный пробелами список идентификаторов других элементов, указывающий, что эти элементы внесли вклад в входные значения (или иным образом повлияли) на вычисление.

форма

Элемент

, с которым нужно связать выходные данные (его владелец формы ). Значение этого атрибута должно быть id из в том же документе. (Если этот атрибут не установлен, связан со своим предком элементом, если таковой имеется.)

Этот атрибут позволяет связать элементов в s в любом месте документа, а не только внутри . Он также может переопределить элемент-предок .

имя

Имя элемента. Используется в form.elements API.

Значение , имя и содержимое НЕ передаются во время отправки формы.

В следующем примере форма предоставляет ползунок, значение которого может варьироваться от 0 и 100 и элемент , в который можно ввести второе число. Два числа складываются вместе, и результат отображается в элементе каждый раз, когда изменяется значение любого из элементов управления.

 
   +
   =
  60

 

Многие браузеры реализуют этот элемент как регион aria-live . Таким образом, вспомогательная технология будет объявлять о результатах взаимодействия с пользовательским интерфейсом, размещенных внутри нее, не требуя переключения фокуса с элементов управления, которые производят эти результаты.

Категории контента Потоковое содержание, фразовое содержание, перечисленный, маркируемый, сбрасываемый формоассоциированный элемент, осязаемое содержание.
Разрешенный контент Фразы содержания.
Отсутствие тега Нет, начальный и конечный теги обязательны.
Разрешенные родители Любой элемент, принимающий фразовое содержание.
Неявная роль ARIA статус
Разрешенные роли ARIA Любой
Интерфейс DOM HTMLOutputElement
Спецификация
HTML Standard
# O-Output-Element

BCDEM. Включите JavaScript для просмотра данных.

Последнее изменение: , участниками MDN

Преобразование HTML в форматированный обычный текст с помощью Lynx

Контент

  • 1 Цель
  • 2 Сценарий
  • 3 Метод
  • 4 Альтернативы
    • 4.1 Использование Lynx
    • 4.2 Использование ссылок

Протестировано на

Debian (Etch, Lenny, Squeeze)
Ubuntu (Lucid, Maverick, Natty, Truety, Trusty, Trusty, Trusty, Trusty, Trusty, Trusty, Trusty, Trusty, Trusty)
.0094

Для отображения HTML-документа в виде обычного текста с учетом разметки, где это возможно.

Предположим, у вас есть HTML-документ с именем input.html . Вы хотите отобразить его как текстовый файл с именем output. txt .

Одним из способов отображения HTML в виде текста является использование текстового веб-браузера, такого как w3m, Lynx или Links. W3m рекомендуется здесь, потому что он несколько лучше поддерживает работу с таблицами, однако лучший выбор может варьироваться в зависимости от рабочей нагрузки и предпочтительного стиля вывода.

Обычно w3m работает как интерактивный веб-браузер, но его можно запустить неинтерактивно с помощью опции -dump :

w3m -dump input.html > output.txt
 

При необходимости имя входного файла можно заменить URL-адресом. Вывод записывается в stdout , но может быть перенаправлен в файл, как в примере выше.

По умолчанию ширина вывода составляет 80 символов. Его можно изменить с помощью опции -cols :

w3m -dump -cols=120 input.html > output.txt
 

Выходная кодировка по умолчанию выбрана в соответствии с локалью. Если выходные данные, вероятно, будут использоваться на машине, отличной от той, на которой они были сгенерированы, возможно, желательно, чтобы кодировка была указана явно. Это можно сделать, изменив параметр display_charset с помощью параметра -o :

w3m -dump -o display_charset = UTF-8 input.html > output.txt
 

Использование Lynx

Другим текстовым браузером, который можно использовать для этой задачи, является Lynx. Как и w3m, имеет неинтерактивный режим, который выбирается опцией 9.0004 — дамп :

рысь -dump input.html > output.txt
 

Ширина вывода по умолчанию составляет 80 символов, а кодировка вывода по умолчанию — ISO-8859-1. Ширину можно изменить с помощью опции -width :

lynx -dump -width 120 input.html > output.txt
 

и кодирование с использованием опции -display_charset :

lynx -dump -display_charset UTF-8 input.html > output.txt
 

Использование ссылок

Третий возможный браузер, который можно использовать, — это Links. Опять же, это неинтерактивный режим, выбранный опцией 9.0004 — дамп :

 ссылки - дамп input.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *