Neculai Fantanaru

Everything Depends On The Leader

Python: замена диакритических знаков в HTML <title> и <meta name="описание"

On April 23, 2022
, in
Python Scripts Examples by Neculai Fantanaru

Полный код можно просмотреть здесь: https://pastebin.com/1bfSidiL

Установите Python.

Код ниже заменит диакритические знаки (знаки ударения).

Точнее, такие символы, как (Ă, ă, Î, î, Ș, ș, Ț, ț, Â, â) будут заменить на (A, a, I, i, S, s, T, t, A, a) в тегах html <title></title> и < span class="text_obisnuit2"><meta name="description" контент="

import requests
import re
import os
cale_folder_html = r"d:\\Folder1"
extension_file = ".html" or ".htm"
def read_text_from_file(file_path):
   """
    Aceasta functie returneaza continutul unui fisier.
    file_path: calea catre fisierul din care vrei sa citesti
    """
   with open(file_path, encoding='utf8') as f:
       text = f.read()
       return text
def write_to_file(text, file_path):
   """
    Aceasta functie scrie un text intr-un fisier.
    text: textul pe care vrei sa il scrii
    file_path: calea catre fisierul in care vrei sa scrii
    """
   with open(file_path, 'wb') as f:
       f.write(text.encode('utf8', 'ignore'))
print('Going through folder')
amount = 1
for filename in os.listdir(cale_folder_html):
       if filename == 'y_key_e479323ce281e459.html' or filename == 'directory.html':
           continue
       if filename.endswith('.html') or filename.endswith('.htm'):
           cale_fisier_html = cale_folder_html + "\\" + filename
           html_text = read_text_from_file(cale_fisier_html)
           # preluam description
           meta_description = re.search('<meta name="description".+>', html_text)[0]
           description_pattern = re.compile('<meta name="description" content="(.*?)>')
           description = re.findall(description_pattern, html_text)
           if len(description) != 0:
               description = description[0]
               title_pattern = re.compile('<title>(.*?)</title>')
               title = re.search('<title>.+</title>', html_text)[0]
               title_text = re.findall(title_pattern, html_text)
               if len(title_text) != 0:
                   title_text = title_text[0]
               # prelucrare continut
               dict_simboluri = dict()
               dict_simboluri['&#259;'] = 'a'
               dict_simboluri['&#226;'] = 'a'
               dict_simboluri['&atilde;'] = 'a'
               dict_simboluri['&acirc;'] = 'a'
               dict_simboluri['&#x103;'] = 'a'
               dict_simboluri['&#xE2;'] = 'a'
               dict_simboluri['?'] = 'a'
               dict_simboluri['?'] = 'a'
               dict_simboluri['â'] = 'a'
               dict_simboluri['a'] = 'a'
               dict_simboluri['ã'] = 'a'
               dict_simboluri['à'] = 'a'
               dict_simboluri['á'] = 'a'
               dict_simboluri['å'] = 'a'
               dict_simboluri['ä'] = 'a'
               dict_simboluri['â'] = 'a'
               dict_simboluri['&hellip;'] = ''
               dict_simboluri['&#8230;'] = ''
               dict_simboluri['\&quot;'] = ''
               dict_simboluri['&#8211;'] = '- '
               dict_simboluri['  '] = ' '
               dict_simboluri[' '] = ' '
               dict_simboluri[' '] = ' '
               dict_simboluri['&#039;'] = '\''
               dict_simboluri['"'] = '\''
               dict_simboluri['"'] = '\''
               dict_simboluri['['] = ''
               dict_simboluri[']'] = ''
               dict_simboluri['/'] = ''
               dict_simboluri['}'] = ''
               dict_simboluri['{'] = ''
               dict_simboluri['&icirc;'] = 'i'
               dict_simboluri['&#206;'] = 'i'
               dict_simboluri['&#238;'] = 'i'
               dict_simboluri['&#xEE;'] = 'i'
               dict_simboluri['&#xCE;'] = 'i'
               dict_simboluri['&#206;'] = 'i'
               dict_simboluri['&#xEE;'] = 'i'
               dict_simboluri['&#xCE;'] = 'i'
               dict_simboluri['?'] = 'i'
               dict_simboluri['î'] = 'i'
               dict_simboluri['&Icirc;'] = 'I'
               dict_simboluri['I'] = 'I'
               dict_simboluri['Ĩ'] = 'I'
               dict_simboluri['Î'] = 'I'
               dict_simboluri['Î'] = 'I'
               dict_simboluri['i'] = 'i'
               dict_simboluri['i'] = 'i'
               dict_simboluri['í'] = 'i'
               dict_simboluri['!'] = ' '
               dict_simboluri['('] = '-'
               dict_simboluri[')'] = ' '
               dict_simboluri['  '] = ' '
               dict_simboluri[',,'] = ' '
               dict_simboluri['I'] = 'I'
               dict_simboluri['é'] = 'e'
               dict_simboluri['ê'] = 'e'
               dict_simboluri['é'] = 'e'
               dict_simboluri['a©'] = 'e'
               dict_simboluri['è'] = 'e'
               dict_simboluri['ë'] = 'e'
               dict_simboluri['Ë'] = 'e'
               dict_simboluri['&#537;'] = 's'
               dict_simboluri['&#536;'] = 's'
               dict_simboluri['&#350;'] = 's'
               dict_simboluri['&#x219;'] = 's'
               dict_simboluri['&#351;'] = 's'
               dict_simboluri['s'] = 's'
               dict_simboluri['?'] = 's'
               dict_simboluri['S'] = 'S'
               dict_simboluri['?'] = 'S'
               dict_simboluri['?'] = 'S'
               dict_simboluri['š'] = 's'
               dict_simboluri['s'] = 's'
               dict_simboluri['?'] = 's'
               dict_simboluri['?'] = 's'
               dict_simboluri['&quot;'] = ''
               dict_simboluri['&#8217;'] = ''
               dict_simboluri['&rdquo;'] = ''
               dict_simboluri['&rsquo;'] = ''
               dict_simboluri['&bdquo;'] = ''
               dict_simboluri['&ldquo;'] = ''
               dict_simboluri['&#8222;'] = ''
               dict_simboluri['&#8220;'] = ''
               dict_simboluri['&#8221;'] = ''
               dict_simboluri['&lt;'] = ''
               dict_simboluri['&lt;'] = ''
               dict_simboluri['«'] = ''
               dict_simboluri['»'] = ''
               dict_simboluri['"'] = ''
               dict_simboluri['"'] = ''
               dict_simboluri['"'] = ''
               dict_simboluri[':'] = ''
               dict_simboluri['&amp;'] = ''
               dict_simboluri['&#539;'] = 't'
               dict_simboluri['&#355;'] = 't'
               dict_simboluri['&#354;'] = 't'
               dict_simboluri['&#x21B;'] = 't'
               dict_simboluri['t'] = 't'
               dict_simboluri['?'] = 't'
               dict_simboluri['T'] = 'T'
               dict_simboluri['?'] = 'T'
               dict_simboluri['t'] = 't'
               dict_simboluri['?'] = 't'
               for simbol in dict_simboluri.keys():
                   description = description.replace(simbol, dict_simboluri[simbol])
               for simbol in dict_simboluri.keys():
                   title_text = title_text.replace(simbol, dict_simboluri[simbol])
               print(title_text)
               #meta_description = re.search('<meta name="description".+>', html_text)[0]
               new_meta_description = re.sub(r'content=".+"', f'content="{description}"', meta_description)
               new_title = re.sub(r'<title>.+</title>', f'<title>{title_text}</title>', title)
               html_text = html_text.replace(meta_description, new_meta_description)
               html_text = html_text.replace(title, new_title)
               print(f'{filename} parsed ({amount})')
               amount += 1
               write_to_file(html_text, cale_fisier_html)
           else:
               print("Text has no description")
       else:
           continue

That's all folks.

Также ознакомьтесь с этой ВЕРСИЕЙ 2 или ВЕРСИЯ 3 или ВЕРСИЯ 4 или ВЕРСИЯ 5 или ВЕРСИЯ 6 или ВЕРСИЯ 7

Alatura-te Comunitatii Neculai Fantanaru
63 величайших качества лидера
Cele 63 de calităţi ale liderului

Зачем читать эту книгу? Потому что это имеет решающее значение для оптимизации вашей производительности. Потому что раскрывает основные координаты, после чего строят характер и навыки лидеров, подчеркивая, что им важно для повышения своего влияния.

Лидерство – магия мастерства
Atingerea maestrului

Существенной характеристикой этой книги по сравнению с другими книгами, представленными на рынке в той же области, является то, что она описывает на примерах идеальные компетенции лидера. Я никогда не утверждал, что стать хорошим лидером легко, но если люди будут...

Мастерское прикосновение
Leadership - Magia măiestriei

Для некоторых лидеров «руководство» больше напоминает шахматную игру, игру ума и проницательности; для других это означает азартную игру, игру, которую, как они думают, они могут выиграть каждый раз, рискуя и ставя все на одну карту.

Загадка лидерства
Leadership Puzzle

Я написал эту книгу, которая простым способом соединяет личностное развитие с лидерством, как пазл, где нужно соединять все данные кусочки, чтобы составить общий образ.

Руководство
Leadership - Pe înţelesul tuturor

Цель этой книги — предоставить вам информацию на конкретных примерах и показать, как обрести способность заставить других смотреть на вещи под той же точкой зрения, что и вы.

Лидерство для чайников
Leadership - Pe înţelesul tuturor

Не считая это согласием, книга представляет собой попытку обычного человека - автора - который простыми словами, фактами и обычными примерами вселяет в обычного человека смелость и оптимизм в его собственном стремлении быть хозяином самому себе и кто знает. ..может даже лидер.