Name: Python Google Translate Library Beautifulsoup Сохранить тег заголовка как ссылку
Brand: Neculai Fantanaru
SKU: NFL
Availability: OnlineOnly
Rating: 5 (55 reviews)

Библиотека Python Google Translate Beautifulsoup + Сохранить тег заголовка как ссылку Html

June 20, 2021

, in

Python Scripts Examples by Neculai Fantanaru

Полный код можно просмотреть здесь: https://pastebin.com/CVFAdi97

Установите Python. Затем установите следующие две библиотеки с помощью интерпретатора командной строки (cmd) в Windows10:

Python автоматически переведет следующие HTML-теги с помощью библиотеки googletrans:

py -m pip install "googletrans"
py -m pip install googletrans==4.0.0rc1
py -m pip install beautifulsoup4

Кроме того, код Python также автоматически переводит содержимое следующих тегов (Ваш текст), но только если эти теги заключены в < ! -- АРТИКОЛ СТАРТ --> и < ! -- ARTICOL START --> html-комментарии. Конечно, вам нужно будет заменить эти теги своими собственными.

<!-- ARTICOL START -->
<h1 class="den_articol" itemprop="name">Your Text</h1>
<p class="text_obisnuit">Your Text</p>
<p class="text_obisnuit2">Your Text</p>
<span class="text_obisnuit2">Your Text</span>
<span class="text_obisnuit">Your Text</span>
<li class="text_obisnuit">Your Text</li>
<a class="linkMare" href="https://neculaifantanaru.com/ru/">Your Text</a>
<h4 class="text_obisnuit2>Your Text</h4>
<h3 class="text_obisnuit2>Your Text</h3>
<h5 class="text_obisnuit2>Your Text</h5>
<!-- ARTICOL FINAL -->

КОД: скопируйте и запустите приведенный ниже код в любой программе-интерпретаторе (я использую pyScripter) . Не забудьте изменить путь в папке "files_from_folder" строку. А вот список языков, которые можно перевести: LANG.

from bs4 import BeautifulSoup
from bs4.formatter import HTMLFormatter
import requests
import re
import execjs
from urllib import parse
import json
class Py4Js():
   def __init__(self):
       self.ctx = execjs.compile("""
        function TL(a) {
        var k = "";
        var b = 406644;
        var b1 = 3293161072;
        var jd = ".";
        var $b = "+-a^+6";
        var Zb = "+-3^+b+-f";
        for (var e = [], f = 0, g = 0; g < a.length; g++) {
            var m = a.charCodeAt(g);
            128 > m ? e[f++] = m : (2048 > m ? e[f++] = m >> 6 | 192 : (55296 == (m & 64512) && g + 1 < a.length && 56320 == (a.charCodeAt(g + 1) & 64512) ? (m = 65536 + ((m & 1023) << 10) + (a.charCodeAt(++g) & 1023),
            e[f++] = m >> 18 | 240,
            e[f++] = m >> 12 & 63 | 128) : e[f++] = m >> 12 | 224,
            e[f++] = m >> 6 & 63 | 128),
            e[f++] = m & 63 | 128)
        }
        a = b;
        for (f = 0; f < e.length; f++) a += e[f],
        a = RL(a, $b);
        a = RL(a, Zb);
        a ^= b1 || 0;
        0 > a && (a = (a & 2147483647) + 2147483648);
        a %= 1E6;
        return a.toString() + jd + (a ^ b)
    };
    function RL(a, b) {
        var t = "a";
        var Yb = "+";
        for (var c = 0; c < b.length - 2; c += 3) {
            var d = b.charAt(c + 2),
            d = d >= t ? d.charCodeAt(0) - 87 : Number(d),
            d = b.charAt(c + 1) == Yb ? a >>> d: a << d;
            a = b.charAt(c) == Yb ? a + d & 4294967295 : a ^ d
        }
        return a
    }
    """)
   def getTk(self, text):
       return self.ctx.call("TL", text)
class Translate_as_google(object):
   def __init__(self, to_language, this_language='auto', read=False):
       '''
            to_language:The language to be translated into
            this_language:The text to be converted, the default is auto
            read:Generate a text reading file at the specified location
        '''
       self.this_language = this_language
       self.to_language = to_language
       self.read = read
   def open_url(self, url):
       '''请求'''
       headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
       req = requests.get(url=url, headers=headers , timeout=8)
       return req
   def buildUrl(self):
       '''封装请求url
            sl:The text to be converted tl:The result type of the conversion qThe text to be entered'''
       baseUrl = 'http://translate.google.cn/translate_a/single'
       baseUrl += '?client=webapp&'
       baseUrl += 'sl=%s&' % self.this_language
       baseUrl += 'tl=%s&' % self.to_language
       baseUrl += 'hl=zh-CN&'
       baseUrl += 'dt=at&'
       baseUrl += 'dt=bd&'
       baseUrl += 'dt=ex&'
       baseUrl += 'dt=ld&'
       baseUrl += 'dt=md&'
       baseUrl += 'dt=qca&'
       baseUrl += 'dt=rw&'
       baseUrl += 'dt=rm&'
       baseUrl += 'dt=ss&'
       baseUrl += 'dt=t&'
       baseUrl += 'ie=UTF-8&'
       baseUrl += 'oe=UTF-8&'
       baseUrl += 'clearbtn=1&'
       baseUrl += 'otf=1&'
       baseUrl += 'pc=1&'
       baseUrl += 'srcrom=0&'
       baseUrl += 'ssel=0&'
       baseUrl += 'tsel=0&'
       baseUrl += 'kc=2&'
       baseUrl += 'tk=' + str(self.tk) + '&'
       baseUrl += 'q=' + parse.quote(self.text)
       return baseUrl
   def read_go(self, args):
       '''Speaking interception
        upload:Download to path and file name
        return_language:Language type returned
        '''
       upload, return_language = args[0], args[1]
       read_translate_url = 'http://translate.google.cn/translate_tts?ie=UTF-8&q=%s&tl=%s&total=1&idx=0&textlen=3&tk=%s&client=webapp&prev=input' % (
           self.text, return_language, self.tk)
       data = self.open_url(read_translate_url) #Return all data requested
       with open(upload, 'wb') as f:
           f.write(data.content)
   def translate(self,text):
       '''Translation interception'''
       self.text = text
       js = Py4Js()
       self.tk = js.getTk(self.text)
       if len(self.text) > 4891:
           raise ("The length of the translation exceeds the limit！！！")
       url = self.buildUrl()
       # print(url)
       _result = self.open_url(url)
       data = _result.content.decode('utf-8')
       tmp = json.loads(data)
       jsonArray = tmp[0]
       result = None
       for jsonItem in jsonArray:
           if jsonItem[0]:
               if result:
                   result = result + " " + jsonItem[0]
               else:
                   result = jsonItem[0]
       return result
class UnsortedAttributes(HTMLFormatter):
   def attributes(self, tag):
       for k, v in tag.attrs.items():
           yield k, v
files_from_folder = r"c:\Folder1\translated\test"
use_translate_folder = True
destination_language = 'fr'
ts = Translate_as_google(destination_language)
extension_file = ".html"
import os
directory = os.fsencode(files_from_folder)
def recursively_translate(node):
   for x in range(len(node.contents)):
       if isinstance(node.contents[x], str):
           if node.contents[x].strip() != '':
               try:
                   node.contents[x].replaceWith(ts.translate(node.contents[x]))
               except Exception as e:
                   print(e)
       elif node.contents[x] != None:
           recursively_translate(node.contents[x])
amount = 1
for file in os.listdir(directory):
   filename = os.fsdecode(file)
   print(filename)
   if filename == 'y_key_e479323ce281e459.html' or filename == 'directory.html':
       continue
   if filename.endswith(extension_file):
       with open(os.path.join(files_from_folder, filename), encoding='utf-8') as html:
           soup = BeautifulSoup('<pre>' + html.read() + '</pre>', 'html.parser')
           for title in soup.findAll('title'):
               print("Continut titlu: ", title.get_text())
               recursively_translate(title)
           for meta in soup.findAll('meta', {'name':'description'}):
               try:
                   meta['content'] = ts.translate(meta['content'])
               except:
                   pass
           for h1 in soup.findAll('h1', {'itemprop':'name'}, class_='den_articol'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(h1)) < end_comment:
                   recursively_translate(h1)
           for p in soup.findAll('p', class_='text_obisnuit'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(p)) < end_comment:
                   recursively_translate(p)
           for p in soup.findAll('p', class_='text_obisnuit2'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(p)) < end_comment:
                   recursively_translate(p)
           for span in soup.findAll('span', class_='text_obisnuit2'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(span)) < end_comment:
                   recursively_translate(span)
           for li in soup.findAll('li', class_='text_obisnuit'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(li)) < end_comment:
                   recursively_translate(li)
           for a in soup.findAll('a', class_='linkMare'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(a)) < end_comment:
                   recursively_translate(a)
           for h4 in soup.findAll('h4', class_='text_obisnuit2'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(h4)) < end_comment:
                   recursively_translate(h4)
           for h5 in soup.findAll('h5', class_='text_obisnuit2'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(h5)) < end_comment:
                   recursively_translate(h5)
           for h1 in soup.findAll('h1', {'itemprop':'name'}, class_='den_webinar'):
               begin_comment = str(soup).index('<!-- ARTICOL START -->')
               end_comment = str(soup).index('<!-- ARTICOL FINAL -->')
               if begin_comment < str(soup).index(str(h1)) < end_comment:
                   recursively_translate(h1)
       # SAve Title tag as html link
       print(f'{filename} translated ({amount})')
       amount += 1
       soup = soup.encode(formatter=UnsortedAttributes()).decode('utf-8')
       new_filename = title.get_text() 
       new_filename = new_filename.lower()
       words = re.findall(r'\w+', new_filename)
	#words = re.findall(r'\b\w+\b(?=[\w\s]+\|)', new_filename)  #This will save words until | (linebreak) if you have one
       new_filename = '-'.join(words)
       new_filename = new_filename + '.html'
       print(new_filename)
       #print("Encode: ", new_filename.encode('ascii', 'ignore'))
       if use_translate_folder:
           try:
               with open(os.path.join(files_from_folder+r'\translated', new_filename), 'w', encoding='utf-8') as new_html:
                   new_html.write(soup[5:-6])
           except:
               os.mkdir(files_from_folder+r'\translated')
               with open(os.path.join(files_from_folder+r'\translated', new_filename), 'w', encoding='utf-8') as new_html:
                   new_html.write(soup[5:-6])
       else:
           with open(os.path.join(files_from_folder, new_filename), 'w', encoding='utf-8') as html:
               html.write(soup[5:-6])

That's all folks.

If you like my code, then make me a favor: translate your website into Romanian, "ro".

Также ознакомьтесь с этой ВЕРСИЕЙ 2 или ВЕРСИЯ 3 или ВЕРСИЯ 4 или ВЕРСИЯ 5 или ВЕРСИЯ 6 или ВЕРСИЯ 7

Alatura-te Comunitatii Neculai Fantanaru

63 величайших качества лидера

Зачем читать эту книгу? Потому что это имеет решающее значение для оптимизации вашей производительности. Потому что раскрывает основные координаты, после чего строят характер и навыки лидеров, подчеркивая, что им важно для повышения своего влияния.

Лидерство – магия мастерства

Существенной характеристикой этой книги по сравнению с другими книгами, представленными на рынке в той же области, является то, что она описывает на примерах идеальные компетенции лидера. Я никогда не утверждал, что стать хорошим лидером легко, но если люди будут...

Мастерское прикосновение

Для некоторых лидеров «руководство» больше напоминает шахматную игру, игру ума и проницательности; для других это означает азартную игру, игру, которую, как они думают, они могут выиграть каждый раз, рискуя и ставя все на одну карту.

Загадка лидерства

Я написал эту книгу, которая простым способом соединяет личностное развитие с лидерством, как пазл, где нужно соединять все данные кусочки, чтобы составить общий образ.

Руководство

Цель этой книги — предоставить вам информацию на конкретных примерах и показать, как обрести способность заставить других смотреть на вещи под той же точкой зрения, что и вы.

Лидерство для чайников

Не считая это согласием, книга представляет собой попытку обычного человека - автора - который простыми словами, фактами и обычными примерами вселяет в обычного человека смелость и оптимизм в его собственном стремлении быть хозяином самому себе и кто знает. ..может даже лидер.