Neculai Fantanaru

Totul depinde de cine conduce

Parsing Python: Cum să copiezi o secţiune de date dintr-un fişier html în alte fişiere html

On Iunie 16, 2021
, in
Python Scripts Examples by Neculai Fantanaru YYY

Puteţi vizualiza întregul cod aici: https://pastebin.com/awhXMcG3

Următoarele taguri trebuie să se afle atât în fişierul html din Folderul A, cât şi în celelalte fişiere html din Folderul B. Codul Python va face parsing la următoarele taguri:

<title></title>, <meta name="description" content=" "/>, all from <!-- ARTICLE START --> to <!-- ARTICLE FINAL -->, all from <!-- FLAGS_1 --> to <!-- FLAGS -->, all from <!-- MENU START --> to <!-- MENU FINAL -->

Aceasta este structura fişierelor. Trebuie ca atât fişierul din Folder A să aibă aceleaşi taguri html, respectiv aceleaşi secţiuni comentate. Din fişierul html din Folder A se vor copia toate aceste secţiuni în fişierele din Folder B.

Important: Conţinutul tagurilor şi conţinutul comentariilor (Text Text) sunt diferite în fişierul în Folder A fată de fişierele html din Folder B. Aceasta este şi ideea. Vreau ca conţinutul acestor taguri din Folder A să înlocuiască conţinutul aceloraşi taguri din fişierele din Folder B.

De exemplu. Din fişierul example.html (din Folder A) se vor copia următoarele secţiuni în fişierele one.html şi two.html (din Folder B)

   

<title>YOUR FIRST PAGE</title>

<meta name="description" content="I LOVE HTML and CSS"/>

<!-- ARTICLE START -->
	Text Text
<!-- ARTICLE FINAL -->



<!-- FLAGS_1 -->
	Text Text
<!-- FLAGS -->


<!-- MENU START -->
 Text Text
<!-- MENU FINAL -->

Codul Python:

import requests
import re

# The folder that contains the file you want to parse
english_folder1 = r"d:\Downloads\A"

# The folder with the files you want to change
english_folder2 = r"d:\Downloads\B"

# The file you want to make parsing
file_to_parse_from = 'example.html'

extension_file = ".html"

use_parse_folder = True

import os

en1_directory = os.fsencode(english_folder1)
en2_directory = os.fsencode(english_folder2)

print('Going through english folder')
for file in os.listdir(en2_directory):
    filename = os.fsdecode(file)
    print(filename)
    if filename == 'y_key_e479323ce281e459.html' or filename == 'directory.html':
        continue
    if filename.endswith(extension_file):
        with open(os.path.join(english_folder1, file_to_parse_from), encoding='utf-8') as html:
            html = html.read()

            try:
                with open(os.path.join(english_folder2, filename), encoding='utf-8') as en_html:
                    en_html = en_html.read()
                    
                    title = re.search('<title.+/title>', html)[0]
                    meta = re.search('<meta name="description".+>', html)[0]
                    comment_body = re.search('<!-- ARTICLE START -->.+<!-- ARTICLE FINAL -->', html, flags=re.DOTALL)[0]

                    try:
                        comment_body2 = re.search('<!-- FLAGS_1 -->.+<!-- FLAGS -->', html, flags=re.DOTALL)[0]
                        en_html = re.sub('<!-- FLAGS_1 -->.+<!-- FLAGS -->', comment_body2, en_html, flags=re.DOTALL)
                    except:
                        pass

                    try:
                        comment_body3 = re.search('<!-- MENU START -->.+<!-- MENU FINAL -->', html, flags=re.DOTALL)[0]
                        en_html = re.sub('<!-- MENU START -->.+<!-- MENU FINAL -->', comment_body3, en_html, flags=re.DOTALL)
                    except:
                        pass
                    
                    en_html = re.sub('<!-- ARTICLE START -->.+<!-- ARTICLE FINAL -->', comment_body, en_html, flags=re.DOTALL)
                    en_html = re.sub('<meta name="description".+>', meta, en_html)
                    en_html = re.sub('<title.+/title>', title, en_html)
            except FileNotFoundError:
                continue

        print(f'{filename} parsed')
        if use_parse_folder:
            try:
                with open(os.path.join(english_folder2+r'\parsed', 'parsed_'+filename), 'w', encoding='utf-8') as new_html:
                    new_html.write(en_html)
            except:
                os.mkdir(english_folder2+r'\parsed')
                with open(os.path.join(english_folder2+r'\parsed', 'parsed_'+filename), 'w', encoding='utf-8') as new_html:
                    new_html.write(en_html)
        else:
            with open(os.path.join(english_folder2, 'parsed_'+filename), 'w', encoding='utf-8') as html:
                html.write(en_html)

That's all folks.

If you like my code, then make me a favor: translate your website into Romanian, "ro".

Also, you can see other Python Codes: VERSION 2 of this code. Or Version 3 OR Version 4 OR Version 5

Puteţi vizualiza şi versiunea de cod în PowerShell or VERSION 2 or VERSION 3

Alatura-te Comunitatii Neculai Fantanaru
Cele 63 de calităţi ale liderului
Cele 63 de calităţi ale liderului

De ce să citeşti această carte? Pentru că este hotărâtoare pentru optimizarea performanţelor tale. Fiindcă pune accent mai mult pe latura umană decât pe conceptul de business, ceea ce permite cu uşurinţă citirea şi înţelegerea ei.

Leadership - Magia măiestriei
Leadership - Magia măiestriei

Trăsătura esenţială a acestei cărţi, faţă de altele existente pe piaţă din acelaşi domeniu, este aceea că descrie, prin exemple, competenţele ideale ale unui lider. N-am susţinut niciodată că eşte uşor să devii un lider foarte bun, dar dacă veţi urma pas cu pas...

Atingerea maestrului
Atingerea maestrului

Pentru unii lideri „a conduce” înseamnă mai mult a juca un joc de şah, un joc de inteligenţă şi perspicacitate; pentru alţii un joc de noroc, un joc pe care cred că-l pot câştiga mergând de fiecare dată la risc şi pariind totul pe o singură carte.

Leadership Puzzle
Leadership Puzzle

Am scris această carte, care combină într-un mod simplu dezvoltarea personală cu leadershipul, ca pe un joc de puzzle, unde trebuie să combinaţi toate piesele date pentru a reconstitui imaginea de ansamblu.

Performanţa în conducere
Leadership - Pe înţelesul tuturor

Scopul acestei cărţi este de a vă oferi cât mai multe informaţii preţioase prin exemple concrete, şi de a vă arăta o cale prin care să dobândiţi capacitatea de a-i determina pe ceilalţi să vadă lucrurile din aceeaşi perspectivă ca dumneavoastră.

Leadership - Pe înţelesul tuturor
Leadership - Pe înţelesul tuturor

Urmăresc în rândurile acestei cărţi să trezesc interesul omului obişnuit pentru acţiune şi succes. Mesajul acestui volum este că o naţiune puternică este format din oameni puternici şi de succes. Iar fiecare din noi are potenţial, deci succes…