RECURRENT DONATION
Donate monthly to support
the NeculaiFantanaru.com project
Ny toetra tena ilaina amin'ity boky ity raha ampitahaina amin'ny hafa eny an-tsena amin'ny sehatra iray ihany dia ny famariparitana amin'ny alalan'ny ohatra ny fahaiza-manaon'ny mpitarika iray. Tsy nilaza mihitsy aho hoe mora ny ho tonga mpitarika tsara, fa raha tian'ny olona...
Nanoratra ity boky ity aho izay mampifandray amin'ny fomba tsotra ny fivoaran'ny tena manokana amin'ny fitarihana, toy ny piozila, izay tsy maintsy ampifandraisinao ny ampahany rehetra mba hamerenana ny sary ankapobeny.
Ny tanjon'ity boky ity dia ny hanome anao vaovao amin'ny alalan'ny ohatra mivaingana ary hampiseho aminao ny fomba hahazoanao ny fahaiza-manao hahatonga ny hafa hahita zavatra mitovy amin'ny anao.
Raha tsy mihevitra azy io ho fifanarahana, ny boky dia maneho ny andrana ny olon-tsotra iray - ny mpanoratra - izay amin'ny alalan'ny teny tsotra, zava-misy sy ny ohatra mahazatra mampianatra ny olon-tsotra herim-po sy ny fanantenana amin'ny fikatsahany manokana ho tompony sy izay mahalala. .. mety ho mpitarika mihitsy aza.
Azonao atao ny mijery ny kaody feno:ETO hametrakaPython. Avy eo, apetraho ireto tranomboky roa ireto amin'ny alàlan'ny mpandika teny (cmd) amin'ny Windows10: py- m pip install unidecode py -m pip install nltk Mila izao manaraka izao ianao: 1. Mamorona folder antsoina hoe:Files_html(Ireo rakitra lahatsoratra dia ho voavonjy eto ho HTML) 2. Mamorona folder antsoinarohy(Eto ianao dia hamorona alindoty.txtNy rakitra izay tsy maintsy apetrakao eo ambanin'ny html ireo rohy ireo izay ampidirina ho teny fanalahidy ao amin'ny vatan'ireo lahatsoratra avy amin'ny pejy html vaovao). 3. Mila rakitra html tokana ianao, antsoina hoe:oana.tmmys. Hanana io rafitra io: <title>Blah Blah Blahtitle> <meta name="description" content="Blah Blah Blah."> <h3 class="font-weight-normal">TITLE OF THE ARTICLEh3> <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.p> 4. amin'nyFolder lehibeMila mametraka ny rakitra lahatsoratra rehetra sy ny rakitra Oana.html ianao WHAT DOES THE CODE DO?: 1. Raiso ny teny 10 voalohany avy amin'ny rakitra lahatsoratra tsirairay ary tehirizo io rakitra io ho rohy HTML amin'ireo teny 10 ireo. 2. Avereno ny teny 10 voalohany avy amin'ny rakitra lahatsoratra tsirairay ary afaho amin'ny tag 3. Raiso ny teny 20 voalohany avy amin'ny rakitra lahatsoratra tsirairay ary adikao ho any amin'ny Tag. 4. Adikao amin'ny fizarana ny votoatin'ny rakitra lahatsoratra Manomboka ny lahatsoratra.-> Item farany-> (Soloy ny lahatsoratra efa misy amin'ny rakitra html) 5. Avereno anarana ny rakitra HTML vaovao araka ny teny 10 voalohany ao amin'ny rakitra lahatsoratra. 6. Zahao raha ny teny fanalahidy ao amin'ireo rohy hita ao amin'nylindoty.txtAo amin'ny lahatsoratra ny rakitra. Raha eny, misafidy teny avy amin'ny vatan'ny pejy html vaovao izy io ary asongadino azy ho rohy. (Mampifandray ireo teny toy ny "ary, izay, inona, rehefa" esorina satria tsy teny fanalahidy izy ireo). Ny kaody:Adikao ary ampandehano ny kaody eto ambany amin'ny programa mpandika teny(Ampiasaikopycripter. #------------------------------------------------------------------------------- # Name: Create html files from text files # Purpose: # # Author: Neculai Fantanaru # # Created: 22/01/2022 # Copyright: (c) Neculai Fantanaru 2022 #------------------------------------------------------------------------------- import os import re import random import unidecode import nltk from nltk import tokenize # nltk.download('punkt') SITE = 'https://neculaifantanaru.com/' LISTA_CUVINTE_LEGATURA = [ 'in', 'la', 'unei', 'si', 'sa', 'se', 'de', 'prin', 'unde', 'care', 'a', 'al', 'prea', 'lui', 'din', 'ai', 'unui', 'acei', 'un', 'doar', 'tine', 'ale', 'sau', 'dintre', 'intre', 'cu', 'ce', 'va', 'fi', 'este', 'cand', 'o', 'cine', 'aceasta', 'ca', 'dar', 'II', 'III', 'IV', 'V', 'VI', 'VII', 'VIII', 'to', 'was', 'your', 'you', 'is', 'are', 'iar', 'fara', 'asta', 'pe', 'tu', 'nu', 'mai', 'ne', 'le', 'intr', 'cum', 'e', 'for', 'she', 'it', 'esti', 'this', 'that', 'how', 'can', 't', 'must', 'be', 'the', 'and', 'do', 'so', 'or', 'ori', 'who', 'what', 'if', 'of', 'on', 'i', 'we', 'they', 'them', 'but', 'where', 'by', 'an', 'mi', '1', '2', '3', '4', '5', '6', '7', '8', '9', '0', 'made', 'my', 'me', '-', 'vom', 'voi', 'ei', 'cat', 'ar', 'putea', 'poti', 'sunteti', 'inca', 'still', 'noi', 'l', 'ma', 's', 'dupa', 'after', 'under', 'sub', 'niste', 'some', 'those', 'he', 'no', 'too', 'fac', 'made', 'make', 'cei', 'most', 'face', 'pentru', 'cat', 'cate', 'much', 'more', 'many', 'sale', 'tale', 'tau', 'has', 'sunt', 'his', 'yours', 'only', 'as', 'toate', 'all', 'tot', 'incat', 'which', 'ti', 'asa', 'like', 'these', 'because', 'unor', 'caci', 'ele', 'have', 'haven', 'te', 'cea', 'else', 'imi', 'iti', 'should', 'could', 'not', 'even', 'chiar', 'when', 'ci', 'ne', 'ni', 'her', 'our', 'alta', 'another', 'other', 'decat', 'acelasi', 'same', 'au', 'had', 'haven', 'hasn', 'alte', 'alt', 'others', 'ceea', 'cel', 'cele', 'alte', 'despre', 'about', 'acele', 'acel', 'acea', 'decit', 'with', '_', 'fata', 'towards', 'against', 'cind', 'dinspre', 'fost', 'been', 'era' ] PATTERN_LINK = "\"{}\" target=\"_new\">{}" ''' structura dictionar cuvinte { "cuvantul1": [lista_linkuri1], "cuvantul2": [lista_linkuri2] } ''' CALE_FISIER_LINKURI = "C:\\Folder1\\LINKS\\links.txt" # folosim DEF cand vrem sa definim o functie => un cuvant cheie in Python # REGULA: def nume_functie(lista_argumente) def preia_cuvinte_link(link): cuvinte = link.split('.')[0] # [0] ia primul element iar daca pun [1] ia al doilea element cuvinte = cuvinte.split('-') cuvinte_ok = list() for cuv in cuvinte: if cuv not in LISTA_CUVINTE_LEGATURA: cuvinte_ok.append(cuv) return cuvinte_ok # am pus retutn fiindca voi avea nevoie de rezultatul functiei de mai sus def preia_cuvinte_lista_linkuri(cale_fisier_linkuri): lista_cuvinte_linkuri = list() dictionar_cuvinte_linkuri = dict() with open(cale_fisier_linkuri, encoding='utf8') as fp: lines = fp.readlines() for line in lines: # functia preia_cuvinte_link returneaza un rezultat care este salvat in variabila cuvinte_link cuvinte_link = preia_cuvinte_link(line) for cuv in cuvinte_link: if cuv in dictionar_cuvinte_linkuri.keys(): if not SITE + line.strip() in dictionar_cuvinte_linkuri[cuv]: dictionar_cuvinte_linkuri[cuv].append(SITE + line.strip()) else: dictionar_cuvinte_linkuri[cuv] = [SITE + line.strip()] lista_cuvinte_linkuri.extend(cuvinte_link) lista_cuvinte_linkuri = list(set(lista_cuvinte_linkuri)) return lista_cuvinte_linkuri, dictionar_cuvinte_linkuri def citeste_fisier_linie_cu_linie(cale_fisier): with open(cale_fisier, encoding='utf8') as fp: lines = fp.readlines() count = 0 for line in lines: print(count, line.strip()) count += 1 def read_text_from_file(file_path): """ Aceasta functie returneaza continutul unui fisier. file_path: calea catre fisierul din care vrei sa citesti """ with open(file_path, encoding='utf8') as f: text = f.read() return text def write_to_file(text, file_path): """ Aceasta functie scrie un text intr-un fisier. text: textul pe care vrei sa il scrii file_path: calea catre fisierul in care vrei sa scrii """ with open(file_path, 'wb') as f: f.write(text.encode('utf8', 'ignore')) def split_propozitii(text): # 01.02.2022: folosit librarie pentru extragerea propozitiilor propozitii = tokenize.sent_tokenize(text) # 01.02.2022: scoatem spatiile in plus de la inceputul/finalul propozitiilor si facem prima litera mare propozitii = [prop.strip().capitalize() for prop in propozitii] # 01.02.2022: scot spatiile in plus de la final de propozitie. De exemplu: "ana are mere ?" => "ana are mere?" propozitii = [prop[:-1].strip() + prop[-1] for prop in propozitii] # 31.01.2022: modificat tag-ul p si adaugat css (4) tag = " That's all folks. Latest articles accessed by readers:
Donate via Paypal
RECURRENT DONATIONDonate monthly to support SINGLE DONATIONDonate the desired amount to support Donate by Bank TransferAccount Ron: RO34INGB0000999900448439
Open account at ING Bank
|
||||||||||||
![]() |
||||||||||||