Izvlačenje mac adresa iz fajla

[ milorad @ 18.04.2021. 13:02 ] @

Imam ovaj kod pisan normalno u Python

Code:

import re

p = re.compile(r'(?:[0-9a-fA-F]:?){12}')
test_str = u"U ovom tekstu ima mac adresa 00:24:17:b1:cc:cc 00:1A:79:00:00:00 00:1A:79:00:00:01 00:1A:79:00:00:02 "

found = re.findall(p, test_str)

for a in found:
print(a)

ovaj kod izvlači samo mac adrese iz teksta .....međutim meni treba da otvorim neku datoteku (datoteka.txt) sa mog računara u kome imam monogo teksta i sa mac adresama i ja hoću da izvučem samo mac adrese i da ih odštampam

nešta ovako...datoteka=open("datoteka.txt","r")

i to da ubacim gore u kod al nešta neće....molim pomoć...Hvala

[ Panta_ @ 19.04.2021. 06:10 ] @

Neće zato što je fajl samo otvoren. To "r" nije isto što i read funkcija koja čita sadržaj fajla, već predstavlja mod u kome je fajl otvoren, u ovom slučaju za čitanje u tekst modu što je i podrazumevano.

Code:
datoteka=open("datoteka.txt","r").read()

ili, samo zameni test_str sa datoteka.read()

found = re.findall(p, datoteka.read())

https://docs.python.org/3/tuto...t.html#methods-of-file-objects

[ milorad @ 19.04.2021. 16:27 ] @

Odlično...Hvala puno.. to mi je trebalo radi ko sat

Code:

import re

datoteka=open("datoteka.txt","r").read()

p = re.compile(r'(?:[0-9a-fA-F]:?){12}')
test_str =datoteka

found = re.findall(p, test_str)

for a in found:
print(a)

biću slobodan opet da zatražim nešta jer sad idem na traženje ip:port i html linka iz text datoteke....pa onda sa sajta url...pa web scraping recimo traženje cene patika pa da me obavesti kad se cena promeni ...malo teže al probaću normalno uz pomoć znalaca sa foruma..Pozdrav

[ milorad @ 27.04.2021. 09:44 ] @

Potrebno mi je da izvučem portale posebno i posebno mac adrese sa recimo ovog sajta

Code:
https://iptvlinkseuro.blogspot.com/2021/04/stbemu-codes-stalker-portal-mac-26.html

u principu nebitno koji je sajt ..to izgleda ovako...znači samo ove portale a posebno macove.....

ovo je samo iz datoteke i to mi je lakše al sa sajta malo teže....

Code:

import re

datoteka=open("datoteka.txt","r").read()

p = re.compile('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
test_str =datoteka

found = re.findall(p, test_str)

for a in found:
print(a)

ako može malo usmerenje ....Hvala

[ bokinet @ 27.04.2021. 10:32 ] @

Probati da se prvo html stranica (sa web uri) prebaci u klasican tekst pa da se parsuje onda kako bi se bilo imuno na eventualno promenu html sadrzaja koji ustvari stranica gde je sadrzaj.

Evo 2 primera resenja oko konverzije html u ASCII text.

pypi.org/project/html2text

pypi.org/project/html-text/

Kada se prebci iz html u ASCII text onda napraviti deo koda koji vrsi parsovanje tako dobijenog ASCII text sadrzaja.

Sto se tice primera oko preuzimanja web sadrzaj preko py evo obicnog primera:

Code:

import requests

response = requests.get('http://mojastrana-abc.xyz')
print (response.status_code)
print (response.content)

[ milorad @ 27.04.2021. 13:53 ] @

Hvala @bokinet to je odlična ideja ....u txt pa ja to snimim kao moja datoteka.txt i pokrenem moja dva coda za izvlačenje makova i posebno izvlačenje html a možda bi to mogao da stavim u jedan kod....nije loša ideja.Hvala još jednom.

[ Panta_ @ 27.04.2021. 18:37 ] @

Nema potrebe da konvertujes html, samo response.content zameni sa response.text, a mozes i umesto requests da koristiš urllib.request koj dolazi podrazumevano sa Pythonom. Na primer:

Code:

import re

import requests
# ili
# from urllib import request

r = requests.get('https://iptvlinkseuro.blogspot...des-stalker-portal-mac-26.html')

# ili
# r = request.urlopen('https://iptvlinkseuro.blogspot...des-stalker-portal-mac-26.html')

text = r.text

# ili
# text = r.read().decode('utf-8')

for mac in re.findall('(?:[0-9a-f]{2}[:]){5}(?:[0-9a-f]{2})', text, re.I):
print(mac)

$ python3 mac_adrese.py

00:1A:79:5D:8D:79
00:1A:79:B0:41:CC
00:1A:79:FD:D6:A5
00:1A:79:7B:C1:79
00:1A:79:AA:CA:0D
00:1A:79:0B:F3:74
00:1A:79:B0:1F:9F
00:1A:79:7D:65:F8
00:1A:79:47:86:01
00:1A:79:47:76:7A
00:1A:79:47:C4:AC
00:1a:79:47:86:01
00:1a:79:47:F4:30
00:1a:79:47:48:65
00:1a:79:46:FA:50
00:1a:79:47:48:13

[ bokinet @ 27.04.2021. 20:23 ] @

Isto moze kao sto je @Panta_ rekao - stvar potrebe i dalje obrade podataka.

[ milorad @ 28.04.2021. 11:44 ] @

Evo još malo pa gotovo...izvlačenje macova i linkova sa sajtova ..normalno uz vašu pomoć bez vas ništa nebi uradio...

Code:

import sys
from subprocess import call
import re
import requests

r=requests.get('https://iptvlinkseuro.blogspot...des-stalker-portal-mac-28.html')

text=r.text

#izvlačenje makova

#otvaranje jednog fajla gde će biti upisani makovi i linkovi

with open('izlaz.txt', 'w') as write_file:
    write_file.write("")

for mac in re.findall('(?:[0-9a-f]{2}[:]){5}(?:[0-9a-f]{2})', text, re.I):
    p = re.compile('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
    with open('izlaz.txt', 'a+') as write_file:
            write_file.write("\n" + mac)
#    print(mac)



#izvlačenje linkova ( potrebnih i nepotrebnih...potrebni samo sa završetkom  /c/ ili stalker_portal/c/....to ću da vidim kako da filtriram)



for p in re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+',text,re.I):
#    print(p)

    with open('izlaz.txt', 'a+') as write_file:
            write_file.write("\n" + p)

if __name__ == '__main__':
    print('\n[+] Dobrodošli')

# Ovde će ići kao ....UNOS=int(input(unesite ime sajta sa koga treba da se "pokupe" makovi i linkovi))
#Rezultati će biti ipisani u fajlu izlaz.txt

malo je traljav izlaz ....al radi što kažu "završava poso"