Convert html file to text file

from bs4 import BeautifulSoup
import urllib2
import glob, os

os.chdir(“./margeBlockRastParam”)

#confirm = input(“[c]Confirm or [v]Void: “)
#    if confirm != ‘c’ and confirm != ‘v’:
cwd = os.getcwd()
print “*******************************************************”
print ” You are converting html to txt file under directory : \n”, cwd
print “*******************************************************”
confirm = raw_input(“[y]es or [n]o: “)
if confirm == ‘y’:
for file in sorted(glob.glob(“*.html”)):
filename, fileExtension = os.path.splitext(file)
print filename + fileExtension,
f = open(filename + fileExtension,’r’)
soup = BeautifulSoup(f, “lxml”)
#print soup.get_text()
f.close()

fw = open(“temp.txt”,’w’)
fw.write(soup.get_text().encode(‘utf-8′))
fw.close()

with open(“temp.txt”,’r’) as f:
fw = open(filename + “.txt”,’w+’)
# remove first line to print while it is html title
next(f)
for i in f:
if i !=”\n”:
#print i
fw.write(i)

fw.close()
f.close()
os.remove(“temp.txt”)
print  ‘->’, filename+’.txt’
print “complete !!!”
else:
print “Abroad……”

Please follow and like us:

ইউনিকোড এবং নিকস কনভার্টার

ইউনিকোড কী ?

ইউনিকোড অর্থাৎ ইউনিক কোড । ইউনিকোড বিশ্বের প্রতিটি ভাষার প্রতিটি অক্ষরের জন্য একটি করে নম্বর প্রদান করে, সেটা যে প্লাটফর্মেই হোক, সেটা যে প্রোগ্রামেই হোক, সেটা যে ভাষারই হোক। ফলে বিশ্বের যেকোন কম্পিউটারে নিজস্ব মার্তৃভাষায় লেখা যেকোন তথ্য কোনরূপ ঝামেলা ছাড়াই দেখা ও পড়া সম্ভব।

কম্পিউটারে সকল লিপি বা অক্ষর সংরক্ষিত হয় একটি করে একক সংখ্যা দিয়ে। ইউনিকোড আবিষ্কার হওয়ার আগে কম্পিউটারে নিজমার্তৃভাষায় লেখার জন্য বিভিন্ন লিপিসংকেত  ব্যবহার হতো। ফলে একই লিপিসংকেতের সংখ্যা বিভিন্ন ভাষায় বিভিন্ন ভাবে ব্যবহার হতো। তাই কম্পিউটারে একইসাথে একাধিক ভাষায় তথ্য সংরক্ষণ দূরহ হতো। বিশেষ করে সার্ভারে ও ওয়েবসাইটে তথ্য সংরক্ষণ ও প্রকাশ জটিল আকার ধারণ করতো।

Continue reading

Please follow and like us: