在西班牙語翻譯的世界里,從最初由國內(nèi)人士在國外待了數(shù)年之后,學會外語后,在傳授給其他人士,如此下來會的人就多了,就是當初的在線翻譯。而如今的在線并不是面對面的了,是通過電子設備里的軟件程序運行,如百度翻譯軟件及谷歌翻譯器等,那這些都是有實現(xiàn)的方法。
說到這里就隨便說下,這個對于我們需要翻譯或者議員來說并不是很重要。就是可以用python爬蟲實現(xiàn)簡單的翻譯,有些是網(wǎng)頁版進行翻譯,還有就是翻譯軟件了,像百度和谷歌這兩大基本軟件和網(wǎng)頁都是非常厲害的。
1、使用的第三方庫:urllib, urllib2,利用這些庫我們可以得到網(wǎng)頁的內(nèi)容。
2、Python正則表達式,用于匹配表達式,可以視為抽取的作用,把我們想要的部分可以抽取出來。
3、爬蟲的Scrapy框架。這個是后續(xù)的內(nèi)容啦。
4、URL,統(tǒng)一資源定位符,即我們需要到達的目的地址
DNS,域名系統(tǒng),就是IP的另一個名字,我們只需要知道別名,就可以訪問到那個IP地址了。
HTML代碼,網(wǎng)頁的實質(zhì),利用谷歌的審查元素就可以看到網(wǎng)頁呈現(xiàn)的格式。
5、簡單的爬蟲的教程,感謝大神的分享, 我就直接貼上大神的網(wǎng)址,以便后續(xù)遺忘時的查看。
6、數(shù)據(jù)傳送的二種方式:post和get方式,簡單的網(wǎng)頁抓取是靜態(tài)的網(wǎng)頁,但很多時候,是動態(tài)的網(wǎng)頁,需要我們傳遞數(shù)據(jù)給服務器來獲得所需要的網(wǎng)頁數(shù)據(jù),所以數(shù)據(jù)傳送的方式分為二種,post方式和get方式。
7、設置Headers,站點對于簡單的方式訪問并不買賬,這個時候并不會返回任何內(nèi)容,不會響應,所以需要模擬瀏覽器的工作,所以需要設置一些Headers的屬性,讓我們的訪問類似于瀏覽器的訪問。
8、Timeout設置、cookie的使用、正則表達式。
以上便是一項簡單的下線翻譯方式,不過這些對于程序員是懂得,對于我們做翻譯的也就看看好了,了解總比不了解好呀。
熱門閱讀
2023-02-27
2021-03-26
2021-03-11
2021-01-04
2020-12-11
2020-11-27
2023-02-27
2019-09-26
2019-08-19
2023-04-20
2022-10-09
出國陪同翻譯多少錢一天?是商務還是私人性質(zhì)決定收入
2023-02-27
2019-08-20
2019-08-09
2023-02-27
2023-02-27
2023-02-27