標記語言
標記語言(粵拼:biu1 gei3 jyu5 jin4;英文:markup language)係電腦語言嘅一種,重點特徵係用嚟記住網頁等嘅電腦文件嘅中繼資料[1]。用日常用語講即係話攞住一份電腦文件,如果用標記語言
英文 mark up(近似粵拼:maak1 ap1)本來係編輯同校對術語,指喺稿件上面「嘜低哂」篇文應該點改,又或者排版應該點排等等,呢啲後加嘅符號或者字就係 markup 呢隻字詞指嘅嘢。電腦所講嘅 markup 其實就係呢種人手工序嘅模型。
喺廿一世紀初,多人用嘅標記語言有例如 HTML,佢除咗攞嚟寫網頁之外,亦係電子書嘅基礎;其他多人用嘅標記語言仲有 XML 同埋 TeX 等。
分類
[編輯]- 展現型:指標記描述嘅嘢係同顯示、印刷或者其他展現方式有關,例如描述字體大細、靠左定靠右、播放速度等等;文書處理器喺文字上面加格式,可以話係一種標記,而存咗檔嘅文件可以話係用某種標記語言寫出嚟。
- 描述型:指標記唔直接描述實際嘅視覺展示方法,而係語義上嘅性質(除非展示方法係想要描述嘅嘢)語言嘜低對「件數據係啲乜」嘅描述。
- 程序型:其實唔係標記語言,望落似標記嘅嘢其實係程式、巨集等等[3],例如 LaTeX 其實係巨集,唔係標記語言。
HTML
[編輯]HTML(取自英文全名 HyperText Markup Language)首創於 1991 年[4],可以話係廿一世紀初最多人知嘅標記語言,專門用嚟記住啲網頁嘅。網頁瀏覽器就係用 HTML 嚟操作網頁嘅文字、影像同其他內容嘅。一個網頁嘅數據會用 HTML 嘜好,指定某段字嘅意思或者用途等等嘅資訊,又或者某程度上左右字或者圖嘅大細等等[註 1],噉部機就會識得將啲數據按設計者嘅意思顯示出嚟。舉個具體例子,一段用 HTML 碼記住嘅網頁會有一行行類似以下噉嘅碼[5][6]:
<strong>粵語維基好正</strong>
當中 <strong> </strong>
係教部電腦:「<strong>
同 </strong>
呢兩嚿嘢夾住嘅內容,係要用主動嘅方法強調顯示[暫譯](通常係指粗體字)[註 2]。部電腦讀到以上呢行噉嘅碼,就會識顯示
- 粵語維基好正
噉嘅字樣。好似被動式強調[暫譯](通常係指意大利體)[註 3]等等嘅設定,都可以用同樣嘅方式想像。而除咗呢啲顯示性質嘅資訊之外,HTML 仲可以攞嚟嘜中繼資料(即係用嚟描述資料嘅資料),能夠話畀電腦知「呢件呢件資訊係啲乜」,好似以下噉:
<title>呢行字係呔圖</title>
上面段碼係話畀部機知:「<title>
同 </title>
呢兩嚿嘢夾住嗰段字,係個網頁嘅標題」[註 4];有咗呢樣資訊,部電腦就可以(唔使靠進階嘅 NLP 技術)識得分邊段字係個網頁嘅標題,能夠自動噉(例如)喺顯示搜尋器嘅搜尋結果嗰陣,顯示出每個搵到嘅網頁嘅標題。除此之外,HTML 亦容許用家寫低啲注釋[8]同嘜低邊度開段(通常其實係指換行)[註 5]等等。
以下係用 HTML 寫嘅哈佬世界型網頁[註 6][註 7]:
<!DOCTYPE html> <html> <head> <title>呢行字係呔圖</title> </head> <body> <div> <p>哈佬世界!</p> </div> </body> </html>當中
<html> </html>
嘜低邊段字係描述緊個網頁 <title> </title>
嘜低邊段字係標題,標題會顯示喺「視窗最頂嗰行」等嘅地方。 <body> </body>
嘜低邊段字係內容,即係一位用家入咗個網頁會睇到嘅嘢。 等等。
XML
[編輯]XML(Extensible Markup Language)係另一隻好多人用嘅標記語言,會用人同電腦都識睇嘅方式嘜好文件。XML 同 HTML 有好多相似嘅地方,例如兩者都係用 <>
噉嘅符號括住啲標籤嘅。不過兩者亦有重要嘅差異[9]:
- 同 HTML 比起嚟,XML 嘅終極目標唔係「點樣顯示啲數據出嚟睇」(或者用第啲方法 output 出去);
- XML 唔似得 HTML 噉傾向會事先定義好啲標籤;
- XML 提供嘅係定義一套標記語言嘅框架;
例如係以下呢段 XML 碼噉[10]:
<note>
<to>阿香</to> <!-- 傳畀... -->
<from>明仔</from> <!-- 傳嗰個係... -->
<head>有嘢想提提你</head> <!-- 個標題係... -->
<body>聽日下晝四點見面。</body> <!-- 段內文係... -->
</note>
上述段碼係純描述性質嘅,好似 <to>
、<from>
同 <head>
等嘅標籤淨係負責嘜低「每段數據係乜」,唔會話教部電腦邊段字要粗體等顯示性質嘅資訊。如果用家想例如標題要用大隻嘅粗體字顯示,就要另外有個程式教部機「用 <head>
呢款標籤嘜咗嘅內容,要用大隻粗體字顯示」。
語言學家做研究時不時會用到 XML:語言學上嘅研究好多時都要用到語料;語料包括咗由研究緊嗰隻語言寫出嚟嘅文字,語料嘅文字往往會用 XML 落標籤,(簡化講)例如嘜好晒段字入面每隻字屬於邊種詞性,跟住語言學家就可以寫程式教電腦自動噉數吓每個段落入面動詞同名詞分別出現咗幾多次,再睇吓呢啲頻率會受咩因素影響...呀噉[11]。
睇埋
[編輯]- 程式語言,另一類常用嘅電腦語言;標記語言係用嚟將文字等嘅數據嘜清楚同整理嘅,而程式語言就係用嚟教電腦一步步噉做運算,可以用嚟創造應用程式等嘅嘢。
- 語料庫:製作語料庫實會用標記語言嘜好晒啲語料。
- 語義網:標記語言可以用嚟幫手達致語義網。
詞彙
[編輯]以下係篇文提過嘅重要詞彙嘅粵英對照,當中啲羅馬化用嘅係粵拼:
- 電腦語言 / din6 nou5 jyu5 jin4 / computer language
- 程式語言 / cing4 sik1 jyu5 jin4 / programming language
- 展現型(標記) / cing4 bei2 jan4 tai2 jing4 / presentational (markup)
- 描述型(標記) / miu4 seot6 jing4 / descriptive (markup)
- 程序型(標記) / go3 cing4 jing4 / procedural (markup)
- 瀏覽器 / jau4 laam5 hei3 / browser
- 中繼資料 / zung1 gai3 zi1 liu2 / metadata
- 注釋 / zyu3 sik1 / comment
- 語料庫 / jyu5 liu2 fu3 / text corpus
- 語義網 / jyu5 ji6 mong5 / Semantic Web
註解
[編輯]- ↑ 喺絕大部份嘅瀏覽器,用咩方法顯示實際上係由 CSS 指定;HTML 因為歷史原因,可以指定某啲同顯示有關嘅設定,但係實際上好多時係 CSS 優先,可以取消 HTML 指定咗嘅顯示設定。
- ↑ 喺 HTML 標準,strong 元素指嘅係所謂 strong emphasis,但係萬維網聯盟其實一直都冇定義過 strong emphasis 係指乜,喺編輯界亦冇咁嘅概念,之不過 strong 嘅顯示方法一直都默認係粗體字;反而,喺平面設計,就有人提出過一種叫主動式強調[暫譯]嘅概念,指喺排版嘅時候,視覺上令人一眼望落去就見到被強調嘅字(而唔使睇文睇到隻字先見到強調咗),並且指出粗體字同意大利體嘅分別就係前者係主動,後者係被動[7]。
- ↑ 喺 HTML 標準,em 元素係指強調,冇話點強調法,不過就一直都默認顯示 em 即係用意大利體,但係如果 strong 指嘅係主動式強調,就可以假定 em 大概係指被動式;當然,亦可以唔用 strong 元素,用 em 表示主動式強調亦冇問題(例如,喺舊式嘅熒幕,用意大利體其實非常不智,亦即係,喺某啲環境,用粗體字可能係唯一可行嘅強調方法)。喺編輯界,概念上其實淨得 「強調」 同唔強調,強調根本冇等級。至於 em 元素點樣顯示,自從有咗 CSS 之後,喺支援 CSS 嘅瀏覽器,實際上係由 CSS 決定。
- ↑ 呢度講嘅標題係指網頁本身嘅標題,未必係顯示出嚟嘅標題,喺現實當中兩個標題好多時都唔夾。
- ↑ 喺 HTML 標準,p 元素係指嘜低嘅部分係段落,即係理論上係咁,但係某啲其他標籤會令 p 元素自動關閉,所以其實 p 並唔可以表示現實世界遇到嘅複雜段落,至多只可以表示 「換行」,當然實際上係咪換行係由 CSS 決定。
- ↑ 以下嘅碼係一個簡化嘅例子。實際專業應用上整網頁,一個網頁閒閒哋可以有成幾千行噉樣嘅碼。
- ↑ 要睇一個網頁嘅 HTML 碼好容易。視乎用緊咩瀏覽器,用家可以(例如)撳踎士右掣出選單,揀「睇 HTML 源」嘅選項睇個網頁嘅 HTML 碼。
引咗
[編輯]- ↑ Coombs, James H.; Renear, Allen H.; DeRose, Steven J. (November 1987). "Markup systems and the future of scholarly text processing". Communications of the ACM. 30 (11): 933-947.
- ↑ Bray, Tim (9 April 2003). "On Semantics and Markup, Taxonomy of Markup". www.tbray.org.
- ↑ Markup. CMU School of Computer Science.
- ↑ "First mention of HTML Tags on the www-talk mailing list". World Wide Web Consortium. October 29, 1991.
- ↑ Berners-Lee, Tim; Connolly, Daniel (June 1993). "Hypertext Markup Language (HTML): A Representation of Textual Information and MetaInformation for Retrieval and Interchange". w3.
- ↑ Raggett, D. (2005). Getting started with HTML. World Wide Web Consortion.
- ↑ Schwesinger, B. (2010). The Form Book: Creating forms for printed and online use. New York: Thames & Hudson.
- ↑ Cook, C., Garber, J., Cook, C., & Garber, J. (2012). HTML and CSS basics. Foundation HTML5 with CSS3, 17-36.
- ↑ Abiteboul, S., Benjelloun, O., & Milo, T. (2008). The Active XML project: an overview. The VLDB Journal, 17(5), 1019-1040.
- ↑ XML 基礎 (英文)
- ↑ Kroeze, J. H., Bothma, T. J. D., & Matthee, M. C. (2010). Constructing an XML database of linguistics data. TD: The Journal for Transdisciplinary Research in Southern Africa, 6(1), 139-174.
連結
[編輯]- (英文) HTML 入門簡介
- (英文) 探索吓 HTML 之外嘅標記語言
- (英文) XML 基礎