Tổng quan về dữ liệu, tập tin và văn bản
Tệp nhị phân là tệp mà nội dung của nó chỉ chứa các ký tự 0 hoặc 1. Nội
dung này có thể đã được biên dịch thành ngôn ngữ máy[1]
và do đó chỉ có máy mới có thể đọc và hiểu được.
Bảo toàn dữ liệu: trong quá trình nhập xuất dữ
liệu không bị biến đổi. Dữ liệu ghi trên tệp theo các byte nhị phân như trong
bộ nhớ.
Mã kết thúc tệp
trong khi đọc nếu gặp cuối tệp thì ta nhận được mã kết thúc tệp EOF (định nghĩa
trong stdio.h bằng -1) và hàm feof cho giá trị khác 0. Lý do chọn số -1 làm mã
kết thúc tệp là vì nếu chưa gặp cuối tệp thì sẽ đọc được một byte có giá trị từ
0 đến 255. Như vậy giá trị -1 sẽ không trùng với bất kỳ byte nào đọc được từ tệp.
Cũng giống như tệp nhị phân, các tệp văn bản là một chuỗi các bit. Tuy
nhiên trong tệp văn bản, các bít này được nhóm với nhau theo một chuẩn sao cho
chúng luôn luôn hình thành lên các số. Các số này được ánh xạ thành các ký tự.
Tệp nhị phân và tệp văn bản, khi biểu diễn nội dung nhất định đều có ưu
điểm và nhược điểm của nó. Người ta muốn tạo ra một kiểu định dạng gồm có tất cả
các ưu điểm của hai loại định dạng trên.
Đánh dấu ở đây có thể được hình dung như sau, khi ta đọc một cuốn sách, cần
có những chỗ ta muốn đánh dấu rằng chúng quan trọng, có cách nào làm việc này.
Thứ nhất, ta có thể dùng bút đổi màu để bôi lên phần chữ, hoặc những phần của
cuốn sách mà ta cho là cần thiết. Thứ 2 ta có thể đóng khung phần cần thiết đó
lại và ghi chú trỏ vào phần đóng khung đó điều cần thiết là gì, tất nhiên là bằng
một màu mực khác so với màu mực chung của văn bản.
HTML (tiếng Anh, viết tắt cho HyperText Markup Language, tức là
"Ngôn ngữ Đánh dấu Siêu văn bản") là một ngôn ngữ đánh dấu được thiết
kế ra để tạo nên các trang web, nghĩa là các mẩu thông tin được trình bày trên World
Wide Web. Được định nghĩa như là một ứng dụng đơn giản của SGML, vốn được sử dụng
trong các tổ chức cần đến các yêu cầu xuất bản phức tạp, HTML giờ đây đã trở
thành một chuẩn Internet do tổ chức World Wide Web Consortium (W3C) duy trì.
Phiên bản mới nhất của nó hiện là HTML 4.01. Tuy nhiên, HTML hiện không còn được
phát triển tiếp. Người ta đã thay thế nó bằng XHTML.
Dùng HTML động hoặc Ajax ,
có thể được tạo ra và xử lý bởi số lượng lớn các công cụ, từ một chương trình
soạn thảo văn bản đơn giản – bạn có thể gõ vào ngay từ những dòng đầu
tiên – cho đến những công cụ xuất bản WYSIWYG phức tạp.
HTML và XML không thay thế được cho nhau, nếu như HTML là ngôn ngữ biểu
diễn dữ liệu thì XML là ngôn ngữ dùng để trao đổi dữ liệu.
·
HTML là chữ viết tắt của Hyper Text Markup Language (Ngôn
ngữ hiển thị siêu văn bản).
·
Một file HTML là một file text bao gồm những tag nhỏ.
·
Những tag hiển thị nói cho trình duyệt biết nó phải hiển thị
trang đó như thế nào.
·
Một file HTML phải có phần mở rộng là .htm hoặc .html
·
Một file HTML có thể được tạo bởi một trình soạn thảo đơn
giản.
Các dạng thẻ HTML
·
Thẻ HTML dùng để viết lên những thành tố HTML
·
Thẻ HTML được bao quanh bởi hai dấu lớn hơn < và > nhỏ
hơn.
·
Những thẻ HTML thường có một cặp giống như <b> và
</b>
·
Thẻ thứ nhất là thẻ mở đầu và thẻ thứ hai là thẻ kết thúc.
·
Dòng chữ ở giữa hai thẻ bắt đầu và kết thúc là nội dung.
·
Những thẻ HTML không phân biệt in hoa và viết thường, ví dụ
dạng <b> và <B> đều như nhau,
Những thẻ HTML cơ bản
Tag
|
Mô Tả
|
<html>
|
Xác định một văn bản dạng HTML
|
<body>
|
Xác định phần thân của tài liệu
|
<h1> to <h6>
|
Xác định header từ 1 đến 6
|
<p>
|
Xác định một đoạn văn
|
<br>
|
Chèn một dòng trắng
|
<hr>
|
Xác định một đường thẳng
|
<!-->
|
Xác định vùng chú thích
|
<table>
|
|
<td>
|
|
<tr>
|
Những thẻ
dùng để định dạng văn bản
Tag
|
Mô Tả
|
<b>
|
Định dạng chữ đậm
|
<big>
|
Định dạng chữ lớn
|
<em>
|
Định dạng kiểu chữ được nhấn mạnh
|
<i>
|
Chữ in nghiêng
|
<small>
|
Chữ nhỏ
|
<strong>
|
Chữ đậm
|
<sub>
|
định dạng subscripted (chữ nhỏ)
|
<sup>
|
Đ5inh dạng superscripted (chữ lên cao)
|
<ins>
|
Dạng chữ mới chèn them
|
<
|
Dạng chữ bị xóa
|
<s>
|
Hết hỗ trợ. Thay bằng <
|
<strike>
|
Hết hỗ trợ. Thay bằng <
|
<u>
|
Gạch dưới
|
XML
XML (viết tắt từ tiếng Anh eXtensible Markup Language,
"Ngôn ngữ Đánh dấu khả mở") là ngôn ngữ đánh dấu với mục đích chung
do W3C đề nghị, để tạo ra các ngôn ngữ đánh dấu khác. Đây là một tập con đơn giản
của SGML, có khả năng mô tả nhiều loại dữ liệu khác nhau. Mục đích chính của
XML là đơn giản hóa việc chia sẻ dữ liệu giữa các hệ thống khác nhau, đặc biệt
là các hệ thống được kết nối với Internet. Các ngôn ngữ dựa trên XML (thí dụ: RDF,
RSS, MathML, XHTML, SVG, GML và cXML) được định nghĩa theo cách thông thường,
cho phép các chương trình sửa đổi và kiểm tra hợp lệ bằng các ngôn ngữ này mà
không cần có hiểu biết trước về hình thức của chúng.
XML là ngôn ngữ
xây dựng cấu trúc tài liệu văn bản, dựa theo chuẩn SGML (Standard Generalized
Markup Language: siêu ngôn ngữ có khả năng sinh ngôn ngữ khác). SGML được phát
triển cho việc định cấu trúc và nội dung tài liệu điện tử, do tổ chức ISO
(International Organization for Standards) chuẩn hoá năm 1986.
SGML là do IBM đưa ra, song không thể không kể đến những đóng góp của các công
ty khác. XML được W3C (World Wide Web Consortium: tổ chức độc lập định ra tiêu
chuẩn cho trình duyệt Web, máy chủ và ngôn ngữ) phát triển, nhưng đặc tả XML
lại do Netscape, Microsoft và các thành viên của dự án Text Encoding Initiative
(TEI) xây dựng. Tổ chức W3C XML Special Interest Group có đại diện từ hơn 100
công ty cùng nhiều chuyên gia được mời khác.
Các ứng dụng XML
Nhiều nhà sản xuất đã công bố các chuẩn và ứng dụng XML, tiêu biểu là Document
Object Model Level 2 cung cấp tập chuẩn gồm các đối tượng để trình bày tài liệu
HTML và XML, đồng thời bổ sung các giao tiếp kiểu đối tượng Cascading Style
Sheets (CSS), giao tiếp kiểu sự kiện và truy vấn.
Cũng là một trở ngại khi mãi tới năm 1998, các công cụ tạo XML, DTD (Document
Type Definition ố định nghĩa loại tài liệu: một kiểu tập tin kết hợp với tài
liệu đánh dấu để định ra cách thông dịch tài liệu bằng ứng dụng thông qua thẻ
đánh dấu) mới được đưa ra. Tuy nhiên đông đảo các nhà sản xuất đã và sẽ hỗ trợ
XML trong những sản phẩm sắp tới. Ngoài ra, XML hứa hẹn mở rộng khả năng định
dạng tài liệu Web thông qua việc bổ sung các DTD.
Trên cơ sở sự
quan tâm và chấp nhận XML, trong năm nay, các nhà sản xuất sẽ đưa ra thị trường
những sản phẩm hỗ trợ XML mang tính chất "chào hàng".
Interleaf Composer/Styler là công cụ đồ hoạ tạo XML sử dụng XSL (Extensible
StyleSheet Language) (www.interleaf.com). XSL là đặc tả phân biệt mẫu tài liệu
thông qua nội dung khi tạo trang HTML hay XML. Đặc tả có tác dụng tương tự mẫu
định dạng (template), cho phép nhà thiết kế áp dụng cùng một mẫu cho nhiều
trang. XSL là đặc tả kiểu thứ hai được W3C đưa ra sau CSS (Cascading Style
Sheet ố hệ thống qui định "kiểu dáng" trang Web). Interleaf
Composer/Styler là một phần trong bộ sản phẩm BladeRunner được Interleaf công
bố vào tháng Sáu. BladeRunner có thể định dạng cùng dữ liệu XML theo nhiều kiểu
khác nhau, phụ thuộc mẫu trang được áp dụng.
RightDoc (http://www.rightdoc.com) đưa ra phiên bản RightDoc 2.0, đây là trình
soạn thảo văn bản XML, sử dụng XML và CSS như các định dạng tập tin và cũng có
thể xuất ra các định dạng HTML, PDF (Portable Document Format) và Postscript.
Trình này sử dụng Query Designer để tích hợp dữ liệu thông minh vào tài liệu
dùng ODBC (Open Database Connectivity), cho phép nhập trực tiếp dữ liệu mới vào
tài liệu.
General
Magic (http://www. generalmagic.com) sử dụng XML trong công nghệ xử lý tiếng
nói mang tên Kenya .
Kenya
dùng XML để lưu tham số người dùng vào chương trình. Sau đó, chương trình sẽ sử
dụng những tham số này để gọi tới người dùng và thông báo thông tin quan trọng
trên Web. Ví dụ, Kenya
có thể gọi và báo cho người thắng cuộc trên site bán đấu giá.
[1] Là một loại ngôn ngữ lập trình trong đó, mọi chỉ thị đều được biểu
diễn bằng các con số nhị phân 0 và 1.