URL

Унифицированный указатель ресурса (от англ. Uniform Resource Locator, сокр. URL [ˌ j u ː ɑ ː r ˈ e l]) — система унифицированных адресов электронных ресурсов, или единообразный определитель местонахождения ресурса (файла)^[1].

Используется как стандарт записи ссылок на объекты в Интернете (Гипертекстовые ссылки во «всемирной паутине» www).

Для обозначения электронного адреса используют аббревиатуру «URL» по ГОСТ Р 7.0.5-2008.

История[править | править код]

URL был изобретён Тимом Бернерсом-Ли в 1990 году в стенах Европейского совета по ядерным исследованиям (фр. Conseil Européen pour la Recherche Nucléaire, CERN) в Женеве, Швейцария. URL стал фундаментальной инновацией в Интернете. Изначально URL предназначался для обозначения мест расположения ресурсов (чаще всего файлов) во Всемирной паутине. Сейчас URL применяется для обозначения адресов почти всех ресурсов Интернета. Стандарт URL закреплён в документе RFC 3986. Сейчас URL позиционируется как часть более общей системы идентификации ресурсов URI, сам термин URL постепенно уступает место более широкому термину URI. Стандарт URL регулируется организацией IETF и её подразделениями.

В 2009 году Тим Бернерс-Ли высказал мнение об избыточности двойного слеша // в начале URL, после указания сетевого протокола^[2]^[3].

Структура URL[править | править код]

URL был разработан как система для максимально естественного указания на местонахождения ресурсов в сети. Локатор должен был быть легко расширяемым и использовать лишь ограниченный набор ASCII‐символов (к примеру, в URL никогда не применяется пробел). В связи с этим возникла следующая традиционная форма записи URL:

<схема>:[//[<логин>[:<пароль>]@]<хост>[:<порт>]][/<URL‐путь>][?<параметры>][#<якорь>]

В этой записи:

схема[править | править код]

схема обращения к ресурсу; в большинстве случаев имеется в виду сетевой протокол

логин[править | править код]

имя пользователя, используемое для доступа к ресурсу

пароль[править | править код]

пароль указанного пользователя

хост[править | править код]

полностью прописанное доменное имя хоста в системе DNS или IP-адрес хоста в форме четырёх групп десятичных чисел, разделённых точками; числа — целые в интервале от 0 до 255.

порт[править | править код]

порт хоста для подключения

URL-путь[править | править код]

уточняющая информация о месте нахождения ресурса; зависит от протокола.

параметры[править | править код]

строка запроса с передаваемыми на сервер (методом GET) параметрами. Начинается с символа ?, разделитель параметров — знак &. Пример: ?параметр_1=значение_1&параметр_2=значение_2&параметр3=значение_3

якорь[править | править код]

идентификатор «якоря» (англ.) (рус. с предшествующим символом #. Якорем может быть указан заголовок внутри документа или атрибут id (англ.) (рус. элемента. По такой ссылке браузер откроет страницу и переместит окно к указанному элементу. Например, ссылка на этот раздел статьи: https://ru.wikipedia.org/wiki/URL#Структура_URL.

Схемы (протоколы) URL[править | править код]

Общепринятые схемы (протоколы) URL включают:

ftp — протокол передачи файлов FTP
http — протокол передачи гипертекста HTTP
rtmp — проприетарный протокол потоковой передачи данных Real Time Messaging Protocol, в основном используется для передачи потокового видео и аудио с веб-камер через Интернет.
rtsp — потоковый протокол реального времени.
https — специальная реализация протокола HTTP, использующая шифрование (как правило, SSL или TLS)
gopher — протокол Gopher
mailto — адрес электронной почты
news — новости Usenet
nntp — новости Usenet через протокол NNTP
irc — протокол IRC
smb — протокол SMB/CIFS
prospero — служба каталогов Prospero Directory Service
telnet — ссылка на интерактивную сессию Telnet
wais — база данных системы WAIS
xmpp — протокол XMPP (часть Jabber)
file — имя локального файла
data — непосредственные данные (Data: URL)
tel — звонок по указанному телефону

Экзотические схемы URL:

afs — глобальное имя файла в файловой системе Andrew File System
cid — идентификатор содержимого для частей MIME
mid — идентификатор сообщений для электронной почты
mailserver — доступ к данным с почтовых серверов
nfs — имя файла в сетевой файловой системе NFS
tn3270 — эмуляция интерактивной сессии Telnet 3270
z39.50 — доступ к службам ANSI Z39.50
skype — протокол Skype
smsto — открытие редактора SMS в некоторых мобильных телефонах
ed2k — файлообменная сеть eDonkey, построенная по принципу P2P
market — Android-маркет
steam — протокол Steam
bitcoin — криптовалюта Биткойн
ob — OpenBazaar
tg — Telegram

Схемы URL в браузерах:

view-source — просмотр исходного кода указанной веб-страницы в различных браузерах.
В разных браузерах используются разные ключевые слова для доступа к служебным и сервисным страницам:
- chrome в браузере Google Chrome и других браузерах на движке Chromium^[4];
- about в Firefox и других браузерах на движке Gecko;
- opera в Opera;
- browser в Яндекс.Браузер.

Кодирование URL[править | править код]

Стандарт URL использует набор символов US-ASCII. Это имеет серьёзный недостаток, поскольку разрешается использовать лишь латинские буквы, цифры и несколько знаков пунктуации. Все другие символы необходимо перекодировать. Например, перекодироваться должны буквы кириллицы, буквы с диакритическими знаками, лигатуры, иероглифы. Перекодирующая кодировка описана в стандарте RFC 3986 и называется URL-encoding, URLencoded или percent‐encoding.

Пример кодирования можно видеть в русскоязычной Википедии, использующей в URL русский язык. Например, строка вида:

https://ru.wikipedia.org/wiki/Википедия

кодируется как:

https://ru.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F

Реализация[править | править код]

Преобразование происходит в два этапа: сначала каждый символ кириллицы кодируется в UTF-8 в последовательность из двух байтов, а затем каждый байт этой последовательности записывается в шестнадцатеричном представлении с предшествующим знаком процента (%):

В → D0 и 92 → %D0%92
и → D0 и B8 → %D0%B8
к → D0 и BA → %D0%BA
и → D0 и B8 → %D0%B8, и т. д.

Зарезервированные символы^[5]
`!`	`*`	`'`	`(`	`)`	`;`	`:`	`@`	`&`	`=`	`+`	`$`	`,`	`/`	`?`	`#`	`[`	`]`

Не зарезервированные символы^[5]
`A`	`B`	`C`	`D`	`E`	`F`	`G`	`H`	`I`	`J`	`K`	`L`	`M`	`N`	`O`	`P`	`Q`	`R`	`S`	`T`	`U`	`V`	`W`	`X`	`Y`	`Z`
`a`	`b`	`c`	`d`	`e`	`f`	`g`	`h`	`i`	`j`	`k`	`l`	`m`	`n`	`o`	`p`	`q`	`r`	`s`	`t`	`u`	`v`	`w`	`x`	`y`	`z`
`0`	`1`	`2`	`3`	`4`	`5`	`6`	`7`	`8`	`9`	`-`	`_`	`.`	`~`

Все другие символы в URI кодируются.

Зарезервированные символы кодируются в таком соответствии:

!	"	#^[6]	$	%	&^[6]	'	*	+	,^[6]	:^[6]	;^[6]	<	=^[6]	>	?^[6]	[	]	^	`	{	\|	}	<пробел>
%21	%22	%23	%24	%25	%26	%27	%2A	%2B	%2C	%3A	%3B	%3C	%3D	%3E	%3F	%5B	%5D	%5E	%60	%7B	%7C	%7D	%20^[7]

Кодирование параметров в Internet Explorer и старом Firefox происходит несколько иначе^[8].

В некоторых случаях URL формируется с использованием кодирования Base58^[9].

Стандарт IRI[править | править код]

Поскольку такому преобразованию подвергаются буквы всех алфавитов, кроме базовой латиницы, то URL со словами подавляющего большинства языков может стать нечитаемым для человека.

Это всё входит в противоречие с принципом интернационализма, провозглашаемого всеми ведущими организациями Интернета, включая W3C и ISOC. Эту проблему призван решить стандарт IRI (англ. Internationalized Resource Identifier) — международных идентификаторов ресурсов, в которых можно было бы без проблем использовать символы Юникода, и которые поэтому не ущемляли бы права других языков. Хотя заранее сложно сказать, смогут ли когда‐либо идентификаторы IRI заменить столь широко используемые URL (и URI в целом).

Ограничение длины[править | править код]

Формально, длина URL не ограничена, но браузеры имеют ограничения по длине URL. Не рекомендуется использовать URL длиной более 2048 символов, так как Microsoft Internet Explorer имеет именно такое ограничение^[10].

Инициатива PURL[править | править код]

Ещё один кардинальный недостаток URL состоит в отсутствии гибкости. Ресурсы во Всемирной паутине и Интернете перемещаются, а ссылки в виде URL остаются, указывая на уже отсутствующие ресурсы. Это особенно болезненно для электронных библиотек, каталогов и энциклопедий. Для решения этой проблемы были предложены постоянные локаторы PURL (англ. Persistent Uniform Resource Locator). В сущности это те же URL, но они указывают не на конкретное место расположения ресурса, а на запись в базе данных PURL, где, в свою очередь, записан уже конкретный URL‐адрес ресурса. При обращении к PURL сервер находит нужную запись в этой базе данных и перенаправляет запрос уже на конкретное местоположение ресурса. Если адрес ресурса меняется, то нет нужды исправлять все бесчисленные ссылки на него — достаточно лишь изменить запись в БД. В настоящий момент эта идея не стандартизирована и не имеет широкого распространения.

См. также[править | править код]

Примечания[править | править код]

↑ URL (Uniform Resource Locator) — Унифицированный указатель ресурса. Адрес информационного ресурса (файла) в сети Интернет — Сборник акронимов из области вычислительной техники и программирования. 2006.
↑ Двойной слеш в адресах интернета появился из-за спешки его создателя (неопр.). РИА Новости (2009-10-14 19:05). Дата обращения: 11 июля 2010. Архивировано 25 августа 2011 года.
↑ Создатель интернета сожалеет о двойном слеше (неопр.). 3DNews Daily Digital Digest (14 октября 2009). Дата обращения: 26 февраля 2020. Архивировано 26 февраля 2020 года.
↑ The Chrome URL (неопр.). Дата обращения: 9 декабря 2014. Архивировано 21 октября 2014 года.
↑ ¹ ² RFC 3986, раздел 2.2
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ Символ допустим, но при указании прямым текстом несёт специальное синтаксическое значение
↑ MediaWiki избегает кодирования пробела как %20, вместо этого он везде заменяется символом подчёркивания «_». Многие поисковики заменяют пробел на символ «+».
↑ HTTP, RFC 3986 и браузеры
↑ Flickr Services (неопр.). Дата обращения: 19 сентября 2014. Архивировано 12 августа 2014 года.
↑ Максимальная длина URL-адреса в Internet Explorer составляет 2083 символа (неопр.). microsoft.com. Дата обращения: 10 мая 2015. Архивировано 15 ноября 2016 года.

Ссылки[править | править код]

[1] URL (Uniform Resource Locator) — Унифицированный указатель ресурса. Адрес информационного ресурса (файла) в сети Интернет — Сборник акронимов из области вычислительной техники и программирования. 2006.

[2] Двойной слеш в адресах интернета появился из-за спешки его создателя (неопр.). РИА Новости (2009-10-14 19:05). Дата обращения: 11 июля 2010. Архивировано 25 августа 2011 года.

[3] Создатель интернета сожалеет о двойном слеше (неопр.). 3DNews Daily Digital Digest (14 октября 2009). Дата обращения: 26 февраля 2020. Архивировано 26 февраля 2020 года.

[4] The Chrome URL (неопр.). Дата обращения: 9 декабря 2014. Архивировано 21 октября 2014 года.

[RFC_3986-5] ¹ ² RFC 3986, раздел 2.2

[s-6] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ Символ допустим, но при указании прямым текстом несёт специальное синтаксическое значение

[7] MediaWiki избегает кодирования пробела как %20, вместо этого он везде заменяется символом подчёркивания «_». Многие поисковики заменяют пробел на символ «+».

[8] HTTP, RFC 3986 и браузеры

[9] Flickr Services (неопр.). Дата обращения: 19 сентября 2014. Архивировано 12 августа 2014 года.

[10] Максимальная длина URL-адреса в Internet Explorer составляет 2083 символа (неопр.). microsoft.com. Дата обращения: 10 мая 2015. Архивировано 15 ноября 2016 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Схемы URI
Официальные	aaa aaas about acap cap cid crid data dav dict dns fax file ftp go gopher h323 http https im imap iri ldap mailto mid news nfs nntp pop pres rtsp sip sips snmp tel telnet urn url view-source wais xmpp
Неофициальные	aim bolo btc bzr callto chrome cvs cs2d daap ed2k ed2kftp feed fish git gizmoproject iax2 irc ircs itms lastfm ldaps magnet mms msnim psyc rsync secondlife skype ssh svn sftp smb sms soldat steam webcal xfire ymsgr

Словари и энциклопедии	Большая каталанская Большая норвежская Britannica (онлайн)
В библиографических каталогах	GND: 4753514-3 NKC: ph222874

URL

Содержание

История[править | править код]

Структура URL[править | править код]

схема[править | править код]

логин[править | править код]

пароль[править | править код]

хост[править | править код]

порт[править | править код]

URL-путь[править | править код]

параметры[править | править код]

якорь[править | править код]

Схемы (протоколы) URL[править | править код]

Кодирование URL[править | править код]

Реализация[править | править код]

Стандарт IRI[править | править код]

Ограничение длины[править | править код]

Инициатива PURL[править | править код]

См. также[править | править код]

Примечания[править | править код]

Ссылки[править | править код]

Навигация

URL

История[править | править код]

Структура URL[править | править код]

схема[править | править код]

логин[править | править код]

пароль[править | править код]

хост[править | править код]

порт[править | править код]

URL-путь[править | править код]

параметры[править | править код]

якорь[править | править код]

Схемы (протоколы) URL[править | править код]

Кодирование URL[править | править код]

Реализация[править | править код]

Стандарт IRI[править | править код]

Ограничение длины[править | править код]

Инициатива PURL[править | править код]

См. также[править | править код]

Примечания[править | править код]

Ссылки[править | править код]

Навигация

Поиск