MalaCiencia: Nuestra querida Ñ y la informática

jueves, febrero 15, 2007

Nuestra querida Ñ y la informática

Hace ya varios meses, al leer una noticia en 20 minutos sobre el anuncio acerca del uso de la letra Ñ en los dominios terminados en «.es», me sorprendió comprobar cómo la inmensa mayoría de gente que comentaba dicha noticia, además de tomárselo como una novedad técnica, criticaba que dichos dominios no serían accesibles desde teclados extranjeros que no tuviesen la tecla Ñ, o que serían ignorados por los buscadores. Algo totalmente erróneo, ya que el uso de la Ñ (y vocales acentuadas, y la cedilla, y un largo etcétera), es técnicamente posible en un nombre de dominio desde hace algún tiempo, se puede acceder a ellos desde teclados sin dicha letra, y son tenidos en cuenta por algunos buscadores (como Google).

Bueno, seguro que la mayoría de gente que comentaba la noticia no eran informáticos (algunos, incluso eran simplemente trolls, como suele ocurrir en el 20 minutos). Sin embargo, un tiempo después me sorprendió aún más un artículo del blog Batch4J sobre un tema similar (la discriminación de la Ñ), puesto que se trata de un blog técnico, cuyo autor y lectores son profesionales del mundo de la informática. Y si bien la Ñ, las vocales acentuadas y demás grafías características de nuestro idioma estuvieron discriminadas hace mucho tiempo, hace ya algunos años que la situación ha cambiado.

Veamos, una letra (o dígito, o símbolo) no es más que un número para un ordenador. La «traducción» de esos números a los caracteres que vemos en la pantalla, y viceversa, se conoce como codificación de caracteres. En los inicios de la informática se crearon varias codificaciones de caracteres, de las cuales la más conocida y utilizada durante mucho tiempo, y que incluso ha sobrevivido hasta nuestros días, es la ASCII. En esta codificación, cada carácter es representado mediante 7 bits, lo que nos da un total de 128 (2⁷) símbolos posibles (aunque no todos imprimibles). ¿Por qué 7 y no 8, que sería un byte completo? Pues porque originalmente esta codificación estaba pensada para transmision de datos, y el bit restante se utilizaba como bit de paridad (una forma sencilla de detectar algunos errores). Pero lo importante es que el ASCII es un estándar estadounidense, por lo que codificaron únicamente los símbolos utilizados en la lengua de Shakespeare. Así, tenemos la letra W, y no la Ñ, y tenemos el símbolo «#» (utilizado en ingles como abreviatura de número) y no nuestra «ª».

Posteriormente, cuando dejó de tener sentido el mantener ese bit de paridad, se crearon tablas ASCII extendidas, con 128 caracteres más (256 en total, es decir, 2⁸), de forma que se incluyeron las distintas vocales acentuadas y demás grafías de otros idiomas europeos. Fijaos que he utilizado el plural, y es que durante esa época surgieron más de una variante, con símbolos diferentes, dependiendo de la compañía o comunidad que creara la tabla, por lo que para garantizar una interoperabilidad entre distintas plataformas, era más que conveniente limitarse a los primeros 128 caracteres en determinado ámbitos, es decir, seguir prescindiendo eñes y demás.

Uno de esos ámbitos era la Web. Las páginas web estan escritas en un lenguaje de etiquetas conocido como HTML (y desde hace algún tiempo, también XHTML; hablé de ello en una ocasión). Inicialmente, puesto que una página podría ser accedida desde cualquier parte del mundo, había que limitarse al uso de la codificación ASCII de 7 bits en ellas. Si no, era muy posible que la página en cuestión no se viera correctamente en todos sitios. Para poder representar más símbolos de lo que nos permitía esa codificación, se crearon las llamadas entidades HTML, que efectos prácticos eran una serie de códigos entre los símbolos «&» y «;», que eran interpretados por los navegadores. Así, para poner una Ñ era necesario escribir Ñ (la ñ minúscula era ñ), para una A acentuada (Á) había que poner Á (á para la minúscula), y un largo etcétera, entre los que se incluían grafías de otros idiomas occidentales (como la e con acento circunflejo: ê) y símbolos matemáticos (como el de infinito: ∞).

Es obvio que escribir un texto en castellano en estas condiciones, es bastante molesto. Uno debe recurrir a algún tipo de aplicación que genere esos códigos de forma automática, o bien recordarlos y teclearlos si necesitamos escribir el HTML «a pelo». Afortunadamente, hace años que la situación ha cambiado. Veréis, el protocolo HTTP (que es el que se utiliza en la Web para acceder a las páginas) permite entre otras cosas que se le especifique la codificación de caracteres que utiliza la página. Además, en el propio HTML se puede especificar esa misma información en lo que se conoce como «metatag» (etiqueta <meta>), en caso de que no venga en la cabecera HTTP (si se especifica en ambos sitios, la cabecera HTTP tiene preferencia sobre la etiqueta HTML). Esto no sería demasiado útil si utilizamos una codificación que no implementen todos los navegadores, y aquí es donde los estándares vienen al rescate.

La ISO comenzó a definir allá por los 90 unas codificaciones estándar conocidas como ISO 8859, en las que los 128 primeros caracteres coincidían con los del ASCII de 7 bits, y los 128 restantes codificaban distintos símbolos o letras, dependiendo de la tabla (a día de hoy, hay 15). La más utilizada es la ISO 8859-1, llamada también Latin 1, que incluye los caracteres necesarios para escribir en la mayoría de idiomas de Europa occidental, entre los que se encuentra el español. Esta página que leeis utiliza esa codificación, y si veis el código HTML (al seleccionar la opción «Ver código fuente...» o similar de vuestro navegador) comprobaréis que ahí están las eñes, las vocales acentuadas y los signos de apertura de interrogación y exclamación, tal cual, sin utilizar las entidades HTML. Yo puedo teclear directamente el código HTML del artículo, sin la molestia de tener que escribir «á» en vez de «á».

La codificación ISO 8859-1 tiene algunas peculiaridades que no me resisto a comentar. Al ser anterior al euro, no incluye el símbolo €. Si lo necesitamos (y no queremos teclear €) debemos utilizar la codificación ISO 8859-15 (también conocida como Latin 9) que sí lo incluye, junto con algunos caracteres no contemplados en la ISO 8859-1 (y necesarios para los idiomas que se supone que cubre). ~~Aunque al hacerlo, excluye el símbolo «|» (barra vertical), que es muy utilizado en el mundo de la informática. No podríamos hacer un manual de Unix, por ejemplo.~~ Otro detalle interesante es que incluye las llamadas comillas latinas (o francesas, o españolas) « » y no las comillas inglesas (a veces llamadas tipográficas) “ ”. Una curiosidad sobre ellas, es que al imprimir textos en castellano, son precisamente las comillas latinas las que, desde un punto de vista formal, se deberían utilizar, mientras que las inglesas son utilizadas en textos en inglés. Sin embargo, en la Web se utilizan más las inglesas, supongo que por el extendido uso del Word, que sustituye automáticamente las comillas «planas» (", que suelen estar en la tecla del 2, y por tanto son las más cómodas de utilizar) por aquellas. Lo gracioso es que si utilizamos la codificación ISO 8859-1, necesitamos utilizar entidades HTML para las comillas inglesas, y no para las latinas.

Bueno, sigamos, porque la cosa de las codificaciones de caracteres no acaba aquí. Las codificaciones ISO 8859 están muy bien, pero tienen sus limitaciones, como hemos visto. Hay tablas para muchos idiomas y alfabetos (incluidos el griego y el cirílico), pero no están incluidos otros, como el chino o el japonés. Por ello, surgió el llamado Unicode, que es una codificación que pretende incluir todos los alfabetos y símbolos existentes. De momento, ya tiene varios miles de caracteres, e incluye alfabetos de lenguas muertas, y multitud de símbolos matemáticos o musicales. Conviene hacer notar que Unicode no es realmente una codificación de caracteres, sino un conjunto o repertorio de caracteres. Para su uso real por parte de las aplicaciones, es necesario definir una codificación concreta, es decir, cómo se van a representar en el mundo de los bits. Las codificaciones más conocidas y utilizadas para ello son UTF-8 y UTF-16. En UTF-8, cada caracter se representa con 1, 2, 3 ó 4 bytes, dependiendo del caracter en cuestión. Los caracteres representables con 1 byte coinciden con la codificación ASCII de 7 bits (por aquello de la compatibilidad), pero letras como la Ñ, o las vocales acentuadas, se representan con 2 bytes. En UTF-16, en cambio, los caracteres siempre se representan con 2 bytes.

La mayoría de navegadores modernos soportan UTF-8, y su uso se está extendiendo mucho en la Web, convirtiéndose casi en obligado. Con UTF-8 podemos utilizar cualquier símbolo Unicode, y utilizar tanto nuestro alfabeto latino, como el cirílico, el griego, o el japonés, mezclados en el mismo texto. Un ejemplo es la misma Wikipedia, y podéis ver que en sus artículos se pueden combinar todos los alfabetos. Fijáos por ejemplo en la lista de enlaces a otros idiomas, que están con el alfabeto de cada uno (aunque no conviene olividar que, aunque el navegador entienda UTF-8, necesitaremos tener instaladas las tipografías adecuadas).

Así que utilizando alguna de esas codificaciones, nuestra querida Ñ no tiene nada de particular, y podemos utilizarla sin problemas. Vale, pero ¿qué ocurre con los nombres de dominio? Bueno, para eso tenemos el estándar IDN, del que ya expliqué algo en uno de mis primeros envíos. ¿En qué consiste? Pues básicamente, el IDN nos permite utilizar Unicode en los nombres de dominio, de forma que podemos crear dominios como www.ñandú.cl, o räksmörgås.josefsson.org (ambos reales), y que sean perfectamente accesibles. Bueno, accesibles si el navegador soporta IDN, cosa que el Microsoft Explorer no hace, en sus versiones anteriores a la 7 (mientras que otros llevaban más de un año haciéndolo).

El acceder a una dirección de ese tipo para alguien sin los caracteres necesarios en su teclado, no es problema. Primero, porque pocas veces tecleamos una dirección a mano, sino que accedemos a las páginas a través de enlaces en otras, o en nuestros marcadores. Segundo, porque si tuvieramos que hacerlo, en algunos sistemas operativos disponemos de una pequeña herramienta que nos permite seleccionar cualquier caracter de una tabla Unicode (en Windows, es el «Mapa de caracteres»). Y tercero, porque para mantener la compatibilidad con navegadores sin soporte IDN, existe algo llamado Punycode, que es una representación en ASCII de un texto Unicode, de forma que cualquiera podría teclearlo (eso sí, hay que conocerlo, y es de suponer que una web con esos dominios, publicitará tanto su nombre como su representación en Punycode).

Estos dominios tampoco son problema para los buscadores. Al menos para los más populares. Yo he probado a buscar las palabras «ñandú» y «räksmörgås» en Google y en Yahoo, y los dominios que he mencionado antes, aparecen en los resultados de búsqueda. Y en la primera página, salvo en el caso de buscar ñandú en Yahoo (que aparece en la 5ª).

Ha llevado su tiempo, pero en muchos ámbitos, nuestra Ñ ya es una letra como las demás, en el mundo de la informática. Sólo es cuestión de tiempo que las aplicaciones y sistemas que aún no soporten esos estándares, vayan adoptándolos.

Actualización 22 de febrero de 2007: Al migrar a la nueva versión de Blogger, la codificación de este blog ha pasado de ISO 8859-1 a UTF-8.

25 comentarios:

Anónimo15 febrero, 2007 21:06
Un post muy largo para decir poco. Hasta el tercer parrrafo no hay nada interesante realmente.

"El acceder a una dirección de ese tipo para alguien sin los caracteres necesarios en su teclado, no es problema."

No es problema... pero si lo es y en dos puntos importantes.
- Mucha gente, hoy, usa IE y mucha con versiones inferiores a la 7.0
- Enlaces, dificultas que un anglosajón ponga un enlace en su web hacia la tuya
ResponderEliminar
Respuestas
Anónimo15 febrero, 2007 21:38
Me parece que esto es una complicación innecesaria. Los nombres de dominio deberían estar limitados al ASCII de 7 bits que ha funcionado por años y es complatible con todas las plataformas.

La intraestructura actual de DNS no está preparada en su totalidad para soportar Unicode y lo que ha sucedido es que se introduce el potencial de fraudes debido a caracteres con código diferente pero que se ven iguales.

¿Para qué tanto problema?
ResponderEliminar
Respuestas
Vero15 febrero, 2007 22:00
La posibilidad de utilizar caracteres 'especiales' en los nombres de dominio, fue una trampa de los registradores de dominio para que se registraran más dominios, y muchas emrpesas y particulares cayeron. Me recuerda a las keywords que quiso 'colarnos' Microsoft.
ResponderEliminar
Respuestas
Anónimo15 febrero, 2007 22:21
Un detalle curioso en éste tipo de artículos es que para para visualizar el código de las entidades HTML hay que codificarlo a su vez. ¿Qué significa eso? Que si se escribe á se verá una a minúscula acentuada, sin embargo, para que se vea á, que es la codificación se debe codificar a su vez el símbolo &, de la forma &. Quien sea avispado habrá caído en la cuenta que para codificar la codificación de & he tenido que escribir &amp; Y así hasta el infinito... ;) PD: No se como saldrá este comentario porque en la vista previa se carga la codificación de la codificación, decodificandola a su vez... Vaya, un follón.
ResponderEliminar
Respuestas
Anónimo15 febrero, 2007 22:38
Evidentemente, nunca programaste un sitio web con internacionalización, si no no estarias diciendo todas esas tonterías, la ñ trae un sinnúmero de problemas con los navegadores y tecnologías actuales, y cualquiera que haya trabajado en programación web lo sabe, del modo difícil.
ResponderEliminar
Respuestas
Anónimo16 febrero, 2007 08:20
Disiento totalmente del usuario anónimo. He programado sitios internacionales, y teniendo un poco claro como funciona el UTF-8 (y tirando de gettext para la implementación, pero eso es otra historia), funciona perfectamente. Claro que hay que saber lo que se hace, saber que cabeceras hacen falta y como aplicar UTF-8 al XHTML que estes escribiendo, que no basta con poner el meta famoso.
ResponderEliminar
Respuestas
Anónimo16 febrero, 2007 10:04
"si bien la Ñ, (...)estuvieron discriminadas hace mucho tiempo, hace ya algunos años que la situación ha cambiado."

Sí, la situación ha cambiado para mejor, pero todavía siguen discriminadas, aunque menos.
Como tu mismo dices para usarlas necesitas herramientas específicas, sistemas de apoyo y cosas tan cómodas como estar escribiendo y tener que usar el editor de caracteres...

Vamos por buen camino, y para escribir HTML puede ser suficiente, pero de momento yo no recomiendo a nadie que use dominios con caracteres extraños.

Saludos
Güimi
http://guimi.net (sin diéresis ;-)
ResponderEliminar
Respuestas
Alfonso de Terán Riva16 febrero, 2007 14:46
- Mucha gente, hoy, usa IE y mucha con versiones inferiores a la 7.0

Bueno, eso realmente da muchos más problemas. De hecho, es en sí mismo un problema, que el navegador más extendido tenga determinadas carencias (no sólo el IDN, pero el soporte CSS también deja bastante que desear).

- Enlaces, dificultas que un anglosajón ponga un enlace en su web hacia la tuya

La misma dificultad que pueda tener el título de la página. Si yo tengo una página llamada Jamón Ibérico, da igual el dominio, yo querría que el nombre del enlace fuera "Jamón Ibérico". Tendrá la misma dificultad (o no) con el título que con el enlace. Y en cualquier caso, siempre podrá poner la versión Punycode, que tendré la precaución de tener visible en mi página inicial, en una nota al pie.

Me parece que esto es una complicación innecesaria. Los nombres de dominio deberían estar limitados al ASCII de 7 bits que ha funcionado por años y es complatible con todas las plataformas.

Con ese argumento, podríamos decir que los diseños HTML con tablas siempre han funcionado, y las CSS son una complicación innecesaria. Y ya sabéis lo que opino de eso.

Y estoy seguro que los japoneses, chinos, árabes, y demás personas con un idioma que utilice un alfabeto no latino, no les parecerá innecesario en absoluto.

La intraestructura actual de DNS no está preparada en su totalidad para soportar Unicode y lo que ha sucedido es que se introduce el potencial de fraudes debido a caracteres con código diferente pero que se ven iguales.

Ciertamentel la infraestructura actual no está totalmente preparada. Pero se está en ello.

Lo de los fraudes, se pueden hacer independientemente del IDN o no. Es más, la inmensa mayoría de fraudes actuales de ese tipo, no utiliza dominios IDN, puesto que hasta la versión 7, el Explorer no lo soportaba, y el fraude llegaría a muy poca gente. Lo que se hace ahora (y se seguirá haciendo, por desgracia) es registrar dominios con nombres parecidos, que lleven a confusión. Algo tan simple como registrar un .com con el mismo nombre que un .es, o "cajademadrid" en vez de "cajamadrid", o cambiar una O (letra) por un 0 (cero), y cosas así. Y se hace sin IDN.

Evidentemente, nunca programaste un sitio web con internacionalización, si no no estarias diciendo todas esas tonterías (...)

Acabas de meter la pata hasta el fondo. Llevo 9 años trabajando como desarrollador de aplicaciones Web (preferentemente, con Java), y me he pegado con todo. Sé perfectamente de lo que hablo, ya que así me gano el pan.

He sufrido las limitaciones de las versionas "viejas" del HTML, las incompatibilidades de navegadores en la guerra Explorer vs Netscape, he tenido que duplicar funciones en JavaScript por ese motivo, he tenido que hacer funciones que traduzcan las eñes y vocales acentuadas a entidades HTML, he tenido que redactar HTML a mano, con esas entidades...

Pero eso se acabó. Desde hace más de un año que no he tenido que traducir "ñ" a "ñ" al realizar aplicaciones. Utilizo siempre ISO-8859-1, especificándolo tanto en las cabeceras HTTP como en la metatag (y en la declaración XML, si uso XML) y apenas he tenido problemas con eso. Preferiría usar UTF-8, pero algunas herramientas que utilizo aún están algo verdes en ese tema.

"Evidentemente", cuando uno sabe bien lo que hace, no tiene problemas.
ResponderEliminar
Respuestas
Anónimo16 febrero, 2007 14:52
Estoy de acuerdo con algunos comentarios: no has dicho nada especial en este artículo salvo una explicación que nada tiene que ver con la dificultad añadida e innecesaria que sería para un extranjero escribir un dominio con la letra ñ, sin disponer de esa tecla. Francamente me ha parecido un artículo de lo más freaky! ;)

Sí, se puede llegar a escribir el caracter con otras herramientas tal como dices, pero menuda locura. Te pongo el caso contrario: imagina que los chinos empiezan a meter kanjis en sus dominios. Me gustaría verte introducir la URL en el navegador. Estoy de acuerdo que la mayoría de URLs se escriben una vez, pero no es bueno hacer más difícil el acceso a una URL la primera vez, porque seguramente perderás muchos visitantes.
ResponderEliminar
Respuestas
Anónimo16 febrero, 2007 23:02
vas a ver que cachondos se ponen los domainers con la susodicha ñ, ya me se más de uno que hace tiempo que se frota las manos.

echad un vistazo a la nueva moda de la especulación:

http://www.forumdominios.com
http://www.com.es
http://www.carlosblanco.com
http://www.domisfera.com

Espero que no os parezca spam :)
ResponderEliminar
Respuestas
Anónimo17 febrero, 2007 13:35
...cosas tan cómodas como estar escribiendo y tener que usar el editor de caracteres

Se que va a sonar brusco, pero buscate un editor decente. Yo en mi editor leo y escribo directamente en UTF-8, la misma codificación que utilizo para las webs que desarrollo (Alf, no sabia que eramos compañeros de profesión, aunque yo me decanto por PHP :). No tengo que andar haciendo triquiñuelas como utilizar las entidades HTML, ni convertir y reconvertir entre formatos ni tener ningun cuidado en especial. Basta con saber bien como funciona una página web y la codificación de caracteres.

Para el que quiera profundizar más en los sistemas de caracteres (en inglés): The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
ResponderEliminar
Respuestas
Anónimo17 febrero, 2007 14:41
Para escribir la eñe sin usar la tecla eñe: AltGr+4 n ---> ñ

¡Ya no hay excusas!
ResponderEliminar
Respuestas
Alfonso de Terán Riva17 febrero, 2007 19:18
imagina que los chinos empiezan a meter kanjis en sus dominios

No necesito imaginarlo. Ya es una realidad:

????.cn

????.cn

??.com

(para los usuarios de navegadores sin soporte IDN: ????.cn, ????.cn y ??.com)

¿Cuál es el problema? Si utilizan esos símbolos, si la página está escrita completamente con esos símbolos, ¿no sería lo más lógico utilizarlos en su nombre de dominio? Lo antinatural sería lo contrario.

Ciertamente, yo no podría teclearlos, y necesitaría recurrir a un enlace en algún sitio. Pero es que yo no tengo ni papa de chino. Alguien que lo entienda, y normalmente visite páginas en chino, lo normal es que tenga alguna aplicación que le permita escribir en chino.

Nadie obliga a utilizar nombres de dominio con caracteres internacionales. Cada uno que haga lo que quiera. Pero es absurdo negar la posibilidad de hacerlo. Si yo tengo una empresa llamada Jamón Ibérico, puedo decidir registrar el dominio www.jamónibérico.com si quiero darle un toque "auténtico". Pero si quiero exportar jamones al extrajero y quiero visibilidad internacional, pues entonces registraré www.jamoniberico.com (o tal vez, www.iberic.com), y tendré el contenido en varios idiomas. O registraré ambos dominios (y los .es, y .net). Eso será una decisión de mi departamento de marketing, pero será una decisión. Puedo elegir, y no estoy limitado por un estándar de hace más de 40 años.

De verdad que no entiendo esa cerrazón, e imponer una limitación ya superada. ¿Por qué no limitarnos siempre al ASCII, entonces? Fuera textos con eñes en documentos y en nombres de ficheros. La informática avanza (afortunadamente), y 40 años son una eternidad en el mundo de la informática.

Y saludos al compañero anónimo del PHP :-)
ResponderEliminar
Respuestas
Anónimo17 febrero, 2007 19:34
web-dai web-dai.blogspot.com tu blog sta bn pero nesesitas un cbox
ResponderEliminar
Respuestas
Redferne20 febrero, 2007 11:41
a mi me parece que tienes más razón que un santo.... llevo currando en esto del güef por lo menos lo mismo que tú... (eso suena a mayor XD) y también he visto de todo y muchisimos de los problemas que tiene la gente son por "no pensar" en el juego de caracteres y no sólo en el HTML sino en la información que se extraerá, normalmente de una bbdd, o cuando no sabes que va a meter un usuario avispadillo.

Otra cosa es el uso de "ñ" en el código fuente, que se supone debe entender el mayor número de personas aunque no hablen tu idioma y tristemente ahi gana el inglés.

Un blog genial y un gran post!!!
ResponderEliminar
Respuestas
Anónimo20 febrero, 2007 15:57
De todos modos, aunque dices "que cada uno haga lo que quiera", lo cierto es que tu articulo es polemico porque realmente instas en él a usarlo. Está bien que exista esa posibilidad y nadie lo niega, pero tambien es cierto que HAY dificultades técnicas y de acceso en añadirlo. Está muy bien que cada uno con sus dominios haga lo que considere pertinente, pero yo profesionalmente no se lo recomendaría a un cliente o, al menos, le tendría que recomendar que usara ADEMAS otro más accesible. O sea gasto doble por algo no tan necesario como pretendes.

Una cosa son los textos de una web y otra MUY DISTINTA son los nombres de dominio. El nombre de dominio es más una ayuda mnemotécnica para recordar un sitio. No es el texto ni el contenido. Es más bien como una "matricula" de un sitio o el nombre que se pone a una variable o un campo de una base de datos. En absoluto es necesario ser estricto gramatical u ortográficamente para ponerle nombre a un dominio (o a una variable o un campo).

Es decir, mucho dominios son una abreviatura, por facilidad. Por el mismo razonamiento, tú podrias decir que se usen espacios o signos como admiraciones, que también se podrían codificar, o frases muy largas (están limitados a 63 caracteres) pero seguramente admitirás que no añaden nada. Para todo ello ya está, por ejemplo, TITLE.

En mi opinion es una posibilidad, y si se quiere, que se use. Pero que TAMBIÉN se sepa que TIENE dificultades.
ResponderEliminar
Respuestas
Anónimo20 febrero, 2007 16:16
"Y estoy seguro que los japoneses, chinos, árabes, y demás personas con un idioma que utilice un alfabeto no latino, no les parecerá innecesario en absoluto."

No me imagino escribiendo un enlace con grafias arabes o japonesas. Lo mismo le ocurre a un anglosajon cuando le solicitas que entre a una pagina llamada el_ñoño.com. Si no guarda el enlace en sus favoritos, tendra mas de un problema en escribir el enlace por sus propios medios.

A mi parecer, los nombres de dominios deberian seguir construyendose como siempre se ha hecho. Asi como estos nombres no tienen lugar para espacios en blanco (que es de uso comun a todos los idiomas), tampoco tienen porque tener lugar para grafias de cualquier idioma que se nos ocurra, por mas que, lamentablemente, se trate del nuestro.
ResponderEliminar
Respuestas
Anónimo21 febrero, 2007 13:28
No es la única malaciencia del artículo. Dice: Otras letras ya han perecido ante el acoso del ingles, como por ejemplo, la ll o la ch (...). La ll y la che siguen siendo letras del abecedario español, no han perecido, lo que pasa es que desde 1994 no se tienen en cuenta a la hora de ordenar palabras, y por eso no tienen sección dedicada en los diccionarios. Más información en el Diccionario panhispánico de dudas buscando "abecedario" (no consigo un enlace directo, sorry).

Además también dice: Sin embargo, se sigue manteniendo la W como letra unica en el teclado. :? ¿Cuál es el problema?

Por otro lado, IE6 no soporta IDN, pero hay un plugin de VeriSign para ello.

A mí me ha gustado el artículo de Alf, es algo en lo que es fácil liarse y, como siempre, lo explica muy clarito.
ResponderEliminar
Respuestas
Anónimo21 febrero, 2007 13:51
alf, te me has columpiado un poco en los cambios del Latin 1 al Latin 9. Si bien es cierto que ha desaparecido la "vertical bar" que había en 0xA6 (166), la que se utiliza en Unix para las tuberías está en ASCII de toda la vida ;) (0x7C, entre { y }) y por lo tanto es intocable :D.

¡Vaya problemón que hubiéramos tenido los usuarios ISO8859-X escribientes en caso contrario!

Por cierto, el ASCII tradicional tampoco tiene las comillas tipográficas :D.
ResponderEliminar
Respuestas
Alfonso de Terán Riva21 febrero, 2007 19:55
¡Demonios! Es verdad lo de la barra vertical. La "otra", la que aparece en Latin 1 y no en Latin 9 es la "barra rota", que es muy parecida, pero dividida por la mitad.

Vaya despiste... Lo corregiré en cuanto pueda, que a Blogger le ha dado por obligar a migrar a la nueva versión, y hasta que no lo haga, no puedo editar ni añadir entradas :-(

Por cierto, que Blogger ha hecho algo raro con los comentarios, y los caracteres chinos de los enlaces que puse en el comentario anterior, ya no se ven bien (al menos, ahora no los veo). Y eso que en teoría, los está sirviendo como UTF-8 :-/ En fin, juro y perjuro que cuando lo publiqueé, se veían perfectamente.
ResponderEliminar
Respuestas
José Moya26 febrero, 2007 21:31
Hola!
Cuando volvió a aparecer una campaña por la Ñ hacia finales de 2006 me partí un poco la caja y, como los organizadores montaban un concurso de relatos, les mandé uno en que se les sugería su ignorancia. (De todos modos, Internet me da lo mismo: la españolísima Agencia Tributaria sigue ignorando mis reclamaciones acerca de una diéresis, y respecto del Censo electoral, claudiqué hace unos años, aunque de un tiempo a esta parte aparece dicho signo en sus anuncios).
Pero hay que reconocer que, realmente, registrar un dominio como www.coño.com tiene sus problemas, NO EN LOS LINKS, sino a la hora de memorizarlo para luego escribirlo en la barra. Un usuario extranjero podría escribir www.cono.com pensando que ese es el nombre de tu domino (como nos sucede a nosotros cuando vemos un armstrong en un idioma que no conocemos). Incluso entre hablantes del mismo idioma: Soy profesor y por ello sé que muchos de mis alumnos serían incapaces de distinguir entre www.operó.com y www.opero.com

Respecto de la barra rota o sin romper... ¡Ay! Me habéis recordado la tierna historia de su origen.
ResponderEliminar
Respuestas
Anónimo28 marzo, 2007 17:04
Por eso bautizamos así al Cat-Ñus ;-)))
www.informaticat.com.ar/catnius.html
Aunque lamentamos no poder ponerle su merecidísimo catñus.html
ResponderEliminar
Respuestas
batch4j03 junio, 2007 20:10
Muchas gracias por linkarme pero al no saberlo no he podido entrar en la conversacion hasta ahora.

El problema de la Ñ no es tanto si desarrollas trabajas por y para empresas españolas sino si tus desarrollos dependen de empresas extranjeras, exceptuando a las 10 grandes, ibm, microsoft, google, oracle, ... y al software libre y no siempre, por ejemplo mi problema reportado a Jroller sobre los blogs de javahispano, la ñ es un problema en METADATOS sobre todo.

Como sabes los metadatos definen la estructura de los datos, que pasa cuando los metadatos tienen Ñ, pues que empiezan los problemas hasta el punto que si la empresa solo trabaja con 1 empresa española el resto son chinas, arabes o anglosajonas, te conviertes en ele "conejillo de indias", no es el primer problema que tengo con una Ñ en el nombre de una columna de una base de datos, cuando esa columna pasa a nombre de variable de lenguajes antiguos como cobol.
ResponderEliminar
Respuestas
Alfonso de Terán Riva05 junio, 2007 15:48
Tienes mucha razón, en que aún queda mucho software por ahí que no va bien si te sales del ASCII de 7 bits. Afortunadamente, poco a poco el Unicode se va extendiendo.
ResponderEliminar
Respuestas
batch4j07 junio, 2007 19:03
Por favor me podrias avisar mediante un comentario en el blog la proxima vez que me linkes para que pueda entrar en la conversacion.

Un saludo
ResponderEliminar
Respuestas

Añadir comentario

Nota: solo los miembros de este blog pueden publicar comentarios.

Búsqueda

jueves, febrero 15, 2007

Nuestra querida Ñ y la informática

25 comentarios: