Desbloquear dados para impulsionar o comércio e a cultura europeus

Desbloquear dados para impulsionar o comércio e a cultura europeus

Por Brad Smith, Vice Chair & President da Microsoft

A Europa é o lar de mais de 200 línguas e de um património cultural rico que se estende por milhares de anos, preservado em milhões de bens culturais que contam a história dos seus povos. Mas estas línguas são mais do que veículos de herança e história — sustentam tanto a cultura como o comércio, ao tornarem possível que as pessoas se conectem, criem e façam negócios.

Contudo, à medida que o mundo se digitaliza, grande parte da diversidade linguística e cultural da Europa corre o risco de ser deixada para trás. A maioria do conteúdo disponível na internet — a principal fonte de dados de treino para os atuais grandes modelos de linguagem (LLMs) — está em inglês. E grande parte desse conteúdo reflete uma perspetiva americana. A Comissão Europeia já alertou que a ambição do continente de digitalizar o seu vasto acervo cultural continua “significativamente fora de alcance”. Como os líderes europeus têm reconhecido, sem uma ação urgente, este desequilíbrio não é apenas uma preocupação cultural — é também uma questão comercial. Uma inteligência artificial (IA) que não compreende as línguas, histórias e valores da Europa não pode servir plenamente os seus cidadãos, as suas empresas ou o seu futuro.

É por isso que hoje, em Paris, estamos a reforçar o nosso compromisso com o futuro digital da Europa com duas novas iniciativas centradas em tornar mais acessível e aberto aquilo que é exclusivamente europeu — as suas línguas e cultura. Isto dá continuidade aos nossos Compromissos Digitais Europeus, anunciados no início deste ano, que visam expandir a infraestrutura de IA e cloud, reforçar a resiliência digital e a proteção da privacidade de dados, melhorar a cibersegurança e apoiar a soberania digital da Europa e a sua economia em geral.

Em primeiro lugar, para apoiar o desenvolvimento de LLMs mais multilingues na Europa e para a Europa, vamos destacar colaboradores de dois dos nossos centros de inovação em Estrasburgo, França — uma cidade há muito tempo ponto de encontro de culturas e atualmente sede de instituições europeias fundamentais. Estes centros ajudarão a expandir a disponibilidade de dados multilingues para o desenvolvimento de IA — aproveitando o Microsoft Azure, a nossa experiência técnica e parcerias em toda a Europa para promover uma representação linguística mais inclusiva nos modelos de IA. Como parte deste esforço, estamos também a lançar um convite à apresentação de propostas para ajudar a aumentar a oferta de conteúdo digital em 10 línguas europeias.

Em segundo lugar, para garantir que a riqueza cultural da Europa está representada e acessível no mundo digital, estamos a expandir a iniciativa Culture AI da Microsoft, que ajuda a salvaguardar línguas, monumentos e artefactos através de réplicas digitais e colaboração em dados. Desde 2019, a Microsoft tem preservado digitalmente patrimónios como a Antiga Olímpia, na Grécia, o Monte Saint-Michel, em França, a Basílica de São Pedro, em Roma, e o 80.º aniversário dos Desembarques Aliados na Normandia, entre outros. Hoje, anunciamos que, neste outono, a Microsoft irá iniciar trabalhos com o Ministério da Cultura francês e a empresa francesa Iconem para criar uma réplica digital de Notre-Dame — a recém-restaurada obra-prima gótica de Paris, com 862 anos.

Este tipo de apoio à Europa e à sua diversidade não é novidade para a Microsoft. Estes passos mais recentes para apoiar as línguas e a cultura baseiam-se em mais de 40 anos de experiência a servir países e culturas por toda a Europa e pelo mundo. Desde cedo aprendemos que capacitar cada pessoa no planeta exige que as tecnologias que oferecemos estejam disponíveis nas línguas que o mundo fala. É por isso que, atualmente, o Windows suporta mais de 90 línguas, incluindo todas as línguas oficiais europeias e outras línguas regionais como o basco, o catalão, o galego, o luxemburguês, o valenciano, entre outras. O Microsoft 365 também tem um alcance alargado, com suporte nas aplicações do Office em mais de 30 línguas europeias, incluindo todas as línguas oficiais da União Europeia (UE).

A urgência de colmatar a lacuna linguística

A UE tem 24 línguas oficiais, com dezenas de outras reconhecidas a nível nacional ou regional. No entanto, muitas destas línguas — mesmo algumas das 24 oficiais, como o dinamarquês, o finlandês, o sueco e o grego — representam menos de 0,6% do conteúdo disponível na internet. Outras, como o maltês, o irlandês, o estónio, o letão e o esloveno, são praticamente invisíveis online. Embora apenas 5% da população mundial fale inglês como primeira língua, o conteúdo em inglês representa metade da informação disponível na web, dominando os dados utilizados para treinar modelos de IA.

Imagem 1 — Conteúdo do Common Crawl por língua

Esta sub-representação digital tem consequências, uma vez que o treino dos LLMs dependem fortemente de conteúdo da web. Quando uma língua tem pouca presença online, corre o risco de ser excluída dos serviços de IA no futuro. Embora os modelos generalistas de maior dimensão consigam lidar com várias línguas, podem ainda assim falhar na captação da nuance linguística, do contexto cultural e da profundidade regional necessárias para aplicações verdadeiramente inclusivas. LLMs treinados com dados limitados são menos precisos, apresentam mais alucinações e erros, têm dificuldades com vocabulário e refletem mais enviesamentos.

Por exemplo, o Llama 3.1, um modelo open source bastante conhecido, apresenta uma diferença de desempenho superior a 15 pontos percentuais entre respostas em inglês e em grego, e uma diferença superior a 25 pontos entre inglês e letão. Isto significa que, se este modelo fosse um aluno do ensino secundário, estaria no topo da turma a inglês, a meio da tabela a grego e no fundo da turma a letão. E esta disparidade entre línguas é visível em todos os principais testes de desempenho de LLMs.

Imagem 2 — Desempenho no GSM8K vs CommonCrawl para línguas europeias com poucos recursos

Em muitos casos, línguas com um património cultural profundo, como o bretão, o occitano e o romanche, que a UNESCO classifica como línguas em perigo, estão praticamente ausentes dos sistemas de IA mais utilizados atualmente.

O poder económico da língua

Este desenvolvimento desequilibrado dos modelos de linguagem tem consequências económicas reais. Quando os sistemas de IA não conseguem compreender ou responder na língua de uma região, limitam o acesso a serviços e oportunidades, prejudicando tanto as empresas locais como o crescimento económico em geral.

A difusão alargada da IA — a sua adoção e utilização em todas as economias — será um dos principais motores de inovação e crescimento da produtividade na próxima década. Tal como a eletricidade e outras tecnologias de uso generalizado no passado, a IA representa a próxima fase da industrialização.

Para as comunidades cujas línguas estão sub-representadas online, os benefícios da IA correm o risco de permanecer fora de alcance. Imaginem um empresário de um pequeno negócio em Malta que fala apenas maltês. Atualmente, as ferramentas avançadas de IA para tarefas como análise de mercado ou geração de conteúdo provavelmente não funcionam em maltês, limitando a forma como este empreendedor pode tirar partido da IA. Ou considerem um estudante polaco numa cidade fora de Varsóvia que não consegue encontrar recursos educativos baseados em IA na sua língua, o que pode afetar as suas oportunidades de aprendizagem. E mesmo quando uma plataforma de IA afirma suportar uma determinada língua, a experiência pode ser insatisfatória.

Os governos e instituições europeias reconheceram a importância de enfrentar esta situação. Para impulsionar a competitividade económica na era da IA, a Europa terá de derrubar as barreiras linguísticas e promover a difusão da IA em todo o continente. Segundo a Comissão Europeia, apenas 13,5% das empresas da UE utilizam IA. O Plano de Ação “AI Continent” da UE indica que eliminar as barreiras linguísticas no mercado único pode aumentar o comércio intraeuropeu em até 360 mil milhões de euros.

Novas medidas para colmatar lacunas linguísticas

Para ajudar a colmatar esta lacuna linguística, a Microsoft irá colaborar com parceiros europeus para aumentar a disponibilidade de dados multilingues. Em parceria com o Laboratório ICube da Universidade de Estrasburgo — uma instituição dedicada à engenharia, informática e imagem — iremos apoiar os esforços de treino de IA através da colocação de especialistas do Microsoft Open Innovation Center (MOIC) e do nosso AI for Good Lab em Estrasburgo, França. Esta equipa será apoiada por uma rede interna global de mais de 70 engenheiros, cientistas de dados e especialistas em políticas da Microsoft. Esta colaboração entre o MOIC, o AI for Good Lab da Microsoft e a Universidade de Estrasburgo irá também financiar dois investigadores pós-doutorados e disponibilizar até 1 milhão de dólares em créditos Azure.

Esta equipa começará por explorar o próprio repositório de dados multilingues da Microsoft, tornando-o acessível e transparente para o público europeu, incluindo os programadores open source. Isto inclui, por exemplo, dados de texto multilingue do GitHub e conjuntos de dados de voz. O MOIC e o GitHub irão colaborar com a Hugging Face, uma plataforma popular de colaboração para o desenvolvimento de modelos de IA, para alojar e tornar os dados amplamente acessíveis. Esta iniciativa baseia-se na nossa relação existente com a Hugging Face para disponibilizar uma série de modelos open source da sua coleção para implementação com um clique no catálogo de modelos do Azure. Isto inclui o lançamento, na semana passada, das mais recentes contribuições para a IA multilingue — o modelo SmoILM3, um modelo multilingue altamente eficiente com 3 mil milhões de parâmetros, que suporta 6 línguas: inglês, francês, espanhol, alemão, italiano e português.

O MOIC irá também colaborar com o Common Crawl, um dos maiores repositórios gratuitos e abertos de dados recolhidos da web. O MOIC irá financiar trabalho no Common Crawl, recorrendo a nativos para anotar e introduzir dados em línguas europeias no conjunto de dados publicamente disponível do Common Crawl.

Além disso, o MOIC e o AI for Good Lab irão lançar um convite à apresentação de propostas para ajudar a expandir a oferta de conteúdo digital em 10 línguas europeias, disponibilizando as suas coleções de texto de forma responsável e ética, nos seus próprios termos, para o desenvolvimento e experiências de IA multilingue. As candidaturas a bolsas estarão disponíveis no site do AI for Good Lab a partir de 1 de setembro de 2025. Na seleção dos beneficiários, o MOIC e o AI for Good Lab irão focar-se em oportunidades para desbloquear dados em línguas com representação relativamente baixa no conteúdo online, como o estónio, o alsaciano, o eslovaco, o grego e o maltês. As bolsas incluirão créditos Azure e apoio técnico e de engenharia.

Embora mais dados multilingues sejam essenciais, melhores ferramentas tecnológicas e know-how também podem ajudar. Por exemplo, muitas línguas utilizam scripts (sistemas de escrita) que atualmente representam desafios para modelos originalmente concebidos para o alfabeto latino. Caracteres cirílicos, o alfabeto grego e a escrita cursiva do árabe têm todos propriedades diferentes. Os “tokenizers” genéricos frequentemente fragmentam estes sistemas de escrita de forma subótima, o que pode prejudicar a capacidade do modelo de aprender contexto a longo prazo ou ortografia correta nessas línguas. Novos avanços em técnicas que permitem a um modelo lidar com qualquer sistema de escrita de forma uniforme podem ser uma solução. Mecanismos mais eficazes para criar dados sintéticos e para processar e curar esses dados também podem ajudar, especialmente quando gerem eficazmente preocupações com privacidade e dados sensíveis.

O MOIC e o AI for Good Lab irão trabalhar para facilitar o desenvolvimento e a partilha de conhecimento, ferramentas e capacidades para enfrentar estes desafios e capacitar os programadores europeus. O AI for Good Lab irá publicar um guia detalhado sobre como criar conjuntos de dados linguísticos de alta qualidade e treinar LLMs locais para tirar o máximo partido dos dados existentes. Estes dois grupos irão também apoiar investigação relevante, organizar encontros, co-investir em projetos de dados comuns e garantir que o conhecimento, as ferramentas e as capacidades estão disponíveis onde são mais necessários. Estas equipas continuarão ainda a apoiar iniciativas como as do Barcelona Supercomputing Center, do Basque Center for Language Technology e da Universidade de Santiago de Compostela, para lançar modelos de IA treinados em espanhol, catalão, basco e galego na Azure AI Foundry. Esta iniciativa permite aos programadores criar sistemas de IA que funcionem nas línguas oficiais de Espanha, promovendo a inovação e a inclusão.

Por fim, para promover a investigação responsável em IA e ajudar a reduzir a lacuna linguística, a Microsoft está a lançar duas novas colaborações académicas na Europa: uma com a Universidade de Estrasburgo e outra com a IE University School of Science & Technology, em Espanha. O AI for Good Lab e o MOIC da Microsoft irão colaborar com a Universidade de Estrasburgo para conceder créditos Azure que apoiem investigação conjunta em IA. Na IE University, o AI for Good Lab irá também conceder créditos Azure para apoiar investigação centrada em línguas com poucos recursos, incluindo apoio a projetos finais de curso (capstone projects) que acelerem novas soluções focadas em linguagem e IA.

Novas medidas para ajudar a proteger digitalmente o património cultural da Europa

Desde 2019, a iniciativa Culture AI da Microsoft tem-se centrado na utilização da IA em todo o mundo para ajudar a preservar as línguas, os locais, as histórias e os artefactos que definem a história da humanidade. Impulsionada pelo AI for Good Lab e através de parcerias com organizações sem fins lucrativos, universidades, governos e instituições culturais, a iniciativa apoia projetos que digitalizam e protegem o património cultural — desde línguas em risco até marcos icónicos, incluindo em França, Roma e Grécia. Seja através da criação de réplicas digitais de locais históricos ou da disponibilização de coleções de museus, o objetivo é garantir que a identidade e diversidade culturais não só são preservadas, como também se tornam mais inclusivas e acessíveis na era digital.

Hoje anunciamos o nosso próximo projeto: a criação de uma réplica digital em parceria com o Ministério da Cultura francês e a empresa francesa Iconem. O projeto irá criar um gémeo digital de Notre-Dame, em Paris — um marco arquitetónico e cultural moldado ao longo de séculos. A construção de Notre-Dame começou em 1163 e prolongou-se por quase 200 anos, resultando numa obra-prima gótica com 128 metros de comprimento e duas torres com 69 metros de altura sobre o Sena. Após o devastador incêndio de 2019, Notre-Dame reabriu ao público no final de 2024. O projeto utilizará a tecnologia e os métodos que desenvolvemos com a Iconem para criar o gémeo digital da Basílica de São Pedro no ano passado, com base em mais de 400.000 fotografias e algoritmos avançados de IA, em parceria com o Vaticano.

Tal como o projeto do ano passado documentou para o Vaticano cada detalhe da Basílica de São Pedro, este novo projeto irá criar uma réplica digital que preservará de forma permanente, em formato digital, todos os detalhes de Notre-Dame, garantindo que a sua estrutura, história e simbolismo são protegidos e acessíveis para as gerações futuras. Ao combinar imagem avançada com IA, iremos criar e doar ao Estado francês um gémeo digital que poderá ser utilizado por especialistas em conservação e exibido futuramente no Musée Notre-Dame de Paris.

Para além do projeto em Notre-Dame, anunciamos hoje também uma parceria com a Bibliothèque Nationale de France, em colaboração com a Iconem, para digitalizar cerca de 1.500 maquetas cénicas de espetáculos da Ópera Nacional de Paris entre 1800 e 1914. As maquetas digitalizadas serão disponibilizadas através de experiências educativas e interativas, bem como sob a forma de um conjunto de dados acessível na plataforma Gallica da Bibliothèque Nationale de France, para projetos de investigação e IA cultural.

Por fim, estamos a iniciar um novo trabalho com o Musée des Arts Décoratifs para tornar publicamente acessíveis as descrições digitais detalhadas de aproximadamente 1,5 milhões de artefactos, desde a Idade Média até à atualidade. Este passo permitirá que investigadores em história, história da arte e conservação acedam a esta nova informação para estudo e utilização em investigação baseada em IA.

Perspetivar o futuro: uma abordagem baseada em princípios

Damos estes novos passos com humildade e respeito, reconhecendo que a preservação da diversidade linguística e cultural da Europa é uma tarefa dos europeus e para ser liderada por europeus. A União Europeia já lançou um esforço multilateral para reunir dados linguísticos da UE e digitalizar todos os tipos de património cultural. O nosso papel é contribuir e apoiar esses e outros esforços semelhantes. Nenhuma das iniciativas que hoje anunciamos irá gerar dados ou tecnologia proprietária para a Microsoft.

Em última análise, a melhor forma de capacitar mais pessoas em toda a Europa para responder a estas necessidades é dotá-las de competências em IA que lhes permitam ter sucesso nestas áreas. Tal como concluiu recentemente a Comissão Europeia, a escassez de competências digitais no setor cultural está a dificultar os esforços de digitalização do património cultural em toda a Europa. Para ajudar a colmatar esta lacuna de competências, o MOIC e o AI for Good Lab irão partilhar o que sabem e aprendem sobre como realizar este trabalho essencial.

A tecnologia deve refletir a riqueza da humanidade — não apagá-la. Ao tomarmos medidas intencionais agora, podemos ajudar a garantir que a IA não apaga a diversidade linguística e cultural, mas sim a reforça. Este é um dos grandes desafios de equidade da era da IA. E se trabalharmos juntos — com propósito e urgência — podemos fechar esta lacuna e construir um futuro digital que honre todas as línguas, todas as culturas e todas as comunidades da Europa.

Total Pageviews

Popular Posts

cloud labels

Labels

Blog Archive

Procura neste Blog

Showing result(s) for

Popular Posts

Pages

Desbloquear dados para impulsionar o comércio e a cultura europeus

Post A Comment:

0 comments:

Serviços

Social

teste

Total Pageviews

Popular Posts

cloud labels

Labels

Blog Archive

Procura neste Blog

Showing result(s) for

Popular Posts

Pages

Menu Item

Wanna get our awesome news?

Sign up and get the best viral stories straight into your inbox!

Next

Mensagem mais recente

Previous

Mensagem antiga

info

Post A Comment:

0 comments: