Como a IA e o Google ameaçam a web
JAMES GÖRGEN*
Duas notícias que circularam na semana passada chamaram a atenção por serem riscos em potencial para o futuro da Internet. Uma trata do possível começo do fim e a outra, do fim do começo da world wide web como a conhecemos. A primeira foi o anúncio por parte da Google do lançamento da ferramenta AI Overviews durante a conferência da empresa voltada a desenvolvedores[1]. Comemorada pelos entusiastas de inteligência artificial e condenada como o fim da web por alguns jornalistas e especialistas em tecnologia, trata-se da substituição de sua clássica interface e sistema de busca na Internet, que deixará de apresentar weblinks como primeiro resultado, passando a usar IA para exibir um pequeno resumo do que foi pesquisado pelo usuário direcionando-o para determinadas fontes. Na outra ponta, do apagamento da história digital, um estudo do Pew Research Center revelou que 38% das webpages existentes na Internet em 2013 já não podem mais ser encontradas ou acessadas.
Fim do começo
A metodologia do estudo[2] sobre acessibilidade de conteúdo on-line foi estruturada em três partes[3] e os resultados deste rastreamento, que os pesquisadores chamam de deterioração digital, se mostraram preocupantes. Entre as principais conclusões do estudo do centro de pesquisas vale destacar:
- 25% de todas as páginas da Web que existiam entre 2013 e 2023 não estavam mais acessíveis em outubro de 2023, sendo que o conteúdo mais antigo tem ainda mais probabilidade de desaparecer. 38% das páginas da Web de 2013 não estão mais disponíveis hoje, em comparação com 8% das páginas de 2023.
- 23% dos sites de notícias e 21% dos sites governamentais contêm pelo menos um link quebrado. As páginas de governos locais têm taxas especialmente altas de links quebrados. Sites de notícias com níveis de tráfego altos e baixos têm a mesma probabilidade de ter links quebrados.
- 54% das páginas da Wikipédia têm pelo menos um link quebrado em sua seção “Referências”.
- Quase um em cada cinco tweets não é mais visível publicamente no Twitter apenas alguns meses após ter sido publicado. Em 60% desses casos, a conta foi tornada privada, suspensa ou totalmente excluída. Certos tipos de tweets têm maior probabilidade de desaparecer, como aqueles em turco ou árabe, ou de contas com configurações de perfil padrão.
- A maioria dos tweets que são removidos tende a desaparecer logo após serem publicados. Metade dos tweets que acabam sendo removidos fica indisponível nos primeiros seis dias e 90% em 46 dias. No entanto, 6% dos tweets removidos ficam disponíveis novamente mais tarde.
Estes resultados levam a algumas perguntas as quais pode ser muito cedo para termos respostas. Por exemplo, o conteúdo que está desaparecendo seria útil para preservar a veracidade de alguma informação na Internet ou era algo irrelevante ou falso? Como a memória da humanidade armazenada em bilhões de webpages ao longo das últimas três décadas pode ser preservada? O elevado indicador de sites de notícias que apresentam links quebrados pode ter impactos na formação da opinião pública? Difícil termos alguma pista para onde esse fenômeno vai nos levar. Mais dramático ainda é perceber que pouco pode ser feito para impedi-lo ou revertê-lo.
Memória digital
Se a história sempre foi escrita pelos vencedores, e consequentemente a memória também, a democratização do acesso à Internet e a população da web deram esperanças que isso poderia estar mudando ao final dos anos 1990. Agora, ao invés de estarmos presos a arquivos e museus com artefatos e textos coletados e organizados por uma elite intelectual, em tese qualquer um poderia registrar para a posteridade seu próprio conteúdo, produzir trabalho em co-autoria e interagir com a própria construção oficial da memória a partir de comentários em sítios e outras atividades. Além do boom dos blogs, isso obrigou os compiladores da história oficial a alterarem a forma como construíam seu próprio acervo, incorporando alguns destes usuários, e suas criações, a seu trabalho.
Esta evolução, ou involução se você preferir, está bem documentada no texto Between Archive and Participation: Public Memory in a Digital Age, de Ekaterina Haskins”[4], que analisou ainda em 2007 as informações sobre os atos de terrorismo de 11 de setembro de 2001 e seus registros na Internet. Analisando este conteúdo, ela pôde perceber que essa nova forma de memória criou um paradoxo: a democratização do passado foi entrelaçada com a perda da consciência histórica. “A velocidade destrói o espaço e apaga a distância temporal. Em ambos os casos, o mecanismo de percepção fisiológica é alterado. Quanto mais memória armazenamos nos bancos de dados, mais o passado é sugado para a órbita do presente, pronto para ser chamado na tela”, escreve Andreas Huyssen.
Este risco se torna ainda mais presente quando alguém decide registrar e interpretar para nós o nosso passado. “Quando a tecnologia oferece a capacidade de recuperação instantânea, o impulso individual de se lembrar diminui. Se a preservação e a recuperação de arquivos não forem equilibradas por mecanismos que estimulem o envolvimento participativo, a memória eletrônica poderá levar à amnésia autocongratulatória”, concluiu Haskins ainda em 2007, quando a IA generativa ainda não tinha virado a coqueluche do momento.
Começo do fim
Talvez pior do que um conteúdo desaparecer da rede mundial de computadores, ou abrirmos mão de o recuperarmos por nós mesmos, iniciando o fenômeno do apagamento da memória digital da humanidade, é este mesmo pedaço de história ser silenciado ou se tornar invisível para a maior parte das pessoas. Este é o efeito mais natural que a maior aposta da Search Generative Experience (SEG) da Google, os AI Overviews, pode causar à web[5]. No momento em que a ferramenta de busca que domina mais de 90% das pesquisas mundiais online decide alterar seu modelo de negócios para oferecer sumários de temas elaborados por algoritmos de IA, os impactos na Internet como a conhecemos são imprevisíveis. Os primeiros resultados não promissores foram compilados nesta matéria da BBC[6]. Basicamente, sítios jornalísticos perderam visibilidade e posts de redes sociais como Reedit, Quora e Instagram experimentaram crescimentos vertiginosos nos resultados.
O primeiro e mais eloquente deles é o desaparecimento dos produtores de conteúdos originais dos resultados gerados pelo modelo Gemini, a base algorítmica dos AI Overviews. No momento em que a busca do Google passa a preparar seus resumos valendo-se de técnicas como web scraping, a fonte de determinada informação desaparece. Isso levou algumas pessoas a especularem que esta foi a saída encontrada pela empresa para contornar o crescente número de serviços jornalísticos e legislações nacionais que passaram a pleitear remuneração ou incidência de tributos sobre a compilação de seu conteúdo original. Mais do que isso. “Os editores e os varejistas estão apavorados com a possibilidade de que isso corte profundamente o tráfego de referência e acabe com seus negócios”, escreveu Scott Rosenberg na Axios[7].
Outro ponto relevante a se levar em conta, além daqueles já apontados por Haskins, é o que externalidades como alucinações, erros e vieses dos modelos de IA podem acarretar para a integridade da informação que resultará da busca. Se na pesquisa tradicional as pessoas já acessavam apenas os primeiros links que viam, o que gerou a alavancagem de conteúdos por meio de publicidade, o recebimento de um resumo aparentemente plausível sobre qualquer tema que estejamos buscando tende a consolidar ainda mais esta tendência. E a empresa já anunciou que, em breve, incorporará publicidade a esta solução[8]. Com isso, a informação que não se enquadre na prioridade do algoritmo provavelmente permanecerá invisível para a maior parte dos usuários. Por mais que a empresa sustente que é possível você optar por usar a interface original, poucas pessoas saberão ou terão interesse em fazer isso dada a comodidade que os resumos oferecem.
Outra preocupação que advém desta alteração é sobre o próprio modelo de negócios da empresa, que sempre teve seu motor principal na publicidade por trás dos links azuis que nos acostumamos a ver várias vezes ao dia. “A Google tem mais motivos do que a maioria para agir com cautela nesse caso: ela fornece publicidade para muitas das páginas da Web que estão prestes a perder todo esse tráfego e tem a perder com o desaparecimento das visitas a essas páginas. No entanto, como a empresa mantém uma posição dominante em grande parte do mercado de publicidade digital, ela parece estar apostando que poderá enfrentar a transição e suavizar quaisquer solavancos, acionando as alavancas de suas muitas outras fontes de receita. (…) A empresa tem muitas alavancas à sua disposição aqui: ela pode escolher quando mostrar visões gerais de IA e quando não mostrar; se o tráfego de saída cair vertiginosamente, chamando a atenção de reguladores ou outras partes prejudicadas, ela poderá reverter as alterações por um tempo.”, argumentou Casey Newton, na Platformer[9].
Este acontecimento fez Andrew Orlowski decretar, mais uma vez, o fim da WWW em um texto[10], no sítio de notícias UnHerd, onde analisou de forma crítica a mudança estrutural anunciada há alguns dias. O jornalista e escritor mostra também que os planos do conglomerado para se afastar da web já vinham sendo traçados:
Mas, na realidade, o interesse do Google na Web vem diminuindo há muito tempo. Artigos lamentando seu fim têm aparecido desde que Chris Anderson, o chefe dos formadores de opinião da Wired, proclamou que a Web estava ‘morta’ em 2010. [Tim] Berners-Lee publica regularmente manifestos para “salvar” a Web, e ninguém presta atenção. Hoje, mais de 80% dos dois bilhões de usuários diários do Facebook acessam a rede social apenas por meio de um telefone. As empresas não se sentem mais obrigadas a criar sites. A maior parte do que restou é suja e está morrendo.
Atualmente, o Google está erguendo uma barreira entre o pesquisador e as informações que ele procura, usando a IA generativa, que a empresa acredita criar resultados mais úteis, como resumos. Essa barreira, que consiste no que a ex-diretora de pesquisa do Google, Meredith Whittaker, chama de ‘pasta de conteúdo derivado’, causa problemas: o que é gerado pode ou não se parecer com o original, graças a erros adicionais e “alucinações”. A nova barreira também remove os criadores de material original da cadeia de valor. O mundo nunca foi tão empolgante quanto nos prometeram os utópicos da Web; agora, ele será mais vazio do que nunca.
Há anos quem acompanha de perto sabe que a web está definhando, não por meio de um colapso, mas através do que Newton nominou como um “declínio gerenciado”. Rosenberg lembra, porém, que se a Google não administrar esse declínio com cuidado, a IA poderá acabar não apenas “comendo” a Web, mas engolindo o próprio sustento do grupo Alphabet. “Em um mundo em que todos obtêm respostas e não precisam clicar em links, o maior perdedor é a Google”, disse à Axios o CEO da Perplexity, Aravind Srinivas.
O que parece ser uma jogada de mestre à primeira vista pode se tornar um tiro no pé em um futuro não tão distante. A web existe hoje em dia graças a milhões de pessoas que dedicaram tempo e recursos, muitas vezes sem obter retorno financeiro, para criar conteúdo e colocá-lo à disposição para qualquer pessoa acessar nas últimas décadas. É o caso da Wikipedia e outros projetos meritórios construídos a milhares de mãos. No fundo, a “raspagem” destas informações, de forma livre e sem obstáculo, para fins de treinamento de modelos permitiu que a própria IA generativa passasse a existir.
Agora, a nova abordagem dos sumários, e mesmo dos prompts trazidos por outras aplicações, pode causar um efeito reverso. “Ao tornar ainda menos convidativa a contribuição dos seres humanos para o acervo coletivo de conhecimento da Web, as respostas resumidas da Google também podem deixar suas próprias ferramentas de IA e as de todos os outros usuários com informações menos precisas, menos oportunas e menos interessantes”, ponderou Rosenberg. Se alguém aí está preocupado com integridade da informação deveria se debruçar um pouco mais sobre este movimento, que ainda não chegou ao Brasil de forma plena.
Comemorações e silêncios
Pensado nisso, o interessante é perceber que o anúncio da Google provocou mais euforia na comunidade global da Internet do que revolta ou manifestações sobre os riscos sistêmicos que esta alteração pode exercer no repositório universal de conhecimento que se tornou a web ao longo de 35 anos. A maior parte da mídia especializada celebrou a notícia como uma inovação e um avanço tecnológico, enquanto organismos internacionais, parte da sociedade civil organizada e da academia que gravitam nos fóruns de governança da Internet silenciaram.
Talvez por um motivo simples: os jovens que nasceram com celulares no bolso e habitando as redes sociais não usam mais esta ferramenta como principal motor de suas pesquisas. “Os adolescentes de hoje – e eu fiz uma pesquisa com uma amostra aleatória – não sabem nem se importam com o que é “a Web”. Eles nasceram com os celulares e as mídias sociais e não veem interesse em revivê-la como um meio de comunicação semi-irônico, como a fita cassete. O utopismo da Web é estritamente um fenômeno de mídia da Geração X”, escreveu Orlowski.
O mais irônico de tudo isso, na verdade, é ver quem diz defender uma Internet livre e aberta dar de ombros no momento em que mais uma de suas camadas está se fechando e silenciando conteúdo original por conta da atuação monopolista de uma empresa que controla quase integralmente este mercado. A alegação é que isso não compromete o “coração” da Internet, que para essas pessoas são as outras duas camadas da rede das redes e que isso é apenas um acomodar de abóboras no campo dos provedores de aplicações. Meia verdade, uma vez que estes mesmos conglomerados se expandiram para o mundo de padrões, protocolos e infraestrutura da web, como já sustentamos nesta Teletime. Onde tudo isso vai parar? Não pergunte ao Google.
_____________________________
[1] Disponível em: https://io.google/2024/intl/pt/
[2] Disponível em https://www.pewresearch.org/wp-content/uploads/sites/20/2024/05/pl_2024.05.17_link-rot_report.pdf
[3] 1. Exame da acessibilidade de uma amostra representativa de páginas da Web existentes na última década. Os pesquisadores coletaram páginas do repositório da Web Common Crawl para cada ano de 2013 a 2023 e tentaram acessá-las para determinar quantas ainda estão disponíveis atualmente.
- Análise dos links em páginas da Web existentes para ver quantas ainda estão funcionando. Os pesquisadores coletaram uma grande amostra de páginas de sites governamentais, sites de notícias e da Wikipedia. Eles identificaram domínios de notícias relevantes usando dados do comScore, domínios governamentais usando dados do get.gov e páginas da Wikipédia de um arquivo da Wikimedia Foundation. Para cada coleção, eles seguiram os links dessas páginas até seu destino para determinar a parcela de links que apontavam para sites inacessíveis.
- Rastreamento da exclusão ou remoção de publicações individuais em sites de mídia social, especificamente tweets públicos na plataforma de mídia social X (ex-Twitter). Os pesquisadores coletaram uma grande amostra de tweets públicos em tempo real usando a API de streaming do Twitter e monitoraram seu status por três meses usando a API de pesquisa do Twitter para determinar quantos ainda estavam disponíveis publicamente.
[4] Disponível em: https://www.jstor.org/stable/40232504
[5] Saiba mais em: https://blog.google/products/search/generative-ai-google-search-may-2024/
[6] Disponível em https://www.bbc.com/future/article/20240524-how-googles-new-algorithm-will-shape-your-internet?utm_source=www.techdrop.news&utm_medium=newsletter&utm_campaign=google-quer-ser-o-novo-google
[7] Disponível em: https://www.axios.com/2024/05/17/google-openai-ai-generative-publishers
[8] Disponível em: https://www.wired.com/story/google-search-ai-overviews-ads/
[9] Disponível em: https://www.platformer.news/google-io-ai-search-sundar-pichai/
[10] Disponível em: https://unherd.com/newsroom/google-declares-the-end-of-the-world-wide-web/