Enquanto este modelo tem sido um grande sucesso comercialmente, ele não funciona bem para muitos casos de uso do governo. Por exemplo, ele ainda permanece em grande parte sob um processo manual que não salva sessões, requer entrada quase exatamente com a entrada de uma de cada vez, e não organizar os resultados agregados para além de uma lista de links. Além disso, as práticas de pesquisa comuns meio que perdem informações nas redes da DW - as partes da WEB não indexados pelo padrão de motores de busca comerciais, assim como ignora o conteúdo compartilhado entre páginas.
Para ajudar a superar esses desafios, a DARPA lançou o programa Memex. Memex procura desenvolver um software que avança os recursos de pesquisa on-line muito além do atual "padrão de busca". O objetivo é inventar melhores métodos para interagir e compartilhar informações, de modo que os usuários podem rápida e completamente organizar os subconjuntos de busca de informações relevantes para os seus interesses individuais.
As tecnologias desenvolvidas no programa iriam fornecer os mecanismos para melhorar a descoberta de conteúdo, extração de informação, recuperação de informação, a colaboração do usuário e outras "funções chave" de busca.
Os benefícios imaginados pelo uso do programa incluem:
- Desenvolvimento da próxima geração de tecnologias de busca para revolucionar a descoberta, organização e apresentação do conteúdo específico de domínio
- Criação de um novo paradigma de busca específica de domínio para descobrir conteúdo relevante e organizá-lo de maneiras que são mais imediatamente útil para tarefas específicas
- Extensão das capacidades de pesquisa atuais para a DW e de conteúdo "não tradicionais"
- As interfaces melhoradas para militares, o governo e as empresas comerciais de encontrarem e organizarem a informação disponível publicamente na WEB.
Um índice que poderá ajudar em sua estratégia para o domínio de combate ao tráfico, juntamente com interfaces configuráveis para a pesquisa e análise, permitiria novas oportunidades para descobrir e derrotar estas "empresas" de tráfico.
Memex planeja explorar três áreas técnicas de interesse: Indexação específica do domínio, busca de domínio específico e aplicações DoD especificados. O programa não é especificamente interessados em propostas para o seguinte: Atribuindo serviços anônimos (deanonymizing) ou atribuindo identidade de servidores ou endereços IP, ou acessar informações não se destinam a ser tornados públicos. O programa pretende usar hardware de consumo e enfatizar a criação e alavancar a tecnologia de código aberto e arquitetura.
O programa Memex recebe o seu nome e inspiração de um dispositivo hipotético descrito em "As We May Think", um artigo de 1945 para The Atlantic Monthly escrito por Vannevar Bush, diretor do Escritório dos EUA de Pesquisa e Desenvolvimento Científico (OSRD) durante a Segunda Guerra Mundial . Concebido como um computador analógico para complementar a memória humana, o Memex (uma combinação de "memory" e "index", ou índice de memória) iria armazenar automaticamente e de referência cruzada de todos os livros do usuário, registros e outras informações.
Esta referencia cruzada, que Bush chamou de indexação associativa, iria permitir que os usuários rapidamente e com flexibilidade procurassem enormes quantidades de informações e as ideias deles ganhassem mais eficiência. O Memex pressagiava e incentivou cientistas e engenheiros para criar o hipertexto, a Internet, os computadores pessoais, enciclopédias on-line e outras grandes avanços de TI das últimas sete décadas.
Bem, esta é a forma "oficial" e muito suave da DARPA em descrever o seu então novo motor de busca, demonstrando-o como um motor de busca que ajudaria a diminuir os casos de tráfico humano (o que não deixa de ser verdade, mas, só parte da verdade).
Em 2014, a DARPA anunciou um projeto para criar um poderoso motor de busca que poderia encontrar "coisas" na DW, que ainda não estão indexadas pelo Google e outros motores de busca comerciais. O projeto chamado de Memex Deep Web Search Engine, está bem avançado.
O Memex estava até algum tempo sendo usado pelas autoridades de Nova York, fazendo ajustes e corrigindo a sua forma de pesquisa silenciosa, e é apenas uma questão de tempo que este passe da fase piloto para ser usado por todas as forças policiais norte-americana. No momento, o FBI já usa o Memex nas suas investigações em crimes cibernéticos, mas a aplicabilidade do Memex é bem mais abrangente, então não é muito fácil saber em que pé ou amplitude está o uso atual do Memex. Mas uma coisa é certa, nem toda a potencialidade é usada pelo FBI, pois há muita coisa que envolve as pesquisas da CIA e como todo mundo sabe, há aquela briguinha idiota de "jurisdições"... Contudo, o banco de dados do Memex fica exatamente no Data Center da NSA... Legal, né?
Pois é, o Memex foi projetado para superar os desafios que são impostos pela DW para deixar tudo no anonimato.
O inventor do Memex é Chris White. De acordo com as autoridades norte-americana, este é um motor de busca que não vai ser disponibilizado o seu download, até porque as suas buscas transcendem as pesquisas tradicionais - este é uma mistura de motor de pesquisas, sniffer, tracer, etc.. Os Data Centers e servidores por detrás do Memex, são de uso apenas das autoridades...
Bem, vamos dar uma olhada nas "ferramentas" que fazem parte deste projeto, mesmo sabendo que há outras...:
ImageCat Analisa imagens e extrai seus metadados EXIF e qualquer texto contido na imagem via OCR. Ele pode lidar com dezenas de milhões de imagens.
ImageSpace Este fornece a capacidade de analisar e pesquisar através de grandes números de imagens baseadas em metadados associados e texto OCR ou subindo uma imagem.
MemexExplorer é uma estrutura plugável para rastreamentos específicos de domínio, pesquisa e interface unificada para Ferramentas Memex. Este inclui a capacidade de adicionar links para outros aplicativos baseados na WEB.
FacetSpace permite a pesquisa de grandes conjuntos de dados com base na extração e manipulação de características particulares relevantes.
LegisGATE é um aplicativo para a execução do General Architeture for Text Engineering sobre recursos legislativos.
Bem, lendo sobre estas "ferramentas" acima, até parece que não há nada de extraordinário, mas nas entrelinhas dá para perceber o quão profunda é a forma de pesquisa do Memex. Não trata-se apenas da pesquisa casual de um nome ou uma coordenada de GPS, mas da pesquisa biométrica e visual de parte ou do todo de uma imagem, além de lugares. Também inclui a pesquisa de textos em páginas web e redes sociais que possam conter alguma indicação de premeditação criminosa, além de relacionar o objeto pesquisado à que tipo de crime é melhor abrir um processo, sobre que jurisprudência e jurisdição, se for o caso...
Estes são os domínios de trabalho ativamente usados com Memex.
GeoInformática em Tráfico de Pessoas
Coleta dados e informações sobre vítimas de tráfico humano com recursos de informática geoespacial.
Reconhecimento Facial
Gerencia fotos de terroristas em potencial e encontra outros lugares que eles existem na web.
- Pesquisa de Materiais
Coletar e analisar dados de trabalhos de pesquisa para criar conhecimento compartilhado em torno de um assunto ou tópico.
Citações do Tribunal
É claro que essa é a informação simplória que o pessoal do projeto Memex quer passar (sabe de nada inocente...)
Na minha opinião, o Shodan é um motor de pesquisas bem criancinha se compará-lo com o Memex.
E à propósito, o Memex parece muito (ou faz-me lembrar) daquela série de ficção Person of Interest...
De acordo com um gerente de programação, partes do Memex já estão disponíveis e a DARPA antecipa que vários componentes do sistema global Memex serão disponibilizadas mais amplamente ao público por meio do Catálogo DARPA. Realmente tem várias universidades de renome, Assim como MIT no meio deste estudo e com diversas propostas sobre várias formas de pesquisas.
A DARPA deu a entender que o Memex é de código aberto, mas até que ponto este código aberto vai ser disponibilizado, eu ainda não sei. Mas uma coisa é certa: As gigantes Google, Yahoo e Bing estão só de olho no Memex pois este transcende os algoritmos dos atuais motores de pesquisa que focam mais no âmbito comercial. O diferencial do Memex é que este não vai "enxergar" distinções entre redes da superfície e da DW, e a sua pesquisa não limita-se apenas à rede Tor.
Eu deixo aqui a página com os diversos modelos de algoritmos em estudo para a inclusão no Memex (aqui). É possível baixar os arquivos.
E aqui vai um link de vários vídeo (em inglês, inclusive legendas) sobre esta ferramenta que vai mudar um pouco o ritmo daquela galera que acha que a DW é inviolável (aqui). Se você não leu sobre as camadas da DW veja (aqui), e fique sabendo que a predecessora da rede Tor, The Onion Routing (TOR), foi criada pela DARPA em conjunto com USNavy (1994).
Eu me lembro que em algum lugar eu escrevi que a DARPA já deveria ter uma "versão" da rede Tor que pudesse ler esta atual e tão conhecida rede da DW. Pois é, este Memex está mais parecendo uma "parte" da antiga TOR que não foi entregue aos internautas.
E se eu parar e pensar bem, o Memex só apareceu na mídia quase 20 anos depois da criação da então The Onion Routing (TOR). Tempo mais do que suficiente para "aprender" a realizar buscas nas redes Freenet, I2P (que usa um protocolo chamado de Garlic Routing, mas não é a rede Garlic) e sim uma variante da Tor (ou Onion se preferir), Garlic (que também já herdou "alguma coisa" da I2P), e o Memex está avançando nas pesquisas de outras redes criptografadas.
É bom lembrar que cada sub-rede da DW herdou "alguma coisa" de outra ou outras sub-redes, e esta herança está mais nos hábitos de programação da equipe que montou. Olhando cuidadosamente dá para perceber certos "hábitos involuntários" na programação e que estes pertencem à alguma pessoa ou equipe de programação.
Então não é muito difícil o Memex possuir algoritmos baseados em "particularidades". O pessoal da DARPA também não deve ter tido nenhum problema em estudar o Emule, e por tabela, poder também "mapear" outras redes como a KAD ou a Retroshare, etc... Ou você acha que a DARPA não vai ter à disposição o código fonte de software norte-americanos, alegando esta necessidade como algo de segurança nacional?
Pode ter certeza que uma boa parte deste projeto vindo da DARPA não vai ser do conhecimento público, pois é melhor criar um projeto que todos possam participar do que simplesmente ficar calado (vai que vaza alguma coisa, né?) É uma cortina de fumaça que está dando os seus frutos, sem chamar a atenção.
O anonimato é algo que ainda existe na DW mas (sempre o maldito "mas"...), vai depender de muitas coisas para continuar a existir, e a primeira vai depender de você leitor e usuário! Seus hábitos e comodismo são os piores inimigos.