Faire le constat ethnographique d’un bruit dans un environnement ne revient pas à mesurer des décibels à l’aide d’un sonomètre. La démarche est observationnelle, elle vise un agent social dont l’attention perceptive est focalisée sur un son et son origine supposée ; et dont l’enquête interprétative consécutive est consacrée au traitement cognitif de la saillie sonore : cause, conséquences éventuelles — dans le monde et pour soi —, etc. Le plus souvent, cette enquête est organisée à toutes fins pratiques, l’enjeu étant de mesurer une éventuelle incidence du bruit sur l’activité présente. Si l’exposition au bruit est dans un premier temps subie, l’agent peut ensuite la gérer, au moins en partie : en s’éloignant de la source du bruit, ou en le faisant passer à l’arrière-plan de la perception auditive. Ce dernier cas, qui s’apparente à un véritable tour de force attentionnel, peut être accompli à moindres frais à l’aide d’artefacts : depuis les traditionnelles boules Quiès, jusqu’aux écouteurs et oreillettes de plus en plus présents dans nos environnements urbains, et par l’intermédiaire desquels nous pouvons écouter de la musique. Or, si les appareils d’écoute musicale mobile accompagnent avantageusement nos diverses expériences solitaires, ils ne prémunissent pas non plus contre toutes les intrusions sonores — et rien ne signale a priori que ce soit l’effet recherché de cet isolement auditif par la musique.
L’approche écologique (cf. Gibson, 1979) déployée dans ce texte s’attache à décrire les diverses interactions entre, d’un côté, les « auditeurs-baladeurs » (Thibaud, 1992), c’est-à-dire ces utilisateurs d’artefacts de la miniaturisation et de la portabilité musicales (depuis le premier Walkman de Sony en 1979, qui a imposé cette figure nouvelle dans nos paysages) ; et de l’autre côté, les espaces (ici urbains) qu’ils traversent en musique. Il est donc question, par cette approche, de rendre compte des dynamiques de structuration et de façonnement réciproques entre agents et environnements, plutôt que de postuler une concurrence entre eux (ie. entre la musique dans les oreillettes et les sons de la ville), et que d’en conclure à un isolement des agents au sein d’une bulle privative musicale qui préserverait de l’espace sonore urbain. En effet, appliquer cette perspective écologique à une enquête ethnographique approfondie permet de faire ressortir deux principaux enjeux pour les trajets des auditeurs-baladeurs : 1. un confort optimal d’écoute musicale ; 2. mais également la réussite du déplacement urbain, ce qui implique d’entendre, par-dessus la musique, certains sons urbains pertinents pour le trajet (e.g. : les annonces collectives dans les transports en commun ou les bruits de la circulation qui pourraient avertir d’un danger). C’est sur cette base que la présente enquête porte sur les ajustements auditifs des auditeurs-baladeurs le long de leurs trajets.
Dit autrement : les grandes villes proposent, voire imposent aux passants de nombreuses sollicitations sensibles [1]. Les sollicitations auditives ont pour particularité non seulement de renvoyer à des « événements » ou des « effets » dans le monde (cf., respectivement, Casati, Dokic, 1993 : 6 sq et Dewey, 2005 : 278 sq), mais aussi de provoquer des effets chez ceux qui y sont exposés (cf., en outre, Dufrenne, 1987 : 85 sq, et Straus, 2000 : 442 sq) [2]. Parallèlement, de plus en plus d’individus ne se contentent pas de subir ces sons, pour en surimposer d’autres, musicaux, et choisis cette fois — parfois précisément pour masquer les sons urbains (cf., pour la définition de l’effet de masque sonore, Augoyard, Torgue, 1995 : 78-85). Or, l’écoute musicale avec oreillettes, destinée en partie à masquer les bruits de la ville, peut être également à l’occasion masquée par certains bruits ; et parmi ceux-ci, certains, tout en gênant l’écoute musicale, peuvent néanmoins se révéler pertinents pour la réussite du trajet. C’est dire que, pour les auditeurs-baladeurs, les nécessaires relations entre écoute musicale et écoute de l’environnement urbain ne sauraient être aussi simples que ne le postule l’univoque hypothèse de la bulle privative [3].
« Bruit » dans cet article est assimilé à « saillie sonore », au sens de tout événement sonore qui se détache dans l’environnement sonore urbain, et pour l’oreille d’un auditeur-baladeur (déjà occupée par l’écoute de musique). En somme, les bruits sont définis comme tels par les auditeurs-baladeurs pour désigner tous les sons de la ville qui gênent leur écoute musicale (masque sonore) ; et ils sont caractérisés par une survenue soudaine (saillie sonore) dans leur champ perceptif, en raison de la situation de déficience auditive partielle et réversible dans laquelle ces agents se placent délibérément [4].
Nous chercherons, au long de ce texte, à mettre en évidence quelques-unes des procédures et méthodes par lesquelles les auditeurs-baladeurs s’ajustent auditivement à la fois à leur écoute musicale et à l’espace sonore urbain qu’ils traversent. Dans un premier temps, seront décrites les diverses façons dont ils s’y prennent pour réagir à des situations routinières de saillies sonores qui surviennent dans le cours de leurs trajets et qui s’imposent à leur attention perceptive particulière. Ces réactions sont regroupées sous la structure descriptive générale de la torsion sensorielle, qui rend manifeste l’instabilité entre plusieurs engagements sensoriels (vers l’écoute musicale et un bruit urbain). Dans un second temps, seront examinées des interactions moins routinières, plus complexes entre les auditeurs-baladeurs et l’espace sonore urbain, afin de souligner la finesse de nos possibilités de gestion auditive des situations urbaines dans lesquelles nous sommes embarqués, principalement au travers de la description d’opérations de sélection des sons urbains à entendre pendant l’écoute musicale : certains étant pertinents pour le trajet, d’autres non. Cet article concerne donc un même ensemble de pratiques sociales, les ajustements auditifs des auditeurs-baladeurs en situation de trajets urbains, depuis la réponse routinière à un stimulus sonore (première partie), jusqu’à des opérations de sélection auditive des sons à entendre (seconde partie).
Pour ce qui concerne l’enquête menée, elle part d’un des constats sociologiques dressé par Georg Simmel sur les sens : si nous pouvons échanger des regards, cela n’est pas possible pour les auditions, qui restent une affaire privée, non disponible pour les co-présents, pas plus que pour l’ethnographe [5]. Cette difficulté d’observation impose de réaliser l’enquête sur les comportements sensoriels des auditeurs-baladeurs à partir de protocoles ethnographiques originaux. En l’occurrence, l’enquête, menée auprès d’un échantillon de dix utilisateurs de la fonctionnalité musicale sur le téléphone portable dans la région parisienne (cinq hommes et cinq femmes, entre dix-huit et quarante ans, issus de catégories socioprofessionnelles variées, plutôt intermédiaires) [6], est basée sur le suivi ethnographique intégral de trois trajets quotidiens (du type : domicile / travail) de chacun des utilisateurs. Lors de ces trajets, la présence de l’enquêteur consiste d’une part en observations à distance des conduites, notamment perceptives, qui sont consignées par le biais de notes, et de captures photo- et vidéographiques : une forme de filature en somme, à une distance de trois à cinq mètres. D’autre part, l’enquêteur sollicite des verbalisations de la part des utilisateurs, au cours et à propos de leur trajet en musique lors de pauses provoquées dans le cours du trajet : des « pauses-entretiens », toutes les quinze minutes environ (pour des trajets durant en moyenne une heure), au cours desquelles sont évoquées les expériences urbaines et musicales réalisées pendant ce laps de temps, ainsi que les observations réalisées par l’ethnographe. Cette méthode des trajets (post-)commentés, adaptée de la « méthode des parcours commentés » (Thibaud, 2001), vise à cerner écoute musicale et déplacement urbain au plus près, et ensemble.
Torsions sensorielles en direction des saillies sonores
Avant d’envisager des exemples qui font plein droit à la finesse par laquelle les auditeurs-baladeurs sont capables de discriminer les informations auditives de l’environnement urbain qu’ils traversent, ce sont des comportements plus élémentaires qui sont examinés, ceux qui forment l’ordinaire de leurs réactions aux bruits qu’ils entendent par-dessus la musique. Ces réactions se comprennent en partie du fait de la situation perceptive particulière dans laquelle les auditeurs-baladeurs se placent délibérément, à savoir une situation de déficience auditive partielle et réversible qui les rend d’autant plus sensibles à la survenue de saillies sonores, dans la mesure où ces dernières ne sont pas « préparées » ou « annoncées » par l’audition préalable d’événements sonores plus discrets.
Les diverses réactions aux sollicitations sonores, dont on peut rendre typiquement compte par le coup d’œil rapide actionné en direction de l’origine supposée du bruit (par exemple en direction de la voiture qui vient de klaxonner alors que l’auditeur-baladeur s’apprête à traverser une route), marquent une instabilité entre plusieurs engagements sensoriels : au moins entre l’écoute musicale et l’attention à l’environnement urbain. Mais aussi, parfois, entre d’un côté l’attention à l’environnement, et de l’autre l’écoute musicale et la lecture d’un journal, et la manipulation du téléphone portable (réalisation de jeux, rédaction de SMS, consultation de l’agenda…), etc. Ce trait commun de l’instabilité entre plusieurs engagements sensoriels permet de regrouper ces diverses réactions aux bruits sous la structure descriptive générale de la torsion sensorielle, empruntée au body torque identifié par Emanuel A. Schegloff.
La situation perceptive particulière des auditeurs-baladeurs
Par rapport à des non-usagers d’écoute musicale mobile (les membres « ordinaires » de l’espace public urbain), les auditeurs-baladeurs se placent délibérément dans une situation perceptive particulière du fait du port des oreillettes. Comprendre cette spécificité nécessite de partir des passants ordinaires et de leurs façons d’utiliser leurs modalités sensorielles, notamment auditives et visuelles. Ces dernières font partie de la conscience perceptive, dont Michael Polanyi a montré qu’elle oscille entre la saisie focale et la saisie subsidiaire des éléments qui figurent dans son champ (Polanyi, 1974). Par exemple, lors de déplacements dans l’espace public urbain, nous nous focalisons par le biais de nos sens sur certains éléments de notre environnement, mais il est d’autres éléments pour l’appréhension desquels nous nous fions à certaines de nos capacités sensorielles. Car un agent ne peut, et n’a le plus souvent pas besoin de se focaliser sur tout ce qui est susceptible d’entrer dans son champ perceptif. Cela est d’autant plus marqué en cas de déplacements routiniers, pour lesquels il n’est pas en phase d’exploration ou d’orientation dans l’environnement traversé : il a acquis l’habitude du déplacement. Il se fie alors aux capacités périphériques (ou subsidiaires dans le vocabulaire de Polanyi) de son appréhension sensorielle du monde.
Ce trait, bien connu pour la vision, peut être prolongé du côté d’une audition périphérique : de la même manière qu’un agent voit au-delà de ce sur quoi il porte son regard (il perçoit de manière périphérique ce qui se passe autour et au-delà de la portion de page du livre qu’il est en train de lire), il entend au-delà de ce sur quoi il porte son attention auditive. Par exemple, il perçoit de manière périphérique des conversations alentour dans le bus, bien qu’il se concentre sur l’audition des paroles de son voisin avec qui il est en conversation. La délégation d’une partie de l’appréhension du monde à l’audition et à la vision périphériques est ce qui caractérise un déplacement en mode fiduciaire [7], d’autant plus lors de déplacements marqués par l’immobilité, comme dans les transports en commun, et en contraste avec une déambulation qui nécessite une coordination accrue avec l’environnement et les autres « unités véhiculaires » (Goffman, 1973). Il est possible de se déplacer en mode fiduciaire tant que de l’imprévu ne fait pas irruption dans le champ perceptif : le cas échéant, cela a pour effet de rompre la normalité des apparences et impose une focalisation sur l’événement en cours.
Le déplacement en mode fiduciaire signale, de façon minimale mais symbiotique, la forme que peut prendre l’agencement entre un agent et son environnement. En cas d’écoute musicale mobile par le biais d’oreillette(s), ce déplacement n’est plus possible de la même manière : si la vision périphérique est inchangée, toujours aussi assurée, l’audition périphérique quant à elle n’est plus aussi fiable. En effet, puisque le déplacement en mode fiduciaire a une structure holistique, en tant que résultat de l’agencement entre un environnement et sa saisie périphérique par les différents organes sensoriels, l’absence de confiance dans la fiabilité de l’un des organes empêche le développement de ce déplacement. C’est pourquoi les trajets (même routiniers) réalisés par les auditeurs-baladeurs sont en quelque sorte préoccupés. Cette préoccupation est une forme d’état d’alerte sensorielle, qui se traduit par divers comportements qui visent à compenser le manque de confiance dans la fiabilité de l’audition périphérique : par exemple, des regards accrus au moment de traverser une route, par rapport à une traversée sans musique.
Les propos suivants étayent la présentation de la différence entre un déplacement en mode fiduciaire et un déplacement avec oreillettes :
« Quand je traversais, je regardais si y avait des voitures. Ben je suis quand même attentive, quand même. Surtout que j’ai la musique donc je peux pas entendre si on klaxonne ou pas, ou alors quand ça insiste quand même. (…) Si, j’ai entendu un coup de klaxon, si, j’entends quand même les coups de klaxon. Mais je pense pas que j’entendrais une voiture freiner en fait. C’est vrai que je fais attention. » Esther (24/05/2007)
Dans la pratique, le port des oreillettes ne met pas en doute l’audibilité des sons saillants comme les coups de klaxons, mais celle d’événements sonores plus discrets, que l’audition périphérique perçoit dans des conditions normales de déplacement (sans oreillettes). Ces propos sont les commentaires d’une étudiante de 20 ans à propos d’une portion de trajet pédestre au cours de laquelle, rentrant en fin d’après-midi de l’entreprise où elle travaille en alternance, elle n’a réalisé que deux orientations visuelles appuyées vers des éléments de l’environnement résidentiel traversé : en direction du bus faisant retentir un spasme sonore en arrivant à sa hauteur, et de la voiture klaxonnant alors qu’elle commence à traverser un passage piéton.
Cette première description des déplacements des auditeurs-baladeurs permet de saisir la spécificité de la situation perceptive dans laquelle ils se placent. L’absence de confiance dans la fiabilité de l’audition périphérique a également pour conséquence de rendre les sons de l’environnement d’autant plus saillants, dans la mesure où l’audition périphérique n’a pu idéalement y préparer les auditeurs-baladeurs : leur fournir des indices signalant d’une manière ou d’une autre leur survenue. C’est, dans le cas d’Esther, le bus qu’on entend généralement s’approcher progressivement dans son dos, mais dont elle n’a pour sa part ressenti la présence qu’avec le spasme sonore. Cela signifie que, de jaillir ainsi aux oreilles des auditeurs-baladeurs, les sons de la ville imposent souvent à ces derniers une réponse sensorielle, perceptive, qui prenne en charge ces « bruits ». Si, déjà dans des conditions perceptives normales, les sons apparaissent comme des « événements » (Casati, Dokic, 1993) ou des « effets » (Dewey, 2005) pour ceux qui y sont exposés, lors d’écoute musicale mobile, ils exposent d’autant plus fortement : obligent en quelque sorte les auditeurs-baladeurs à s’y montrer attentifs, afin de vérifier la continuité de la normalité des apparences générales, ce qui prend la forme d’enquêtes interprétatives plus ou moins poussées (sur l’origine du bruit, ses éventuelles incidences pour soi et son trajet, etc.).
Les torsions sensorielles après des bruits dans l’environnement
Ainsi, une saillie sonore occasionne une focalisation de l’attention perceptive des auditeurs-baladeurs, faisant passer le reste (la musique notamment) à l’arrière-plan. Cela passe souvent par une utilisation des facultés visuelles, qui viennent ainsi comme suppléer la moindre fiabilité dans l’audition (cf. Pecqueux, 2008). En ce sens, une première forme de réponse à un bruit urbain correspond aux coups d’œil portés en direction de saillies sonores, comme le coup de klaxon dans le cas d’Esther. Les coups d’œil sont généralement rapides, parfois à peine perçus : ils servent avant tout à vérifier la continuité de la normalité des apparences (cf., sur le coup d’œil, Sudnow, 1972, et les commentaires qu’en font Quéré, Brezger, 1993). Une fois cette vérification accomplie, et si les apparences ne nécessitent pas une enquête interprétative particulière pour être catégorisées, les auditeurs-baladeurs peuvent retourner à leur cours d’activité précédent — pour Esther, la marche en musique. Plus précisément (et en suivant en cela Quéré, Brezger, 1993), si la vision périphérique se contente de vérifier la continuité de la normalité des apparences, le coup d’œil est une forme de regard focalisé, dont la saisie accomplit non seulement cette vérification, mais aussi la catégorisation de ce qui est ainsi scruté rapidement. Dans le cas des auditeurs-baladeurs exposés à une saillie sonore, le coup d’œil procède à la catégorisation de la normalité de l’origine du bruit perçu. Cela signifie également que la durée du coup d’œil est fonction de l’identification comme normaux des événements ou effets dans le monde que le bruit exprime.
La réaction sensorielle à une saillie sonore n’est pas aussi systématique quand celle-ci correspond à un bruit routinier dans un trajet : par exemple, un avertisseur sonore de fermeture automatique des portes lors d’un trajet en métro. Un tel bruit urbain, routinier et répété, n’occasionne qu’à certaines occurrences un coup d’œil de la part des auditeurs-baladeurs. Prenons le cas d’un trajet dans la ligne 14 de métro (18/06/2007) réalisé par Blaise, 38 ans ; il est alors à la fois pris dans la musique au point de réaliser des gestes en phases avec son rythme (mouvements de tête et de pieds) [8], et pris dans la lecture d’un quotidien gratuit. Si le retentissement de l’avertisseur sonore à chaque départ d’une station n’occasionne de sa part un coup d’œil en direction des portes qu’à trois reprises (sur six stations traversées), ce sont également parmi les seuls coups d’œil dans l’environnement qu’il accomplit lors de ce trajet. C’est pour lui un bruit routinier auquel il apporte parfois une réponse et un traitement routinisés. L’absence de systématicité dans la réponse sensorielle à une telle saillie sonore se comprend également du fait que cette dernière n’est pas susceptible de concerner directement l’auditeur-baladeur, au contraire d’un coup de klaxon lors de la traversée d’une chaussée.
Dans les deux cas envisagés [9], le coup d’œil rapide caractérise une orientation visuelle vers un bruit dans l’environnement qui a sauté aux oreilles de l’auditeur-baladeur au point de masquer momentanément son écoute musicale, et dans un contexte d’audition où seules sont assurément perçues les saillies sonores, et où leur survenue n’est pas préparée par des événements sonores plus discrets. Le coup d’œil représente un regard focalisé par lequel la normalité des apparences est vérifiée à partir du moment où la source du bruit, jusqu’à ses éventuelles conséquences, est identifiée comme normale, par le biais d’une catégorisation routinière ; par exemple : « c’est l’avertisseur sonore de fermeture automatique des portes, d’ailleurs elles se ferment ».
Ces différents coups d’œil ont également en commun d’occasionner une réorganisation de l’attention, et par suite des activités menées, par un ancrage sensible dans le monde commun de l’espace public suite à l’audition d’une saillie sonore dans l’environnement. La réorganisation des activités [10] est généralement momentanée, le temps du coup d’œil actionné : une fois vérifiée et catégorisée la normalité des apparences de l’environnement, l’écoute musicale et la lecture (par exemple) peuvent reprendre. La réorganisation peut être plus durable, notamment si l’élément entendu conduit à une modification du trajet ; cela dit, même dans ce cas, la distribution initiale de l’attention entre les activités tend également à reprendre progressivement à l’identique, de la même manière qu’avant la saillie sonore et l’orientation sensorielle occasionnée. On est proche de la structure d’enchaînement des activités identifiée par Emanuel A. Schegloff à partir de ce qu’il appelle un body torque (1998), qui caractérise un moment où un individu est engagé dans plus d’une activité, et le manifeste par une orientation corporelle divergente entre celle du cou et celle de la taille. Cette structure est marquée par une succession de positions : une position de départ (home position) qui caractérise l’engagement initial dans une activité (typiquement, d’interaction verbale, pendant laquelle nous sommes généralement intégralement orientés en direction du co-locuteur) ; un body torque, c’est-à-dire l’instabilité corporelle entre deux engagements : la taille maintenue selon la position initiale, le cou dirigé vers une affordance (cf. Gibson, 1979) ; le retour à la position de départ ou l’adoption d’une nouvelle position (en fonction de l’engagement choisi).
Les cas envisagés par Schegloff pour illustrer le body torque sont des interactions ; avec les auditeurs-baladeurs, il est question d’activités solitaires menées en public, dont l’une au moins (l’écoute musicale) sollicite l’attention sensorielle des agents. Cela signifie qu’avec des activités solitaires en public, la réorganisation des activités consécutive à une affordance particulière adopte une structure similaire au body torque, mais serait mieux décrite comme torsion sensorielle. Elle se distingue : 1. par une position de départ, à savoir l’engagement dans une activité solitaire en public. Avec l’écoute musicale mobile, cet engagement est présumé par les co-présents du fait du port des oreillettes, ou observable, par exemple par la réalisation de gestes en phase avec la musique (hochement de tête, de pied(s), doigt(s) ou main(s) qui battent la mesure, etc.). 2. Un événement (ici auditif) dans l’environnement sollicite l’attention, et occasionne une instabilité dans les engagements sensoriels, entre l’écoute initiale de la musique et l’attention à l’événement auditif. C’est la torsion sensorielle proprement dite, qui se traduit souvent, mais pas toujours, par des mouvements corporels : arrêt des gestes en phase avec le rythme de la musique, coup d’œil en direction de l’origine supposée de l’événement auditif, retrait d’oreillette(s) pour entendre plus distinctement les sons, etc. Ce sont ces mouvements corporels qui rendent la torsion descriptible par l’observateur, et/ou abordable avec les agents lors des « pauses-entretiens » dans les trajets. 3. Suivant le résultat de cette première orientation sensorielle en direction de l’événement sonore dans l’environnement, l’individu engagé dans une activité solitaire en public soit s’y replonge, soit la suspend au profit d’un nouvel engagement occasionné au moins en partie par l’événement : changer son trajet, se déplacer pour éviter un obstacle, entrer en conversation avec l’ami rencontré, etc.
Premiers éléments de choix d’un engagement sensoriel
La réponse ordinairement apportée par les auditeurs-baladeurs à une sollicitation auditive de l’environnement urbain étant une torsion sensorielle, il importe désormais de faire porter descriptions et analyses au-delà des manifestations d’instabilité sensorielle, sur les différentes façons dont des choix quant à l’engagement sensoriel privilégié se manifestent. En effet, si la réorganisation des activités reste souvent momentanée en cas de bruit soudain et facilement catégorisable comme normal, la persistance du bruit ou sa catégorisation comme anormal peut occasionner l’élaboration de stratégies. C’est le cas pour Clément, 24 ans, alors qu’il réalise un trajet en métro (28/05/2007) et qu’entrent deux musiciens (saxophone et trompette) munis d’un petit amplificateur : ils se mettent en place, puis jouent devant lui et les autres voyageurs. Clément commence par réajuster ses deux oreillettes, afin d’obtenir un son plus proche — afin de masquer le « bruit » des musiciens. Puis il essaye d’atteindre le même but en augmentant le volume sonore ; ensuite, il regarde les musiciens lors de leur pause à la fin du morceau, mais comme ils enchaînent avec un nouveau morceau, il change de rame à l’arrêt suivant pour gagner celle de derrière. « Y a les musiciens qui se sont mis à jouer, et puis après c’est passé au bout d’un moment mais ça faisait vraiment trop de bruit » : ici, le bruit masquant l’écoute musicale se prolonge, ce qui conduit Clément à adopter une stratégie d’éloignement de sa source.
Dans ce type de cas, l’instabilité sensorielle est réglée par la définition de la saillie sonore comme gênante pour l’écoute musicale : l’enjeu devient de parvenir à « masquer le bruit masquant », afin de pouvoir retourner à l’engagement initial dans la musique. La modification du volume sonore d’écoute musicale est ainsi une stratégie routinière pour s’ajuster à la qualité sonore changeante de l’espace urbain. Les manipulations des oreillettes également : principalement, essayer de les enfoncer un peu plus dans le conduit auditif afin d’accroître l’isolement, d’obtenir une écoute musicale plus « proche ». C’est ce qu’essaye Clément lors d’un autre trajet, dans la ligne 14 de métro (01/06/2007) : « A un moment j’ai renfoncé les écouteurs parce que le bruit… le métro fait beaucoup de bruit, en plus y avait une annonce au micro, j’entendais plus rien ». Clément a entendu l’annonce collective, peut la répéter lors de la « pause-entretien » suivante, mais il l’a jugée non pertinente car ne concernant pas son trajet : c’est à ce moment qu’il s’efforce de masquer ces « bruits » qui gênent son engagement dans l’écoute musicale.
En cas de torsion sensorielle, le choix de l’engagement privilégié peut encore varier en fonction de l’environnement urbain, des attentes qui y sont placées et des activités qui y sont menées. Olivier, 28 ans, se rend en milieu de journée à son travail (19/06/2007) : depuis son domicile, cela implique de traverser le centre-ville d’une bourgade de la deuxième couronne francilienne, puis de prendre le R.E.R. en direction du centre de Paris. Il retire une de ses oreillettes peu après avoir commencé à marcher en ville, afin d’entendre les conversations alentour, voire des amis qui l’interpelleraient dans la rue. Une fois dans le R.E.R., il remet cette oreillette laissée pendante ; ce sont alors précisément des bruits de conversations qu’il cherche à masquer avec son oreillette : « Y avait trop de bruit dans le train (…) c’étaient des gens qui parlaient fort et y avait des gamins je crois aussi ». Les mêmes sons, dont il était à l’affût en marchant dans sa ville, dans son environnement urbain et social, les mêmes sons donc qu’il définissait initialement comme des sons pertinents à entendre, sont désormais définis comme des sons à masquer, comme des bruits qui gênent son activité présente : la lecture d’un quotidien en musique. Cela signifie que la torsion sensorielle occasionnée par l’audition de bruits de conversations le conduit dans un cas à retirer une oreillette (nouvel engagement auditif), et dans l’autre à la remettre (retour à l’engagement initial).
Les ajustements auditifs pour la sélection des sons pertinents à entendre
Jusqu’à présent ont été examinées les réponses sensorielles ordinaires, routinisées, données par les auditeurs-baladeurs à des sollicitations auditives survenant dans l’environnement urbain qu’ils traversent. Ces réponses ont été regroupées sous la structure descriptive générale de la torsion sensorielle, par laquelle se manifeste une instabilité entre l’engagement initial dans l’écoute musicale et celui occasionné en direction des informations auditives de l’environnement urbain. Pour aller plus loin à propos des ajustements auditifs des auditeurs-baladeurs, nous proposons d’envisager désormais des cas d’interactions plus complexes entre agents et environnements, à la suite des deux derniers exemples présentés qui ont confronté à la question d’une sélection des sons de la ville. La sélection auditive peut en effet être saisie comme le résultat d’une torsion sensorielle dans la mesure où celle-ci implique, ainsi que cela a commencé à être présenté, la réalisation d’un choix entre deux engagements sensoriels.
Parler d’opérations auditives de sélection amène à infléchir l’un des constats sociologiques de Georg Simmel (et d’autres auteurs avec lui), selon lequel l’oreille serait « condamnée à prendre tout ce qui passe à sa portée » (1999). Dans le cas des auditeurs-baladeurs, la sélection intervient du fait que s’ils définissent tous les sons urbains comme des bruits, c’est-à-dire gênants pour leur écoute musicale, ils n’en jugent pas moins certains potentiellement pertinents à entendre. C’est notamment, et typiquement, le cas des annonces collectives dans les transports en commun. S’accomplit alors une sélection en deux temps : 1. par celle, initiale, de l’annonce comme bruit potentiellement pertinent à entendre parmi tous les bruits urbains ; 2. par la catégorisation de la pertinence ou non de l’annonce actuelle (certaines étant des annonces routinières, concernant d’autres voyageurs, etc.) [11]. Par opérations auditives de sélection, il s’agit en somme de parvenir à établir pour les sciences sociales l’équivalent de « l’effet cocktail party » pour les sciences psychologiques (Cherry, 1953). A savoir que, dans un environnement bruyant, et alors que notre attention auditive est focalisée sur une source, nous restons capables de traiter d’autres sources et d’y réagir, au moins pour des informations importantes comme une alerte [12].
La description des opérations auditives de sélection confirme en outre l’hypothèse, présentée en introduction de cet article, d’un double enjeu auditif pour les auditeurs-auditeurs au cours de leurs trajets urbains. C’est-à-dire : d’une part, l’isolement auditif (et relatif) de l’environnement sonore urbain pour un confort optimal d’écoute musicale ; d’autre part, une perméabilité à certains sons urbains jugés potentiellement pertinents pour le trajet actuellement réalisé. Comme si la moindre prise sur l’environnement issue de l’écoute musicale avec oreillettes (avec une moindre confiance dans la fiabilité de l’audition périphérique) se traduisait dans le même mouvement par une attention sélective à l’environnement sonore urbain, afin de continuer à s’y orienter avec succès, en contrôlant la normalité des apparences de l’environnement, même connu — afin de compenser, donc, la situation de déficience perceptive délibérément recherchée.
Retirer l’(les) oreillette(s) pour entendre le monde commun
Mener à bien des opérations de sélection auditive signifie tirer tout le parti pratique de la structure potentiellement changeante de l’attention perceptive, entre saisie focale et saisie périphérique (cf. Polanyi, 1974). Idéalement, les auditeurs-baladeurs sont focalisés sur l’écoute musicale, tout en restant conscients de manière périphérique de l’environnement sonore urbain. La survenue d’une saillie sonore provoque un renversement plus ou moins durable de cette structure hiérarchisée : focalisation sur l’environnement / passage de la musique à l’arrière-plan. Pour parvenir à ce renversement, les auditeurs-baladeurs s’appuient le plus souvent sur des ajustements auditifs. Parmi ceux-ci, il y a la ressource de la modification du volume sonore. Le jeu avec les oreillettes se révèle encore plus central, dans la mesure où elles sont plus rapidement disponibles par rapport à une manipulation de l’artefact (qui peut d’ailleurs être rangé dans une poche ou un sac) [13] ; dans la mesure où le retrait d’oreillette(s) a pour conséquence d’entraîner un retour à une audition périphérique (plus) fiable ; et dans la mesure où un retrait d’oreillette(s) se révèle être pour l’enquêteur un indicateur précieux d’une instabilité sensorielle, de la nécessité d’entendre quelque chose dans le monde commun. Ce jeu conduit à une gestion auditive subtile et discrète des sons urbains et de l’écoute musicale, saisis tour à tour de manière focale et périphérique ; il distribue la disponibilité attentionnelle des auditeurs-baladeurs envers les activités menées.
En ce sens, les ajustements auditifs que manifestent les diverses manipulations d’oreillettes [14], traduisent une instabilité entre les engagements sensoriels. Parfois, un retrait d’oreillette(s) signale la gestion anticipée des éventuelles instabilités sensorielles auxquelles certains lieux peuvent confronter : lieux de potentielles coordinations avec d’autres membres de l’espace public urbain ; lieux où des sons peuvent être utiles à entendre, et anticipés comme tels dans ce cadre de trajets routiniers (les auditeurs-baladeurs ont une connaissance pratique aigüe des espaces sonores traversés). Ces lieux sont principalement les nœuds urbains : gares, artères piétonnes, etc. Ainsi, Caroline, 18 ans, commence par ne mettre qu’une oreillette dans la gare R.E.R. de sa ville de la première couronne, lors d’un trajet jusqu’au centre de Paris (13/07/2007) : pour elle, il s’agit surtout d’entendre d’éventuelles annonces en attendant son train sur le quai. Une fois à bord, elle se place debout dans une entrée de rame et installe la deuxième oreillette, qu’elle retire le temps de chaque arrêt du R.E.R. en station : « au cas où… » des personnes qui sortent / entrent auraient à lui parler, lui demander de libérer le passage. Cette attitude n’est pas systématique, mais nombreux sont ceux qui prennent soin de retirer une oreillette en entrant dans une boutique [15].
Quand elle n’est pas anticipée, la gestion des instabilités sensorielles par retrait d’oreillette(s) se réalise au gré des circonstances d’un trajet, notamment si celles-ci conduisent à entendre précisément l’environnement urbain alors qu’on aurait préféré continuer à écouter sa musique de manière focale et exclusive. C’est le cas pour Steeve, 19 ans (27/06/2007), à partir du moment où un problème de R.E.R. le fait changer de trajet : il doit alors marcher dans des rues parisiennes qu’il ne reconnaît pas. Il retire une oreillette dès qu’il sort de la station de R.E.R. ; s’il a pour habitude, lors de phases mobiles, de poser une oreillette sur le dessus de l’oreille, c’est accentué ici par l’exploration de l’environnement à laquelle il procède : consultation de plans publics, recherches visuelles alentour pour se repérer, etc.
Il apparaît désormais plus clairement que les cas de retrait d’oreillette(s) examinés ne représentent pas seulement des formes de réponse à une sollicitation sonore soudaine issue de l’environnement. Il s’agit plutôt, de manière plus complexe, de gérer l’exposition auditive aux sons de la ville, par ajustements occasionnels ou anticipés. Cependant, même dans ces cas, du fait de la focalisation attentionnelle initiale dans l’écoute musicale, la torsion sensorielle reste la structure générale permettant de rendre compte des ajustements auditifs.
La sélection auditive des sons à entendre par coup d’oreille
Le jeu avec oreillette(s), centré tout autant sur le confort de l’écoute musicale que sur la nécessité d’entendre certains sons de l’environnement urbain, constitue une première approche, partielle, des opérations de sélection des sons de la ville et de leur accomplissement auditif. Reprenons l’exemple de Blaise (trajet du 27/06/2007, cf. supra) : alors qu’il est assis dans la ligne 14 de métro, et qu’il est pris à la fois dans la musique qu’il découvre et apprécie particulièrement (« à fond » — volume sonore et concentration — dans un groupe de jazz instrumental), et pris dans la lecture d’un magazine de jazz, il dit lors de la « pause-entretien » suivante avoir entendu des annonces de noms de stations, mais ne pas avoir entendu les gens discuter autour de lui. Plus précisément, il sait que le métro est alors très occupé, et catégorise cette occupation comme normale pour un milieu de mercredi après-midi, le « jour des enfants » ; mais il n’entend pas le groupe de dames qui parlent avec animation, debout au-dessus de sa place assise, tandis qu’il entend deux annonces de stations : Madeleine et Saint-Lazare, c’est-à-dire les deux dernières de son trajet, qui lui signalent progressivement le bon moment pour ranger ses affaires et être prêt à quitter le métro.
Ainsi se trouve accomplie une sélection auditive de la pertinence des sons de la ville. S’il est difficile de rendre compte des absences d’audition (dans le cas de Blaise : l’absence d’audition des autres noms de stations annoncées, des conversations animées), il est par contre possible de décrire comme torsions sensorielles — certes invisibles, révélées après-coup par l’enquêté lors de la « pause-entretien » — les deux auditions des stations Madeleine et Saint-Lazare. Lors de la première audition, la torsion s’achève avec un retour à la position de départ : écoute musicale et lecture absorbantes, tout en signalant l’imminence de l’arrivée à destination. L’alerte ainsi créée rend la seconde torsion sensorielle d’autant plus claire, avec cette fois pour conséquence l’adoption d’une nouvelle position, de nouvelles activités : fermer le magazine, le ranger dans le sac en plastique contenant toutes ses lectures pour les transports en commun, ramasser le sac à dos avec les affaires de travail, se lever et sortir, etc.
Les torsions sensorielles de Blaise sont invisibles ; c’est pourquoi, pour l’observateur, les occurrences de retrait d’oreillette(s) sont particulièrement importantes en tant qu’indices manifestes d’une torsion sensorielle, sur laquelle il est ensuite possible de revenir lors des « pauses-entretiens » dans les trajets. Par exemple, Victoire, 22 ans, rentre en milieu d’après-midi (23/07/2007) du laboratoire de fécondation in vitro où elle travaille très tôt le matin. Elle aime se reposer lors de ces trajets d’une heure trente : en fermant les yeux dans le métro, parfois jusqu’à dormir ensuite dans le R.E.R. qui la conduit à sa ville de résidence. Sa ligne de métro (1) possède un système automatisé d’annonces vocales des stations desservies : « J’écoute pas (…) si, oui, [je les ai] entendues, mais je les écoute pas, juste entendre » ; c’est-à-dire des bruits subis. Comparativement, Victoire prend soin de retirer une voire deux oreillettes à chaque annonce collective imprévue dans le métro ou le R.E.R., même quand elle est assoupie. Cela signifie qu’elle est capable de procéder auditivement à une catégorisation rapide du type d’annonce entendue, comme routinière (noms de la station) ou comme exceptionnelle, donc potentiellement digne d’être écoutée. Cette catégorisation est le résultat du traitement auditif des premiers sons (un seul mot d’un côté — le nom de station —, une demande d’attention de l’autre côté ou une adresse aux voyageurs) ; parfois, du type de voix entendue (une voix préenregistrée vs. celle du contrôleur / chauffeur qui intervient directement, sans « lire un texte », cf. Grosjean, 1991). Les propos de Victoire marquent une différence d’attention, d’attitude auditive (entendre / écouter) ; l’observation de ses réactions aux différents types d’annonces (absence de réaction / retrait d’oreillette(s)) permet de décrire cette différence d’attention comme le résultat de la catégorisation des premiers sons entendus à partir d’une torsion sensorielle : continuer à écouter de manière focale la musique et de manière périphérique les sons urbains, ou inversement.
Pour ces cas de torsions sensorielles, auditives, nous parlons, par analogie avec le coup d’œil identifié par Sudnow, d’un coup d’oreille dirigé vers l’environnement sonore urbain. Sa durée dépend de la capacité à catégoriser le degré de pertinence des informations qui commencent à être entendues. Typiquement, un coup d’oreille est activé suite à l’audition de la diffusion d’une annonce collective dans les transports en commun. Si l’annonce porte sur un élément connu, déjà entendu (une station non desservie en raison de travaux ; l’arrivée du train de banlieue à son terminus, avec souhait de « bonne journée », etc.), l’oreillette est rapidement réinstallée et la focalisation sur l’écoute musicale reprend. Si au contraire elle porte sur une modification du trajet projeté, le coup d’oreille se prolonge, souvent jusqu’à la fin de l’annonce. En ce sens, de la même manière que le coup d’œil représente un regard focalisé dont la saisie s’étend au-delà de la vision périphérique, le coup d’oreille est une forme d’écoute focalisée, dirigée vers des informations à catégoriser.
Cette écoute crée une modification de la hiérarchisation de l’attention auditive des auditeurs-baladeurs, par embrayage entre focalisation et saisie périphérique : l’oreille se focalise sur les informations, tandis que la musique passe à l’arrière-plan. On comprend alors que les coups d’oreille, et plus largement les torsions sensorielles, ne sont pas caractéristiques des agents en interaction, comme pour le body torque de Schegloff, mais des agents pris dans une activité solitaire dans l’espace public : l’écoute musicale mobile, mais aussi la lecture, les jeux (vidéo), les communications mobiles, etc., voire tout simplement l’activité de « pensée » (ou celle de somnoler, comme dans le cas de Victoire, cf. supra). L’absorption dans (une de) ces activités occasionne une forme d’isolement vis-à-vis de l’espace public, une forme de rupture partielle et réversible de la qualité de membre de l’espace public. C’est pourquoi la saisie sensorielle périphérique d’éléments non prévus, inhabituels, saillants, etc., dans le champ perceptif place ces agents en demeure d’y répondre : au moins par une torsion sensorielle rapide, au moins pour vérifier la continuité de la normalité des apparences.
Au-delà de la réponse à un bruit, nous avons également montré que certaines torsions sensorielles manifestent des ajustements auditifs plus poussés avec l’environnement sonore urbain. Par ces ajustements (par le biais d’une diminution du volume sonore, d’un retrait d’oreillette(s) ou d’un coup d’oreille), les auditeurs-baladeurs procèdent à une sélection auditive pratique des sons pertinents ou non à entendre. Ces constats ethnographiques amènent à infléchir la passivité souvent attribuée à l’oreille : son exposition inéluctable à tout événement sonore, « son incapacité à se détourner ou se fermer, comme l’œil » (Simmel, 1999). Les opérations de sélection auditive montrent que l’oreille, quand elle est déjà « prise » par la musique, n’est pas obligée de « prendre tout ce qui passe à sa portée », qu’elle peut même choisir ce qu’elle prendra de manière préférentielle (entre la musique et les sons urbains).
Pour conclure
A partir des remarques qui précèdent, et plus largement des différentes observations menées lors de cette enquête sur les auditeurs-baladeurs, il est possible de pointer la structure descriptive de leurs ajustements auditifs sous la forme de torsions sensorielles, et en fonction de quatre paramètres généraux qui sont le plus souvent liés entre eux :
1. le volume sonore de la musique écoutée, et le nombre d’oreillettes logées ;
2. l’environnement urbain, notamment par la connaissance pratique qu’ont les auditeurs-baladeurs des caractéristiques sonores des lieux traversés, actuelles ou potentielles (cf. la propension des halls de gare, des quais, etc., à délivrer des informations potentiellement pertinentes pour le trajet) ;
3. le mode de déplacement lors du trajet : les phases réellement mobiles, déambulatoires, impliquent une plus grande attention aux sons de la ville, par rapport aux phases d’immobilité relative (station immobile dans un véhicule mobile, comme dans les transports en commun), ou totale (transition entre deux modes de transport, comme l’attente sur un quai, sous un abribus) ;
4. la plus ou moins grande absorption dans l’(les) activité(s) en cours : bref, la disponibilité attentionnelle.
Nous voudrions conclure cet article par deux remarques générales. La première concerne la méthode des trajets (post-)commentés imaginée pour enquêter sur les conduites perceptives des auditeurs-baladeurs. Elle met en jeu des ressources descriptives qui se situent à la croisée entre, d’une part, l’observation de l’action en train de se faire, dans son site et selon sa temporalité naturelle d’accomplissement ; et, d’autre part, le retour réflexif par les auditeurs-baladeurs sur cette action par le biais de verbalisations recueillies également in situ, lors de « pauses-entretiens ». Ce type de protocole descriptif semble le plus à même de faire accéder l’ethnographe aux ajustements auditifs des auditeurs-baladeurs, et plus largement aux conduites perceptives des agents sociaux. En effet, si les observations menées ont pu mettre en évidence la plupart des réactions ordinaires, routinières, aux bruits soudains dans l’environnement urbain, les verbalisations ont été indispensables pour rendre compte des interactions plus complexes, et notamment pour souligner les opérations de sélection auditive des sons pertinents à entendre. L’intérêt d’une méthode mêlant verbalisations et observations apparaît alors clairement pour saisir les conduites perceptives, du fait de leur faible observabilité, d’autant plus quand elles sont auditives. Sans les observations, il ne serait pas possible de décrire les perceptions périphériques, et plus généralement ce qui est, selon le mot de Garfinkel, « seen-but-unnoticed » (mais aussi « heard-but-unnoticed », etc.), comme tous ces coups d’œil rapides dans l’environnement, à peine perçus et rarement mémorisés par les agents comme des événements — bref : rarement mentionnés dans les seuls entretiens. Sans les verbalisations, les choses réellement entendues, et leur degré d’audition, resteraient de pures conjectures de la part de l’ethnographe.
La seconde remarque générale a trait à l’appréhension, par les sciences sociales, de l’espace public urbain : elle est largement dominée par la métaphore visuelle [16]. Les principes de visibilité et d’observabilité se trouvent ainsi au cœur de notre façon de comprendre la publicité urbaine (cf. Quéré, Brezger, 1993). Or, si la vision et l’audition sont unanimement reconnues comme les principaux sens de la vie sociale (Dufrenne, 1987), au moins en tant qu’ils sont les sens de la saisie à distance (et que la distance entre les individus est la règle dans notre urbanité — dans ses deux sens), seule la vision occupe une place centrale dans les analyses des sciences sociales. Il y a pourtant fort à parier que compléter les principes de visibilité et d’observabilité par leurs corollaires auditifs, à savoir l’entendabilité (ou audibilité) et l’écoutabilité, permettrait de dresser un compte-rendu plus complet de la vie (perceptive) urbaine. C’est ce qui a été recherché ici pour les auditeurs-baladeurs ; cela ne signifie pas transposer des notions issues de l’analyse visuelle pour l’analyse auditive, mais de montrer des opérations similaires (e.g. : du coup d’œil au coup d’oreille, ou de la vision à l’audition périphériques), tout en cherchant à décrire au plus près les spécificités respectives (e.g. : on n’échange pas des écoutes comme on échange des regards). La faible présence d’une métaphore auditive dans les sciences sociales est sans doute due en partie à la difficile observabilité des orientations auditives. C’est alors le mérite de l’ethnographie de nous faire au moins en partie accéder à ces dernières. En ce sens, l’intérêt de mener une ethnographie du bruit, et plus largement des sons, est de remettre au centre de l’attention les opérations auditives et leurs spécificités : de rééquilibrer la balance entre analyse auditive et analyse visuelle, et d’œuvrer ainsi à dresser un tableau plus complet de notre vie (perceptive) en société.